top of page
搜尋

Gemini 1.5 Flash 深度解析:價格、效能與多模態應用場景

已更新:11月11日

Gemini 1.5 Flash

Gemini 1.5 Flash是Google Gemini推出的高效能多模態人工智慧模型,針對需要快速、高效處理長內容的應用場景而設計。此模型不僅支援文本、影像、音訊和影片的多模態資料,還具備處理長達數百萬token的能力,在多模態長內容檢索中達到了超過99%的高準確度。


目錄


Gemini 1.5 Flash 是什麼?

Gemini 1.5 Flash是 Gemini 系列中的輕量版模型,專為高效處理設計,能夠在保留高效能的同時減少資源需求。此模型在長內容檢索中具備高度的準確度,適合用於需同時處理多模態資料的大規模應用環境,如影片分析、音訊識別與文本數據查詢等。


Gemini 1.5 Flash的技術特色

Gemini 1.5 Flash以高效能運算和稀疏矩陣技術為基礎,設計上優化了推理效率,使得模型在處理超過200萬token的文本或影像內容時,能夠快速響應並保持高精確度。此外,Flash版本進一步提升了資料檢索能力,即便在高達數小時的影片和音訊中也能有效進行精確定位。


長內容處理能力

Gemini 1.5 Flash的長內容處理能力顯著提升,尤其在長達200萬token的文本、影像和音訊中可達成近乎完美的檢索精準度。在「needle-in-the-haystack」測試中,Flash版本在文本、影像和音訊模態中達到超過99%的高準確度,顯示出優異的長內容回溯能力。這使得它特別適合需要長內容資料查詢的場景,如大規模文件處理、法規查詢等應用。


多模態處理優勢

不同於傳統模型僅支援單一模態,Gemini 1.5 Flash同時支援文本、影像、音訊和影片的多模態輸入,且在不同模態之間能進行交叉檢索。例如,在長達10小時的影片中,Flash可以精確定位到指定的畫面;在多小時音訊中也能迅速識別出關鍵詞,展現出其跨模態的靈活性,適合多樣化的資料環境需求,如影視資料分析、醫學影像識別等領域。


Gemini 1.5 Flash 模型詳細資料

  • 模型代碼: models/gemini-1.5-flash

  • 支援的資料類型

    • 輸入裝置: 音訊、圖片、影片和文字

    • 輸出裝置: 文字

  • Token 限制

    • 輸入 Token 限制: 1,048,576

    • 輸出 Token 限制: 8,192

  • 影音規格

    • 每則提示的圖片數量上限: 3,600

    • 影片長度上限: 1小時

    • 音訊長度上限: 約9.5小時

  • 頻率限制

    • Free:

      • 15 每分鐘請求數

      • 1 million Tokens/分

      • 1,500 每日請求數

    • Pay-as-you-go:

      • 2,000 每分鐘請求數

      • 4 million Tokens/分

  • 支援操作

    • 系統操作說明

    • JSON 模式

    • JSON 結構定義

    • 可調整的安全設定

    • 快取

    • 微調

    • 函式呼叫

    • 函式呼叫設定

    • 執行程式碼

  • 版本

    • 最新:gemini-1.5-flash-latest

    • 最新穩定版:gemini-1.5-flash

    • 穩定版:gemini-1.5-flash-001

  • 語言支援

    • 阿拉伯文、孟加拉文、保加利亞文、簡體中文、繁體中文、克羅埃西亞文、捷克文、丹麥文、荷蘭文、英文、愛沙尼亞文、芬蘭文、法文、德文、希臘文、希伯來文、北印度文、匈牙利文、印尼文、義大利文、日文、韓文、拉脫維亞文、立陶宛文、挪威文、波蘭文、葡萄牙文、羅馬尼亞文、俄文、塞爾維亞文、斯洛伐克文、斯洛維尼亞文、西班牙文、斯瓦希里文、瑞典文、泰文、土耳其文、烏克蘭文和越南文。


效能與成本分析

效能表現:在多項基準測試中,Gemini 1.5 Flash展示出卓越的效能。下表列出不同版本在各項能力上的測試數據,顯示其在處理一般、程式碼生成、數學推理、多語言翻譯、長內容、圖像、音訊、影片分析和安全性等方面的表現。

能力

基準測試

描述

Flash-8B (2024年10月)

Flash (2024年5月)

Flash (2024年9月)

一般

MMLU-Pro

高難度任務的綜合知識問答

58.7%

59.1%

67.3%

程式碼生成

Natural2Code

Python、Java、C++等代碼生成

75.5%

77.2%

79.8%

數學

MATH

包含代數、幾何等挑戰性數學題

58.7%

54.9%

77.9%

隱藏數學

HiddenMath

競賽級數學問題

32.8%

20.3%

47.2%

推理

GPQA (diamond)

生物、物理和化學專家設計的問題

38.4%

41.4%

51.0%

多語言

WMT23

語言翻譯

72.6

74.1

73.9

長內容

MRCR (1M)

長內容理解能力測試

54.7%

70.1%

71.9%

圖像

MMMU

多學科多模態理解

53.7%

56.1%

62.3%

視覺理解

Vibe-Eval (Reka)

視覺理解,具日常例子

40.9%

44.8%

48.9%

數學視覺推理

MathVista

視覺情境下的數學推理

54.7%

58.4%

65.8%

音訊

FLEURS (55語言)

自動語音識別(錯誤率越低越好)

13.6%

9.8%

9.6%

影片

Video-MME

跨多領域的影片分析

66.2%

74.7%

76.1%

安全性

XSTest

測量模型正確回應安全/無害提示的頻率

92.6%

86.9%

97.0%

成本效益:Gemini 1.5 Flash採用即付即用的計費方式,分為不同的使用層級,依提示字數和需求進行計費。若提示內容少於128k個符記,則計費標準如下:

  • 輸入價格:每100萬個符記 $0.075 美元

  • 輸出定價:每100萬個符記 $0.30 美元

  • 內容快取:每100萬個符記 $0.01875 美元


當提示字數超過128k個符記時,計費會隨需求增加:

  • 輸入價格:每100萬個符記 $0.15 美元

  • 輸出定價:每100萬個符記 $0.60 美元

  • 脈絡快取:每100萬個符記 $0.0375 美元


此外,Gemini API還提供額外的脈絡快取選項,每小時每100萬個權杖 $1.00 美元,用於高需求的數據存取和管理。


這種彈性的計費方式讓Gemini 1.5 Flash更具成本效益,特別適合有長內容需求的企業,並能根據實際使用量靈活調整成本。


實際應用範例

  • 文本與影像檢索整合:Gemini 1.5 Flash能在法律文件和影像資料中迅速檢索目標資訊,例如法律訴訟案件中的文本與影像對比。

  • 稀有語言翻譯:該模型能從單本語言資料中學習稀有語言並進行翻譯,為語言保護和翻譯應用提供便捷的解決方案。

  • 多模態自動化音訊識別:在醫療影像資料或影片中進行音訊與影像檢索,有效提升診斷和分析效率。


如何使用 Gemini 1.5 Flash?

使用Gemini 1.5 Flash的方式非常靈活,根據不同需求,企業和開發者可以選擇最適合的接入方式。首先,最簡單的方式是直接透過 Google Gemini 的聊天機器人,以互動的方式體驗Gemini 1.5 Flash的強大功能,適合小規模的查詢或一般使用。其次,開發者可以選擇 透過 API 串接,將Gemini 1.5 Flash無縫整合到自家的應用中,從而打造專屬的AI解決方案。最後,對於需要多種模型整合的企業,小豬科技提供了一個 統一的API介面,將 Gemini 1.5 Flash 與Claude 3.5、ChatGPT 等主流AI模型整合在一起。透過這個API介面,企業可以根據不同任務需求靈活切換模型,大幅提升AI應用的靈活性與效能,並降低整合成本。


常見問題 FAQ

  • Gemini 1.5 Flash能支援哪些語言和模態?此模型支援多種語言,包括英語、中文、日語、法語等,並支援跨模態自動化處理,特別在長內容翻譯和檢索方面表現出色。

  • Gemini 1.5 Flash的費用如何計算?Gemini 1.5 Flash採用即付即用的計費模式,當提示內容少於128k符記時,輸入價格為每百萬符記$0.075,輸出價格為$0.30,而內容快取為$0.01875。當提示超過128k符記時,輸入價格為$0.15,輸出價格為$0.60,脈絡快取為$0.0375。此外,還有每小時$1.00的脈絡快取選項,適合高需求的數據存取。

  • Gemini 1.5 Flash的Token和內容限制有哪些?在Token限制上,Gemini 1.5 Flash的輸入Token限制為1,048,576,而輸出Token限制為8,192。每則提示可包含最多3,600張圖片、長達1小時的影片或約9.5小時的音訊內容,使其非常適合處理長內容需求的應用場景。

  • 有哪些方式可以使用 Gemini 1.5 Flash?使用Gemini 1.5 Flash的方式多樣化,根據不同需求可選擇以下三種方式:直接透過Google Gemini聊天機器人進行互動、透過API串接至自家應用、以及透過小豬科技提供的統一API接口來整合多種AI模型,包括Gemini 1.5 Flash、Claude 3.5和ChatGPT API,根據不同任務需求靈活切換。


結論

Gemini 1.5 Flash以其高效能與多模態處理能力,在處理長內容資料方面展現出強大優勢。此模型不僅具備成本效益,還能有效應對多樣化資料的需求。Gemini 1.5 Flash為企業在多模態處理、大數據分析和跨模態應用中提供了值得信賴的解決方案,未來將成為推動人工智慧應用的重要基石。

9 次查看0 則留言

Comments


bottom of page