top of page

Google AI 工具|Imagen 3、Veo、Chirp、Lyria 應用教學

  • 作家相片: 庭妤 郭
    庭妤 郭
  • 4月17日
  • 讀畢需時 8 分鐘

本篇整理 Google Cloud Next 25 發表的 AI 工具,包括 Imagen 3 圖像製作、Veo 影片生成、Chirp 語音辨識與 Lyria 音樂創作,並教你操作方法以快速掌握多媒體生成應用。

隨著 AI 工具應用越來越普及,許多人開始尋找能實際解決工作問題、加速內容產出的工具。如果你曾想過「圖片可不可以直接用文字生成?語音怎麼快速轉文字?有沒有免費又強的 AI 工具可以試?」那麼 Google 最新推出的這四款工具你一定不能錯過。

影片來源:NewsPiggy 科技新聞(YouTube)

目錄


Imagen 3 是什麼?如何用文字生成圖片?

Imagen 3 是 Google 推出的 AI 圖片生成模型,主打寫實、乾淨、光影自然的畫面表現。它可以根據你輸入的文字描述(Prompt)快速產出高品質圖像,無論是商業攝影、簡報封面、社群貼圖、電商產品照都能勝任。

相較於 Midjourney、DALL·E 等風格化生成工具,Imagen 更強調實用性與真實感,非常適合想快速產圖、但又希望圖像風格穩定、能拿來直接用的工作者。


🎯 Imagen 3 常見應用情境

  • 行銷人員:需要社群貼文封面圖、活動主視覺

  • 電商賣家:需要產品情境照、風格化主圖

  • 教育簡報:想加入風格一致的情境插圖或流程圖

  • 內容創作者:為部落格、影片縮圖快速搭配主視覺


🛠️ 如何使用 Imagen 3 ?

  1. 一般用戶:透過 Gemini App 直接生圖

最快上手的方式,是使用 Google Gemini 的網頁應用介面(gemini.google.com/app)。你只需要登入帳號,在對話框中輸入描述並要求「生成圖片」,即可由 Imagen 3 幫你自動產出圖片。


  1. 企業/開發者用戶:使用 Vertex AI Studio

如果你希望將圖像生成整合進專案開發、應用系統或內容平台中,可進一步透過 Vertex AI Studio 操作 Imagen 3。

這個平台支援圖片生成、模型選擇、API 串接與多步驟工作流程,特別適合:

  • 團隊自動化產圖流程

  • 建立「AI 圖像 + 內容產出」一體化平台

  • 搭配 AI Agents 作為任務流程中的一環

💬 進入 Vertex AI 前,建議先了解帳戶權限、配額限制與試用額度(如 Google Cloud 免費 $300 點數),適合中大型內容或開發團隊使用。


💡 Prompt 實例教學:實際應用情境+圖像展示

✅ 實例一:產品情境照

Prompt:一瓶護膚精華液放在大理石紋檯面上,自然光與綠植背景,商業攝影風格

👉 應用說明: 這樣的生成圖非常適合用於電商商品主圖、內容行銷素材或 A/B 測試視覺版本。

👉 生成圖片展示:

Google AI 工具
圖片來源:Imagen 3 AI 圖片生成

✅ 實例二:簡報封面設計

Prompt:太陽能板在藍天下,低視角拍攝,帶科技感的構圖,封面文字為 Proposal Report

👉 應用說明: 可用於 ESG 提案、綠能專案、科技簡報,取代制式圖庫,更具客製感與一致風格。

👉 生成圖片展示:

Google AI 工具
圖片來源:Imagen 3 AI 圖片生成

Veo 2 是什麼?用 AI 文字生成影片的實用工具

Veo 是 Google 推出的 AI 影片生成工具,能根據你的文字敘述(Prompt)自動產出具有鏡頭感、動態分鏡與畫面連貫的影片。這代表你不需要拍攝、不會剪接,也能輕鬆產出像樣的短影音,適合用在廣告構想、簡報開場、自媒體草稿製作等情境。

Veo 是目前市面上少數真正能將「文字 → 有情境的影片」自動完成的工具之一,也正是 Google 在 2025 年 Cloud Next 大會上強調的核心創作應用之一。


🎯 Veo 2 常見應用場景

  • 行銷:快速產出 10 秒廣告影片,搭配腳本與標語做素材測試

  • 教學:用一句話製作課程片頭或引導動畫

  • 自媒體:生成 vlog 開場、短影音 B-roll 畫面

  • 簡報:快速補上有氛圍的動態開場,提升質感


🛠️ 如何使用 Veo 2 ?

目前 Veo 2 已支援在 Google Cloud 的 Vertex AI 平台中使用,並開放企業用戶申請。你可以透過以下方式啟用或關注未來進展:

  1. 一般用戶(尚未全面開放)

    目前 Veo 2 官網 展示上的 VideoFX 功能尚未開放台灣地區使用,即使點擊也可能顯示「地區不支援」。此外,目前 Veo 還尚未加入 Gemini 的公開模型中

    替代使用方式:

    你可以前往 Google AI Studio 的 VideoGen 工具,該功能目前已能在台灣地區正常使用,支援輸入英文 Prompt,生成 5~8 秒影片,操作步驟如下:

    • 前往 aistudio.google.com/generate-video

    • 登入 Google 帳戶後輸入 Prompt(可參考下方商品展示範例)

    • 點選「Generate」,等待數十秒即可獲得影片結果

    • 可選擇直接下載或進行微調

    📌 小提醒:目前僅支援英文輸入、影片長度與畫面品質有限制,但非常適合初學者與內容製作者測試 AI 影片生成效果

    Google AI 工具
    圖片來源:Google AI Studio
  2. 企業/開發者用戶(已可整合至 Vertex AI)

    • Veo 2 現已於 Vertex AI 上支援整合,企業可透過 Google Cloud 帳戶代表申請預覽使用權

    • 可透過 Vertex AI Studio 串接 Veo,搭配 Agent Builder 或任務流程,進行腳本驅動式影片生成

    • 適合大規模素材生成、自動化內容流程、產品展示影片產出等應用場景


💡 Prompt 實例教學:商品展示影片生成

如果你之前用 Imagen 3 生成過靜態產品圖,那現在就可以透過 Veo 2,讓畫面真正「動起來」。

Prompt:A bottle of skincare serum spinning slowly on a marble countertop, natural sunlight streaming in from the side, soft focus background with green plants, professional product commercial style, 10 seconds, camera pans in.

👉 應用說明: 以下是一個適合做產品展示的 Veo Prompt,語意清楚,強調光線、質感與鏡頭動作,非常適合應用於社群影片、商品簡介或廣告草稿:

👉 生成影片展示:

影片來源:Veo 2 AI 影片生成

Chirp 是什麼?Google 的語音辨識與語音轉文字模型

Chirp 是 Google 推出的自研語音辨識模型,主打高準確率、低延遲回應,支援多種語言的語音轉文字(Speech to Text)與語音合成(Text to Speech)應用。Chirp 採用自監督訓練方式,可理解自然語音中的口音、語調與語速變化,因此非常適合會議記錄、客服應答、影音字幕、逐字稿整理等情境。

Chirp 是 Google Cloud 旗下語音服務(Speech-to-Text API、Vertex AI Search and Conversation)的技術核心,未來也預計整合進 Gemini App 與 AI Agents 工作流程中。


🎯 Chirp 常見應用場景

  • 會議記錄:快速將語音轉成逐字稿(如 Google Meet 的轉錄功能)

  • 客服應答系統:語音指令辨識、自動生成回應文字或語音

  • 影音字幕產製:將錄音或影片內容轉為中英文字幕檔

  • 語音操作工具:如 Google Assistant、智慧助理等語音理解引擎

  • 教育內容轉錄:講師錄音轉為可搜尋的教學內容


🛠️ 如何使用 Chirp?

  1. 一般用戶(Google 免費語音轉文字方案):

你可以透過以下免費方式,體驗 Google 語音辨識能力(部分已內建使用 Chirp 模型):

  • Google 即時轉錄(Live Transcribe)App適用於 Android,用途為語音即時文字轉換,支援中文與多國語言📲 可於 Google Play 搜尋「即時轉錄」下載

  • Google 文件語音輸入功能(Chrome)在 Google 文件中,點選工具 → 語音輸入,就可直接將說話轉為文字

  • YouTube 自動字幕產生上傳影片後自動產出中英文字幕,可作為轉錄草稿基礎

  1. 企業/開發者用戶(使用 Google Cloud Speech-to-Text API)

如果你需要更穩定、高彈性或大量語音處理能力,可使用 Google Cloud 提供的 Speech-to-Text API,其背後正是由 Chirp 模型驅動:

  • 支援音檔上傳、自動辨識、語者分離、多語言識別

  • 可搭配 Vertex AI Search & Conversation 建立語音搜尋或語音回覆應用

  • 可嵌入應用程式、SaaS 產品中作為語音互動功能

📌 詳細使用請參考:Google Cloud Speech-to-Text


Lyria 是什麼?Google 的文字轉音樂 AI 工具(目前尚未全面開放)

Lyria 是由 Google DeepMind 開發的 AI 音樂生成模型,可根據文字提示自動創作旋律、配樂,甚至模擬特定風格的演奏片段。無論是 demo 創作、影片配樂還是品牌音樂,Lyria 都能降低音樂製作門檻,加快內容產出流程。

這款模型支援多種風格(如古典、電子、爵士)與樂器編排,理解語意中的情緒與場景設定,生成的音樂不僅有旋律,也具備層次感與節奏感。更特別的是,Lyria 支援人聲、MIDI 編曲與合唱樣式輸出,並嵌入 SynthID 浮水印,確保 AI 音樂來源可追溯、可控,適合用於行銷、教育與創作應用。


🎯 Lyria 的應用場景

  • YouTuber / 剪輯師:需要快速找到不侵權、符合情境的配樂

  • 行銷團隊:為品牌影片、簡報或廣告產出客製音樂

  • 創作型音樂人:用文字描述初步想法,生成旋律靈感或概念雛形

  • 教育用途:讓學生體驗作曲邏輯、音樂風格建構


🛠️ Lyria 要怎麼使用?目前尚未全面開放

截至目前為止,Lyria 尚未整合進 Google AI Studio 或 Gemini App 一般使用者介面中,因此一般用戶暫時無法操作試用。

不過,Google 已於官方公告中表示,Lyria 現已支援於 Vertex AI 平台內,並以「白名單預覽」方式開放給企業用戶。若你是開發團隊、內容創作者平台或品牌應用開發者,可聯繫 Google Cloud 代表申請開通權限。

📌 若未來 Lyria 進入 Gemini App 或 AI Studio,我們會同步更新最新操作方式與實測體驗。


快速比一比:Google 四大 AI 工具用途&使用方式總整理

工具

功能類型

能做什麼

適合誰

使用入口

Imagen 3

圖像生成

根據文字描述生成高畫質圖片

-行銷人員 -電商賣家 -簡報製作

-Gemini -Vertex AI

Veo 2

影片生成

根據腳本生成動態影片,支援鏡位、風格、構圖

-自媒體 -教學人員 -品牌影片

-Google AI Studio -Vertex AI

Chirp

語音辨識/ 轉文字

將語音即時轉文字,支援會議紀錄、字幕、語音輸入

-客服人員 -會議紀錄 -影片剪輯人員

-Google Doc -即時轉錄 App -GCP API

Lyria

音樂生成

根據文字提示產生旋律與配樂,支援聲部編排

-音樂創作 -影片配樂

-Vertex AI

結語:Google AI 工具全面進化,未來將一站搞定內容創作

透過 Imagen 3、Veo 2、Chirp 與 Lyria,Google 正逐步建構一套完整的 AI 內容創作工具鏈。這些工具不再只是模型展示,而是實際可用、可整合於工作流程的 AI 助手。從圖像生成、影片創作、語音轉文字到音樂配樂,每一項工具都針對特定創作痛點提出對應解法。

目前多數功能已可透過 Gemini App、Google AI Studio 或 Vertex AI 陸續體驗,隨著後續開放程度擴大,這些工具勢必成為數位內容生產的新基礎建設。

未來的 AI,不只是輔助,而是與你一起創作的團隊成員。現在就開始探索這些工具,讓 AI 幫你「寫出、說出、畫出、唱出」每一個靈感。






Comments


​文章分類
熱門標籤
bottom of page