Google AI 工具｜Imagen 3、Veo、Chirp、Lyria 應用教學

庭妤郭
2025年4月17日
讀畢需時 8 分鐘

本篇整理 Google Cloud Next 25 發表的 AI 工具，包括 Imagen 3 圖像製作、Veo 影片生成、Chirp 語音辨識與 Lyria 音樂創作，並教你操作方法以快速掌握多媒體生成應用。

延伸閱讀 👉 Google Cloud Next '25：Vertex AI 與 AI Agents 崛起

隨著 AI 工具應用越來越普及，許多人開始尋找能實際解決工作問題、加速內容產出的工具。如果你曾想過「圖片可不可以直接用文字生成？語音怎麼快速轉文字？有沒有免費又強的 AI 工具可以試？」那麼 Google 最新推出的這四款工具你一定不能錯過。

影片來源：NewsPiggy 科技新聞（YouTube）

Imagen 3：圖片生成工具，讓靜態視覺快速成型
Veo 2：從文字生成影片，腳本直接變動態素材
Chirp：語音轉文字 / 語音辨識工具
Lyria：文字生成音樂的 AI 創作模型
總整理：四大 Google AI 工具對照表
結語：Google AI 工具全面進化，未來將一站搞定內容創作

Imagen 3 是什麼？如何用文字生成圖片？

Imagen 3 是 Google 推出的 AI 圖片生成模型，主打寫實、乾淨、光影自然的畫面表現。它可以根據你輸入的文字描述（Prompt）快速產出高品質圖像，無論是商業攝影、簡報封面、社群貼圖、電商產品照都能勝任。

相較於 Midjourney、DALL·E 等風格化生成工具，Imagen 更強調實用性與真實感，非常適合想快速產圖、但又希望圖像風格穩定、能拿來直接用的工作者。

🎯 Imagen 3 常見應用情境

行銷人員：需要社群貼文封面圖、活動主視覺
電商賣家：需要產品情境照、風格化主圖
教育簡報：想加入風格一致的情境插圖或流程圖
內容創作者：為部落格、影片縮圖快速搭配主視覺

🛠️ 如何使用 Imagen 3 ？

一般用戶：透過 Gemini App 直接生圖

最快上手的方式，是使用 Google Gemini 的網頁應用介面（gemini.google.com/app）。你只需要登入帳號，在對話框中輸入描述並要求「生成圖片」，即可由 Imagen 3 幫你自動產出圖片。

企業／開發者用戶：使用 Vertex AI Studio

如果你希望將圖像生成整合進專案開發、應用系統或內容平台中，可進一步透過 Vertex AI Studio 操作 Imagen 3。

這個平台支援圖片生成、模型選擇、API 串接與多步驟工作流程，特別適合：

團隊自動化產圖流程
建立「AI 圖像 + 內容產出」一體化平台
搭配 AI Agents 作為任務流程中的一環

💬 進入 Vertex AI 前，建議先了解帳戶權限、配額限制與試用額度（如 Google Cloud 免費 $300 點數），適合中大型內容或開發團隊使用。

延伸閱讀 👉 Vertex AI 是什麼？功能介紹、應用教學與費用一次看懂

💡 Prompt 實例教學：實際應用情境＋圖像展示

✅ 實例一：產品情境照

Prompt：一瓶護膚精華液放在大理石紋檯面上，自然光與綠植背景，商業攝影風格

👉 應用說明： 這樣的生成圖非常適合用於電商商品主圖、內容行銷素材或 A/B 測試視覺版本。

👉 生成圖片展示：

✅ 實例二：簡報封面設計

Prompt：太陽能板在藍天下，低視角拍攝，帶科技感的構圖，封面文字為 Proposal Report

👉 應用說明： 可用於 ESG 提案、綠能專案、科技簡報，取代制式圖庫，更具客製感與一致風格。

👉 生成圖片展示：

Veo 2 是什麼？用 AI 文字生成影片的實用工具

Veo 是 Google 推出的 AI 影片生成工具，能根據你的文字敘述（Prompt）自動產出具有鏡頭感、動態分鏡與畫面連貫的影片。這代表你不需要拍攝、不會剪接，也能輕鬆產出像樣的短影音，適合用在廣告構想、簡報開場、自媒體草稿製作等情境。

Veo 是目前市面上少數真正能將「文字 → 有情境的影片」自動完成的工具之一，也正是 Google 在 2025 年 Cloud Next 大會上強調的核心創作應用之一。

🎯 Veo 2 常見應用場景

行銷：快速產出 10 秒廣告影片，搭配腳本與標語做素材測試
教學：用一句話製作課程片頭或引導動畫
自媒體：生成 vlog 開場、短影音 B-roll 畫面
簡報：快速補上有氛圍的動態開場，提升質感

🛠️ 如何使用 Veo 2 ？

目前 Veo 2 已支援在 Google Cloud 的 Vertex AI 平台中使用，並開放企業用戶申請。你可以透過以下方式啟用或關注未來進展：

一般用戶（尚未全面開放）
目前 Veo 2 官網 展示上的 VideoFX 功能尚未開放台灣地區使用，即使點擊也可能顯示「地區不支援」。此外，目前 Veo 還尚未加入 Gemini 的公開模型中。
✅ 替代使用方式：
你可以前往 Google AI Studio 的 VideoGen 工具，該功能目前已能在台灣地區正常使用，支援輸入英文 Prompt，生成 5～8 秒影片，操作步驟如下：
- 前往 aistudio.google.com/generate-video
- 登入 Google 帳戶後輸入 Prompt（可參考下方商品展示範例）
- 點選「Generate」，等待數十秒即可獲得影片結果
- 可選擇直接下載或進行微調
📌 小提醒：目前僅支援英文輸入、影片長度與畫面品質有限制，但非常適合初學者與內容製作者測試 AI 影片生成效果
圖片來源：Google AI Studio
企業／開發者用戶（已可整合至 Vertex AI）
- Veo 2 現已於 Vertex AI 上支援整合，企業可透過 Google Cloud 帳戶代表申請預覽使用權
- 可透過 Vertex AI Studio 串接 Veo，搭配 Agent Builder 或任務流程，進行腳本驅動式影片生成
- 適合大規模素材生成、自動化內容流程、產品展示影片產出等應用場景

💡 Prompt 實例教學：商品展示影片生成

如果你之前用 Imagen 3 生成過靜態產品圖，那現在就可以透過 Veo 2，讓畫面真正「動起來」。

Prompt：A bottle of skincare serum spinning slowly on a marble countertop, natural sunlight streaming in from the side, soft focus background with green plants, professional product commercial style, 10 seconds, camera pans in.

👉 應用說明： 以下是一個適合做產品展示的 Veo Prompt，語意清楚，強調光線、質感與鏡頭動作，非常適合應用於社群影片、商品簡介或廣告草稿：

👉 生成影片展示：

影片來源：Veo 2 AI 影片生成

Chirp 是什麼？Google 的語音辨識與語音轉文字模型

Chirp 是 Google 推出的自研語音辨識模型，主打高準確率、低延遲回應，支援多種語言的語音轉文字（Speech to Text）與語音合成（Text to Speech）應用。Chirp 採用自監督訓練方式，可理解自然語音中的口音、語調與語速變化，因此非常適合會議記錄、客服應答、影音字幕、逐字稿整理等情境。

Chirp 是 Google Cloud 旗下語音服務（Speech-to-Text API、Vertex AI Search and Conversation）的技術核心，未來也預計整合進 Gemini App 與 AI Agents 工作流程中。

🎯 Chirp 常見應用場景

會議記錄：快速將語音轉成逐字稿（如 Google Meet 的轉錄功能）
客服應答系統：語音指令辨識、自動生成回應文字或語音
影音字幕產製：將錄音或影片內容轉為中英文字幕檔
語音操作工具：如 Google Assistant、智慧助理等語音理解引擎
教育內容轉錄：講師錄音轉為可搜尋的教學內容

🛠️ 如何使用 Chirp？

一般用戶（Google 免費語音轉文字方案）：

你可以透過以下免費方式，體驗 Google 語音辨識能力（部分已內建使用 Chirp 模型）：

Google 即時轉錄（Live Transcribe）App適用於 Android，用途為語音即時文字轉換，支援中文與多國語言📲 可於 Google Play 搜尋「即時轉錄」下載
Google 文件語音輸入功能（Chrome）在 Google 文件中，點選工具 → 語音輸入，就可直接將說話轉為文字
YouTube 自動字幕產生上傳影片後自動產出中英文字幕，可作為轉錄草稿基礎

企業／開發者用戶（使用 Google Cloud Speech-to-Text API）

如果你需要更穩定、高彈性或大量語音處理能力，可使用 Google Cloud 提供的 Speech-to-Text API，其背後正是由 Chirp 模型驅動：

支援音檔上傳、自動辨識、語者分離、多語言識別
可搭配 Vertex AI Search & Conversation 建立語音搜尋或語音回覆應用
可嵌入應用程式、SaaS 產品中作為語音互動功能

📌 詳細使用請參考：Google Cloud Speech-to-Text

Lyria 是什麼？Google 的文字轉音樂 AI 工具（目前尚未全面開放）

Lyria 是由 Google DeepMind 開發的 AI 音樂生成模型，可根據文字提示自動創作旋律、配樂，甚至模擬特定風格的演奏片段。無論是 demo 創作、影片配樂還是品牌音樂，Lyria 都能降低音樂製作門檻，加快內容產出流程。

這款模型支援多種風格（如古典、電子、爵士）與樂器編排，理解語意中的情緒與場景設定，生成的音樂不僅有旋律，也具備層次感與節奏感。更特別的是，Lyria 支援人聲、MIDI 編曲與合唱樣式輸出，並嵌入 SynthID 浮水印，確保 AI 音樂來源可追溯、可控，適合用於行銷、教育與創作應用。

🎯 Lyria 的應用場景

YouTuber / 剪輯師：需要快速找到不侵權、符合情境的配樂
行銷團隊：為品牌影片、簡報或廣告產出客製音樂
創作型音樂人：用文字描述初步想法，生成旋律靈感或概念雛形
教育用途：讓學生體驗作曲邏輯、音樂風格建構

🛠️ Lyria 要怎麼使用？目前尚未全面開放

截至目前為止，Lyria 尚未整合進 Google AI Studio 或 Gemini App 一般使用者介面中，因此一般用戶暫時無法操作試用。

不過，Google 已於官方公告中表示，Lyria 現已支援於 Vertex AI 平台內，並以「白名單預覽」方式開放給企業用戶。若你是開發團隊、內容創作者平台或品牌應用開發者，可聯繫 Google Cloud 代表申請開通權限。

📌 若未來 Lyria 進入 Gemini App 或 AI Studio，我們會同步更新最新操作方式與實測體驗。

快速比一比：Google 四大 AI 工具用途＆使用方式總整理

工具	功能類型	能做什麼	適合誰	使用入口
Imagen 3	圖像生成	根據文字描述生成高畫質圖片	-行銷人員 -電商賣家 -簡報製作	-Gemini -Vertex AI
Veo 2	影片生成	根據腳本生成動態影片，支援鏡位、風格、構圖	-自媒體 -教學人員 -品牌影片	-Google AI Studio -Vertex AI
Chirp	語音辨識／轉文字	將語音即時轉文字，支援會議紀錄、字幕、語音輸入	-客服人員 -會議紀錄 -影片剪輯人員	-Google Doc -即時轉錄 App -GCP API
Lyria	音樂生成	根據文字提示產生旋律與配樂，支援聲部編排	-音樂創作 -影片配樂	-Vertex AI

結語：Google AI 工具全面進化，未來將一站搞定內容創作

透過 Imagen 3、Veo 2、Chirp 與 Lyria，Google 正逐步建構一套完整的 AI 內容創作工具鏈。這些工具不再只是模型展示，而是實際可用、可整合於工作流程的 AI 助手。從圖像生成、影片創作、語音轉文字到音樂配樂，每一項工具都針對特定創作痛點提出對應解法。

目前多數功能已可透過 Gemini App、Google AI Studio 或 Vertex AI 陸續體驗，隨著後續開放程度擴大，這些工具勢必成為數位內容生產的新基礎建設。

未來的 AI，不只是輔助，而是與你一起創作的團隊成員。現在就開始探索這些工具，讓 AI 幫你「寫出、說出、畫出、唱出」每一個靈感。

Google AI 工具｜Imagen 3、Veo、Chirp、Lyria 應用教學