Google Cloud 宣佈其第六代 Tensor Processing Unit (TPU)——Trillium TPU正式全面上市。隨著 AI 工作負載日益增長且日趨複雜,Trillium 提供了前所未有的計算能力、效率和擴展性,專為處理多模態 AI 模型(如文本與圖像生成)而設計。
Trillium TPU 已成功用於訓練 Gemini 2.0,這是 Google 最先進的 AI 模型之一。現在,企業和開發者也能夠利用這一尖端基礎設施推動創新。
Trillium TPU 的意義
當前的大規模 AI 模型(如大型語言模型 LLM 和圖像生成模型)需要高度專業化的硬體支持。Trillium TPU 不僅應對了這些挑戰,還提供了:
極高效能的硬體設計。
彈性消費模式。
經優化的軟體框架(支援 TensorFlow、PyTorch 和 JAX)。
可持續且具成本效益的解決方案。
Trillium TPU 的關鍵提升
效能大幅提升: 與前一代相比,Trillium TPU 的表現提升顯著
訓練效能提升 4 倍。
推論(Inference)吞吐量提高 3 倍。
單芯片峰值計算效能提升 4.7 倍。
能源效率提升: Trillium 在能源效率方面提升了 67%,展現其可持續設計理念。
規模化能力: Trillium TPU 可在單一 Jupiter 網絡結構中整合 10 萬顆芯片,並提供 13 Petabits/秒的雙向頻寬,支持超大規模分佈式 AI 工作負載。
Trillium TPU 在 AI 工作負載中的應用
大規模訓練工作負載: Trillium 的架構支援近乎線性擴展,能有效加速大型模型(如 Gemini 2.0)的訓練。例如:
12 個 TPU 集群(3072 顆芯片)達到 99% 的擴展效率。
即便拓展至 24 個集群(6144 顆芯片),依然能維持 94% 的效率。
大型語言模型(LLM)訓練: Trillium 在訓練大型語言模型(如 Llama-2-70B 和 GPT3-175B)方面表現卓越:
訓練速度提升 4 倍。
支援 Mixture of Experts (MoE) 架構,訓練速度提高 3.8 倍。
推論與調度優化: Trillium 能顯著提升推論效能,例如:
對於 Stable Diffusion XL,離線推論吞吐量提升 3.1 倍。
引入智能化作業調度功能,改善多主機工作負載的效率。
嵌入密集型模型: 憑藉第三代 SparseCore,Trillium 提供了:
2 倍提升的嵌入模型效能。
5 倍提升的 DLRM DCNv2 模型效能。
成本效益的優勢
Trillium 在性能與成本之間找到了理想平衡:
在訓練 LLM 時,效能每美元提升 2.5 倍。
對於 Stable Diffusion XL,生成 1000 張圖像的成本比 TPU v5e 降低 22%-27%。
這些特性使 Trillium 成為追求效率與經濟性的企業的理想選擇。
結論
Trillium TPU 是 Google Cloud 在 AI 基礎設施領域的一次重大突破。無論是訓練大型語言模型還是優化推論工作負載,Trillium 都能幫助企業快速實現創新。
Google Cloud 透過 Trillium 展現了其推動 AI 基礎設施邊界的決心。隨著這項技術進一步普及,它將為各行各業的 AI 應用開啟新的可能性。
Comments