top of page
搜尋

Google Kubernetes Engine 為兆級參數 AI 模型做好準備,支援 65,000 個節點集群

GKE支援65,000個節點
圖片來源: Google

隨著生成式AI的普及,生成大型語言模型的需求也逐漸增長。這些模型的參數數量已達到數兆級別,對計算資源的需求也越來越高。Google Kubernetes Engine (GKE) 是 Google 為 AI 應用程式提供的容器化管理服務,現在它能支持多達 65,000 個節點的集群,這是目前公有雲市場上最大的擴展能力。


GKE 的前所未有的擴展性

GKE 新增的 65,000 節點集群支持為全球最資源密集的 AI 工作負載提供了必要的容量。每個節點配備多個加速器(例如,包含四個芯片的 Cloud TPU v5e 節點),使單一集群內可管理的加速器總數超過 250,000 個,這對於訓練和推論需要大量資源的 AI 模型尤其重要。


這一擴展性讓 AI 開發者和企業可以在一個集群內執行多個大規模訓練工作負載,並且有效分配計算資源,滿足推論、實驗和訓練的需求。


專為 AI 訓練和推論設計的創新功能

為了滿足這一前所未有的擴展需求,GKE 引入了多項功能,以支持大量節點集群的穩定運行:

  • Spanner支持的分散式儲存:GKE 轉而採用基於 Google Spanner 的分散式資料儲存,取代了傳統的 etcd,提供更強大的儲存擴展性和操作可靠性。

  • 強化的控制平面:控制平面進行了重大升級,以支援更大規模的集群,並自動適應操作需求,保持一致的運行效能。

  • 高效能存儲和加速器監控:提供如次要啟動磁碟、DCGM 完整管理指標、Hyperdisk ML 和無伺服器 GPU 等功能,以優化工作負載的啟動和監控。

  • 支持最新硬體技術:包括 Trillium 第六代 TPU 和配備 NVIDIA H200 Tensor Core GPU 的 A3 Ultra VM,以提供更快、更高效的 AI 模型訓練性能。


支援 AI 負載的基礎架構改進

GKE 的基礎架構進行了大規模升級,以更好地支援大規模的 AI 工作負載。新的控制平面架構允許進行高流量操作,並能在高變動性的應用程式中保持穩定的操作延遲。這對於 SaaS、災難恢復、批次部署和測試環境等高需求應用場景尤為重要。


Google 的開源承諾

Google 一直是開源社群的積極參與者,致力於改進 Kubernetes 以支持大規模 AI 平台。支持 65,000 節點集群的 GKE 是 Kubernetes 開源專案的一大進展。Google 也在 Kubernetes 的 Job API、K8S 批次工作組等方面做出了重要貢獻,以便更好地支持研究、高效能運算(HPC)和 AI 工作負載。


結論

GKE 現在可以支持多達 65,000 節點的集群,這對 AI 領域的巨大發展需求提供了強有力的支持。通過不斷創新,GKE 為 AI 開發人員和企業提供了前所未有的計算資源,從而加速生成式 AI 模型的開發和部署。隨著 Google 對開源的承諾,我們可以期待未來的 Kubernetes 和 GKE 將在 AI 平台上扮演更重要的角色。


常見問題 (FAQs)

1. GKE 如何支援大型 AI 模型的訓練?GKE 提供 65,000 節點的集群擴展性,並支持多加速器節點,可以有效支持大型 AI 模型的訓練需求。

2. GKE 如何確保高效的操作穩定性?GKE 的控制平面已經過升級,能自動適應高流量操作需求,並保持操作的穩定性和低延遲。

3. GKE 的開源承諾是什麼?Google 致力於改進 Kubernetes 的核心基礎,並做出多項開源貢獻,使其成為 AI 平台的堅實基礎。


3 次查看0 則留言

Comments


bottom of page