當今最複雜的 AI 模型,像是大規模混合專家(MoE)模型,要達到業界領先的效能,必須將推論任務分散到多台伺服器(節點)上,這樣才能同時服務數百萬使用者,並確保回應速度迅速。

NVIDIA 的 Dynamo 軟體平台將這種強大的多節點處理能力帶入實際生產環境,使企業能夠在現有的雲端基礎設施上,實現基準測試中所顯示的卓越效能和高效運行。

當前熱搜:中國竟容許外交官談「砍頭」矢板明夫:他還說要砍美戰爭部長的頭

以下是輝達發布最新動向,探討多節點推論如何提升效能,以及各大雲端平台如何實際運用這項技術來達到最佳效果。

善用解構式推論 最佳化效能

對於能完整放在單一 GPU 或單一伺服器上的 AI 模型,開發者通常會在多個節點上平行運行許多相同模型的複本,以提供高輸送量。Signal65 首席分析師 Russ Fellows 在近期一篇技術報告中指出,這種作法搭配 72 顆 NVIDIA Blackwell Ultra GPU,首次創下每秒 110 萬個詞元 (token) 的聚合輸送量紀錄。

現正最夯:中配村長訴願成功!內政部:未放棄中華民國以外國籍村里長應解職

而當 AI 模型需要擴充,以即時服務大量同時上線的使用者,或是需要處理輸入序列極長的高負載工作時,採用稱為解構式服務(disaggregated serving)的技術,便能進一步釋放效能並提升效率。

AI 模型在提供服務時,大致可分為兩個階段:處理輸入提示的預填(prefill)階段,以及產生輸出結果的解碼(decode)階段。傳統上,這兩個階段都在同一組 GPU 上執行,容易降低資源使用效率。

解構式服務的做法,是將這些工作智慧地分配到分別最佳化的 GPU 上。如此,每一部分工作都能套用最合適的最佳化技術,極大化整體效能。對於當今大規模的 AI 推理與混合專家模型(如 DeepSeek-R1),解構式服務便是其中的關鍵技術。

NVIDIA Dynamo讓解構式服務等功能,能輕鬆擴展至 GPU 叢集層級,導入實際生產環境。這項能力已經開始創造實際價值。

以 Baseten 為例,該公司透過 NVIDIA Dynamo,將長脈絡程式碼生成的推論服務速度提升 2 倍,輸送量提高至 1.6 倍,且完全不需要額外的硬體成本。這類由軟體驅動的效能提升,讓 AI 服務供應商可以大幅降低生產智慧的成本。

在雲端擴展解構式推論

就像當年協助大規模 AI 訓練一樣,Kubernetes 做為容器化應用管理的業界標準,也同樣非常適合用來將解構式服務擴展到數十、甚至數百個節點,滿足企業級 AI 佈署需求。

隨著 NVIDIA Dynamo 現已整合進所有主要雲端供應商的託管式 Kubernetes 服務中,客戶可以在包括 GB200 與 GB300 NVL72等 NVIDIA Blackwell 系統上擴展多節點推論,同時滿足企業 AI 佈署對效能、彈性與可靠性的嚴格要求。

Amazon Web Services 現正透過 NVIDIA Dynamo,並結合 Amazon EKS,為客戶加速生成式 AI 推論。

Google Cloud 在其 AI Hypercomputer 上提供 Dynamo 配方(recipe),以在企業規模下最佳化大型語言模型(LLM)推論。

Microsoft Azure 透過 Azure Kubernetes Service,搭配 NVIDIA Dynamo 與 ND GB200-v6 GPU,實現多節點大型語言模型推論。

Oracle Cloud Infrastructure(OCI)結合 OCI Superclusters 與 NVIDIA Dynamo,提供多節點大型語言模型推論能力。推動大規模多節點推論的腳步,已不僅止於超大規模雲端服務業者。

例如 Nebius 正在設計其雲端平台,目標是大規模提供推論工作負載服務,並以 NVIDIA 加速運算基礎設施為基礎,以生態系夥伴角色使用NVIDIA Dynamo 協作。

在 Kubernetes 上結合 NVIDIA Grove 與 NVIDIA Dynamo,簡化推論流程。解構式 AI 推論需要協調多個專門元件的運作,包括預填(prefill)、解碼(decode)、路由(routing)等,而且每個元件都有不同需求。Kubernetes 現在面臨的挑戰,不再只是啟動更多平行的模型複本,而是如何巧妙地將這些不同的元件整合成一個運作順暢、效能卓越的系統。

NVIDIA Grove 是一套現已整合進 NVIDIA Dynamo 的應用程式介面,可讓使用者以單一、高層級的規格描述整個推論系統。

例如,在一份規格中,使用者只需要清楚宣告需求:「我需要 3 個用於預填階段的 GPU 節點,以及 6 個用於解碼階段的 GPU 節點,而且同一個模型複本所需的所有節點,都必須部署在同一個高速互連網路上,以獲得最快速的回應。」

在取得這份規格後,Grove 會自動處理所有繁複的協調作業:在維持正確比例與相依性的前提下,擴展相關元件,依正確順序啟動,並在叢集中策略性配置,確保溝通快速且高效。想了解如何開始使用 NVIDIA Grove,可參閱相關技術深度解析。

隨著 AI 推論日益走向分散式架構,Kubernetes 結合 NVIDIA Dynamo 與 NVIDIA Grove,將大幅簡化開發者建置與擴展智慧型應用程式的方式。