Llama 3.1 訓練太慢？Blackwell快 2.2 倍來了 | 財經

NVIDIA發布最新結果，Blackwell架構專為滿足這些對效能需求日漸升高的新型應用而打造。在最新一輪MLPerf Training測試中，同時也是自2018年推出這項基準測試以來的第12輪測試，NVIDIA AI平台在每項基準測試中均展現出最大規模效能，並驅動該基準測試中最具挑戰性的大型語言模型（LLM）測試項目「Llama 3.1 405B預訓練」的所有結果。

NVIDIA平台是唯一在每項MLPerf Training v5.0基準測試中均有提交結果的平台，這突顯其在各種AI工作負載中的卓越效能與任務多樣性，包括大型語言模型、推薦系統、多模態大型語言模型、物體偵測與圖神經網路（GNN）。

這次大規模提交的測試結果使用兩部搭載NVIDIABlackwell平台的AI超級電腦：Tyche採用NVIDIA GB200 NVL72機架規模系統打造，Nyx則以NVIDIA DGX B200系統為基礎。此外，NVIDIA也與CoreWeave和IBM合作，提交GB200 NVL72的測試結果，共使用2,496顆Blackwell GPU與1,248顆NVIDIA Grace CPU。

在最新的Llama 3.1 405B預訓練基準測試中，Blackwell的效能較上一代架構在相同規模下高出2.2倍。在Llama 2 70B LoRA微調基準測試中，搭載8顆Blackwell GPU的NVIDIA DGX B200系統效能，較上一輪使用相同數量GPU的測試結果提升達2.5倍。

這些效能上的躍進突顯Blackwell架構的優勢，包括高密度液冷機架、每個機架搭配13.4TB的一致性記憶體、用於垂直擴展的第五代NVIDIA NVLink及NVIDIA NVLink Switch互連技術，以及用於橫向擴展的NVIDIA Quantum-2 InfiniBand網路技術。此外，NVIDIA NeMo Framework軟體堆疊的創新技術，提升了下一代多模態大型語言模型訓練的水準，這對於將代理型AI應用推向市場而言至關重要。

這些由代理型AI驅動的應用，有朝一日將在AI工廠中運行，而這些AI工廠正是推動代理型AI經濟的引擎。這些全新應用將產生各種詞元（token）與寶貴的智慧，可應用於幾乎所有產業與學術領域。

NVIDIA資料中心平台包含GPU、CPU、高速互連架構和網路技術，以及種類豐富的軟體，包括NVIDIA CUDA-X函式庫、NeMo Framework、NVIDIA TensorRT-LLM與NVIDIA Dynamo。這套高度最佳化的硬體與軟體，使得組織能更快速地訓練及部署模型，顯著加快創造價值的時間。

NVIDIA的合作夥伴生態系廣泛參與這輪MLPerf測試。除了與CoreWeave和IBM合作提交的測試結果外，華碩、思科、戴爾科技集團、技鋼科技、Google Cloud、慧與科技、Lambda、聯想集團、Nebius、Oracle Cloud Infrastructure、雲達科技和美超微亦交出亮眼的測試結果。