隨著人工智慧(AI)從一次性回覆轉變成複雜推理(reasoning)推論(inference)的需求與其背後的經濟效益正急速成長。

全新的獨立 InferenceMAX v1是首個在真實場景中衡量總運算成本的基準測試。結果顯示,NVIDIA Blackwell 平台橫掃全場,為 AI 工廠實現無與倫比的效能與最佳整體效率。

當前熱搜:北士科合約「違約成本低到可笑」林亮君:是時候跟擺爛新壽說掰掰

NVIDIA 超大規模與高效能運算副總裁 Ian Buck 表示:「推論是 AI 每天創造價值的關鍵。這些結果證明,NVIDIA 的全端策略提供客戶在大規模部署 AI 時所需的效能與效率。」

以下是NVIDIA發布最新動向:

InferenceMAX v1 登場

當前熱搜:中國限制稀土出口再掀美中貿易戰! 美股狂瀉台積電ADR暴跌6.41%

InferenceMAX v1 是 SemiAnalysis 於週一發布的全新基準測試,再次突顯了 Blackwell 在推論的領導地位。該基準在主要平台上運行熱門模型,測量多樣化使用情境下的效能,並公開任何人皆可驗證的結果。

為什麼這一類型的基準測試如此重要?

因為現代 AI 不僅關乎速度,更關乎效率與經濟規模。隨著模型從一次回覆轉變為多步驟推理與工具使用,每次查詢生成的詞元數大量增加,顯著推升了運算需求。

NVIDIA 與 OpenAI(gpt-oss 120B)、Meta(Llama 3 70B)及 DeepSeek AI(DeepSeek R1)在開源領域的合作,展示了社群驅動模型如何推進推理與效率的最先進成果。

透過與這些領先模型開發者及開源社群合作,NVIDIA 確保最新模型能針對全球最大規模的 AI 推論基礎設施進行最佳化。這反映 NVIDIA 對開放生態系的承諾,共享創新以為所有人加速進展。

與 FlashInfer、SGLang 和 vLLM 社群的深度合作,使得共同開發的增強核心與運行時,能大規模驅動這些模型。

軟體最佳化持續推升效能

NVIDIA 透過硬體與軟體協同設計來持續提升效能。gpt-oss-120B 在搭載 NVIDIA TensorRT-LLM 函式庫的NVIDIA DGX Blackwell B200 系統上,初始效能即為業界領先,但 NVIDIA 團隊與社群進一步對針對開源大型語言模型,大幅最佳化了 TensorRT LLM 的效能表現。

TensorRT-LLM v1.0發布,是推動大型 AI 模型更快速、更具回應性的重大突破。

透過先進的平行化技術,它運用 B200 系統與 NVIDIA NVLink Switch 的 1,800 GB/s 雙向頻寬,大幅提升 gpt-oss-120B 模型的效能。

創新不僅於此。全新發布的 gpt-oss-120b-Eagle3-v2 模型引入「推測式解碼 (speculative decoding)」,這個聰明的方法能一次預測多個詞元,降低延遲並提升速度,將每使用者輸送量提升三倍,達每用戶每秒100 詞元(TPS / user),每 GPU 速度從 6,000 提升至 30,000 詞元。

對於 Llama 3.3 70B 等密集 AI 模型,由於其龐大參數需於推論中同時運作而需要大量的運算資源,NVIDIA Blackwell B200 在 InferenceMAX v1 基準測試中創下全新效能標準。

Blackwell 在每 GPU 達10,000 TPS、每使用者50 TPS互動性的條件下,提供較 NVIDIA H200 高 4 倍的每GPU輸送量。

效能效率帶來價值

每瓦輸出詞元量、每百萬詞元成本與每使用者TPS等指標與輸送量同等重要。對功率受限的 AI 工廠而言,Blackwell 每兆瓦輸送量比上一代提升 10 倍,能轉化為更的高詞元收益。

每詞元成本是衡量 AI 模型效率的關鍵,直接影響營運支出。NVIDIA Blackwell 架構將每百萬詞元成本較上一代降低 15 倍,帶來可觀節省並推動更廣泛的AI應用。

多維效能

InferenceMAX 採用帕雷托前沿(Pareto frontier)展示資料中心輸送量與回應性等因素間的最佳權衡,並比較效能。

但這不僅是一張圖表,它展現 NVIDIA Blackwell 如何在成本、能源效率、輸送量與回應性等考量中取得平衡,從而在真實工作負載中實現最高投資報酬率。

只針對單一場景最佳化的系統雖可能在孤立測試中達巔峰,但經濟性無法擴展。Blackwell 的全端設計在實際生產中提供關鍵的效率與價值。

成就關鍵

Blackwell 的領先地位來自極致的硬體與軟體協同設計。這是一套為速度、效率與規模而生的全端架構。

Blackwell 架構特色包括

NVFP4 低精度格式,在不犧牲準確度的情況下提升效率。

第五代 NVIDIA NVLink,連接 72 個 Blackwell GPU如同一個大型 GPU共同運作。

NVLink Switch 透過先進的張量、專家系統與 data parallel attention演算法支援高度並行。

年度硬體更新節奏與持續軟體最佳化。NVIDIA 自發表以來僅透過軟體便使 Blackwell 效能提升兩倍以上。

NVIDIA TensorRT-LLM、NVIDIA Dynamo、SGLang 與 vLLM 等開源推論框架皆經過最佳化以實現巔峰效能。

龐大生態系:數百萬 GPU 部署、700 萬 CUDA 開發者,並對超過 1,000 個開源專案貢獻。