輝達(NVIDIA) 宣布推出全新的 NVIDIA Cosmos™ 世界基礎模型 (WFM)的重大發布,為實體人工智慧(AI)開發引入開放且完全可客製化的推理模型,並提供開發人員對世界生成前所未有的控制權。
NVIDIA 還將推出兩種NVIDIA Omniverse™ 和 Cosmos 平台驅動的全新藍圖,為開發人員提供用於後期訓練機器人和自駕車的大量可控制合成資料生成引擎。
1X、Agility Robotics、Figure AI、Foretellix、Skild AI 和 Uber 等產業領導者,均作為率先採用 Cosmos 的企業,為實體 AI 更快、大規模地生成更豐富的訓練資料。
總結來說,全新模型可實現實體 AI 的預測、可控制的世界生成與推理。兩種全新的 藍圖為機器人與自駕汽後期訓練提供大規模實體 AI 合成資料生成。1X、Agility Robotics、Figure AI、Skild AI 為早期採用者
NVIDIA 創辦人暨執行長黃仁勳表示:「正如大型語言模型徹底顛覆了生成式與代理 AI,Cosmos 世界基礎模型則是實體 AI 的重大進展。Cosmos 為實體 AI 引入了一個開放且完全可客製化的推理模型,並為機器人技術與實體產業的階躍發展開創機會。」
用於合成資料生成的 Cosmos Transfer
Cosmos Transfer WFM 擷取結構化影片輸入,例如分割圖、深度圖、光學雷射掃描、姿態估計圖和軌跡圖,以生成可控制的逼真影片輸出。
Cosmos Transfer 可精簡感知 AI 訓練,將在 Omniverse 中建立的 3D 模擬或地面事實轉換為逼真的影片,用於大規模、可控制的合成資料生成。
Agility Robotics 將是 Cosmos Transfer 和 Omniverse 的早期採用者,用於大規模合成資料生成,訓練機器人模型。
Agility Robotics 技術長 Pras Velagapudi 表示:「Cosmos 提供我們將逼真訓練資料擴展至超出我們在現實世界中收集的資料範圍的機會。我們很高興看到可以利用這個平台釋放新效能,同時充分利用我們已有的實際型模擬資料。」
用於自動駕駛汽車模擬的 NVIDIA Omniverse 藍圖利用 Cosmos Transfer 來擴大基於實體的感測器資料的變化。有了 此藍圖,Foretellix 可針對各種駕駛資料集透過改變天氣和光線等條件來增強行為場景。Parallel Domain 也在利用此藍圖將類似的變化應用於感測器模擬。
用於合成操作動作生成的 NVIDIA GR00T藍圖 結合 Omniverse 和 Cosmos Transfer以大規模生成各種資料集,並利用 OpenUSD 驅動的模擬技術,將資料收集與增強時間從數天縮短至數小時。
用於智慧世界生成的 Cosmos Predict
Cosmos Predict WFM 於 1月 的 CES 展會發表, 可以透過文字、圖像和影片等多模式輸入來生成虛擬世界狀態。全新的 Cosmos Predict 模型將實現多影格生成,在給定開始和結束輸入影像時預測中間動作或運動軌跡。這些模型專為後期訓練而打造,可利用 NVIDIA 開放提供的實體 AI 資料集進行自訂。
利用 NVIDIA Grace Blackwell NVL72 系統的推論運算能力及其大型 NVIDIA NVLink™ 網域,開發人員可實現即時世界生成。
1X 正在利用 Cosmos Predict 和 Cosmos Transfer 來訓練其全新的人形機器人 NEO Gamma。機器人大腦開發商 Skild AI 正在利用 Cosmos Transfer 增強機器人的合成資料集。此外,Nexar 和 Oxa 則正在利用 Cosmos Predict 推進自動駕駛系統。
用於實體 AI 的多模態推理
Cosmos Reason 是一款開放且完全可自訂的 WFM,具備時空感知技術,利用思維鏈推理來理解影片資料,並以自然語言預測人類踏入斑馬線或盒子從架子上掉落等互動結果。
開發人員可利用 Cosmos Reason 來改善實體 AI 資料註釋和管理、強化現有的世界基礎模型或建立新的視覺語言動作模型。他們還可以對 AI 進行後期訓練,建立高階規劃器,讓實體 AI 了解如何完成任務。
加速實體 AI 的資料管理與後期訓練
根據下游任務,開發人員可在 NVIDIA DGX™ Cloud 上使用原生 PyTorch指令碼或 NVIDIA NeMo™ 架構來對 Cosmos WFM 進行後期訓練。
Cosmos 開發人員還可以在 DGX Cloud 上使用 NVIDIA NeMo Curator,加速資料處理和管理。Linker Vision 和 Milestone Systems 正利用它來管理大量影片資料,訓練建置於 NVIDIA AI Blueprint 的視覺代理的大型視覺語言模型,用於影片搜尋和摘要。Virtual Incision 正在探索將其部署於未來的手術機器人,而 Uber 和 Waabi 則正在推進自駕車的開發。
負責任的 AI 與內容透明度
根據 NVIDIA 的可靠 AI 原則,NVIDIA 在所有 Cosmos WFM 上實施開放式護欄。此外,NVIDIA 正與 Google DeepMind 合作,將 SynthID 整合至浮水印,並協助識別 build.nvidia.com 上展示的 Cosmos WFM NVIDIA NIM™ 微服務的 AI 生成輸出。