Meta 展開重大計畫,重新改造新一代的基礎建設架構,專為 AI 所設計,涵蓋硬體與軟體堆疊的各個層面,奠基未來發展更劃時代的 AI 模型,更有效率地部署各項新技術,將 AI 驅動的技術突破,應用於未來元宇宙的發展。

隨著 Meta 在 AI 領域的突破性發展、更多尖端 AI 應用與體驗注入 Meta 旗下服務,並同時建構關於元宇宙的長期願景,在未來十年,Meta 的 AI 運算需求將大幅成長。Meta 正開始打造新一代的 Meta 基礎設施架構,特別為 AI 設計,涵蓋硬體與軟體堆疊的各個層面,及串聯這些技術的客製化網絡,包含 Meta 第一個用於執行 AI 模型所客製化的晶片、全新的 AI 優化資料中心設計,以及配備 1 萬 6 千 個 GPU,且專為 AI 研發設計、目前進展至第二階段的超級電腦。這些為了轉型所做的努力,再加上其他醞釀中的計畫,將讓 Meta 有能力開發更龐大、更精密的 AI 模型,並以有效率的方式大規模地部署這些技術。

AI 已是 Meta 產品的核心,不僅提升個人化體驗程度開發更安全且更公正的產品,及創造更豐富的體驗,還能協助企業商家接觸到最重視的受眾。接下來 Meta 也計畫調整程式編寫的方式,透過內部開發的生成式 AI 程式編寫輔助工具──Code Compose,提高開發人員在軟體開發生命週期的工作效率。透過重新思考如何在現有基礎建設架構展現創新精神, Meta 已開始建構可有效規模化的基礎,在短期支持如生成式 AI等新興技術,更可放眼長期目標將由 AI 驅動的體驗帶入元宇宙。

AI 是基礎設施的核心

自 2010 年設立第一個資料中心後,Meta 至今已打造出橫跨全球的基礎建設架構,為每天 30 億使用 Meta 旗下應用程式的大眾服務。多年來,AI 已成為這些系統的核心,從 2015 年的 Big Sur 硬體,到 PyTorch 的開發,再到去年專為 AI 研究設計的超級電腦的初步開發,現在將以三大方式來精進基礎建設架構:

MTIA(Meta Training and Inference Accelerator MTIA 是 Meta 第一個由內部開發的客製化加速器晶片系列,專門用於處理推理相關的工作。MTIA針對內部的工作內容特別設計,且其提供的運算效能及處理效率優於 CPU。藉由同時部署 MTIA 晶片與 GPU,Meta 將提高每項工作的績效、減少延遲,以提升處理效率。 新一代資料中心:Meta 的新一代資料中心設計除了將支援現有產品外,更將協助未來新的 AI 硬體展開訓練及推理。這個新資料中心將為優化 AI 所設計,支援液體冷卻式 AI 硬體設備 (liquid-cooled AI hardware) 及高效 AI 網絡,將數千個 AI 晶片串聯在一起形成資料中心規模的 AI 訓練集 (AI training clusters)。無論其開發的時間與成本都將提升,還能與其他新的硬體設備相輔相成,像是 Meta 為了支援持續成長的影音內容而首度在內部開發的 ASIC 解決方案──MSVP(Meta Scalable Video Processor)Research SuperCluster(RSC)AI 超級電腦 Meta 的 RSC 是全世界最快的 AI 超級電腦之一,可訓練新一代的大型 AI 模型以支援新的擴增實境(AR)工具、內容理解(Content Understanding)系統、即時翻譯技術等,配備 1 萬 6 千 個 GPU,全數皆可透過 3 層 Clos 網絡結構存取,為 2 千個訓練系統各自提供足夠的資源。從去年開始,RSC 已經開始參與各項研究計畫,例如 Meta 推動並在今年初公佈的大型語言模型 LLaMA(Large Language Model Meta AI)。

藉由各項以 AI為核心的發展,讓 Meta 得以運用如 PyTorch 2.0 這類嶄新軟體技術。這個開放原始碼的 AI 框架的最新版本,是由 Meta 與 AI 社群於 2016 年合作開發的,提供同樣強大、彈性且便於使用的工作流程。雖然它已經大幅調整,並從本質上改變並加速此架構於編譯器階段的運作方式。在推出 2.0 版本後,現在 PyTorch 以更快速的效能,支援如加速轉換器(Accelerated Transformer)及動態形狀(Dynamic Shape)的新功能。

端對端整合式堆疊的優點

特別量身打造設計的基礎建設架構,讓 Meta 在實體層面、虛擬層面、軟體層面,最後至實際用戶實體使用的端對端體驗得以全面優化。從資料中心到伺服器設備,至維持所有運行的機械系統,皆由 Meta 自行設計、開發及運行,由頂端到底層掌握整個架構,根據 Meta 自己的需求來設計,舉例來說,若為了提升工作效率,可隨意搭配 GPU、CPU、網絡及儲存設備。假如未來需要不同的電源或冷卻解決方案,也都可以重新思考整體的系統或其中一小部分的調整。

往後這些技術將會更顯重要。在未來十年,大家將看到晶片設計增加更專業化與更客製化的設計、針對特定目標與專業領域內容專門設計的 AI 基礎建設架構、為大規模部署所設計的新系統及工具,以及在產品及設計支援上的效率提升。這些預期完成的進展,將使 Meta 運用最新研究成果,開發出愈趨複雜的模型,讓大眾都能有機會使用到以這些新興科技為基礎發展出的產品。

Meta 持續致力於創造長期價值及影響力作為開發基礎建設架構的願景。藉著建立世界一流基礎設施的成果與基礎,將推動 Meta 續居 AI 發展的領導地位,也將對 Meta 旗下的應用程式及未來的元宇宙計畫發揮重大影響。