人工智慧(AI)的高速發展代表各種大型語言模型(LLM)的新版本不斷推陳出新。要充分發揮AI的潛力並掌握因此而來的機會,需要實現LLM從雲到端的廣泛部署,其中也帶動了對運算和能源需求的大幅成長。整個生態系正攜手尋找因應此一挑戰的解決方案,不斷推出新的、且更高效率的開源LLM,以便大規模實現各種AI推論工作負載,加快為使用者帶來全新、快速的AI體驗。

為此,ArmMeta展開緊密合作,在Arm CPU上啟用新的Llama 3.2 LLM,整合開源創新與Arm運算平台的優勢,以應對AI帶來的挑戰。受惠於Arm的持續投資及與各新型LLM的合作,在Arm CPU上運行AI的優勢在生態系中脫穎而出,使Arm成為AI推論開發人員的首選平台。

加速從雲到端的AI效能

小型LLM(如Llama 3.2 1B和3B)能夠支援基於文本的基礎生成式AI工作負載,對於大規模AI推論的實現相當重要。透過Arm CPU優化核心在Arm技術驅動的行動裝置上運行新的Llama 3.2 3B LLM,可讓提示詞(Prompt)處理速度提高五倍,詞元(token)生成速度提高三倍,在生成階段實現每秒19.92個詞元。這將直接減少了在裝置上處理AI工作負載的延遲,大大提升了使用者的整體體驗。此外,當邊緣端能處理的AI工作負載越多,往返雲端傳輸資料所節省的電量就越多,進而節省了能源和成本。

除了在邊緣端運行小型模型,更大的模型(如Llama 3.2 11B和90B)也能在雲端運行。11B和90B的模型非常適合雲端基於CPU的推論工作負載,可生成文本和圖像,如同在Arm Neoverse V2上的測試結果顯示。在基於Arm架構的AWS Graviton4上運行11B的圖像和文本模型,可在生成階段實現每秒29.3個詞元的表現,遠遠超出人類大約每秒閱讀五個詞元的速度。

AI將透過開源創新和生態系協作迅速擴展

能公開獲取各個新的LLM(如Llama 3.2)相當關鍵。開源創新正以極為快速的速度發展,在之前的版本中,開源社群在不到24小時的時間內便能在Arm上部署並運行新的LLM。

Arm將透過Arm Kleidi進一步支援軟體社群,讓整個AI技術堆疊能夠充分發揮此一經過優化的CPU效能。Kleidi可在任何AI框架上釋放Arm Cortex和Neoverse CPU的AI功能和效能,無需應用程式開發人員進行額外的整合工作。

透過最近的Kleidi與PyTorch整合以及正在推進的與ExecuTorch整合,Arm正在為基於Arm CPU的開發人員提供從雲到端的無縫AI效能。受惠於Kleidi與PyTorch的整合,在基於Arm架構的AWS Graviton處理器上運行Llama 3 LLM的詞元首次回應時間加快了2.5倍。

同時,在行動裝置上,透過KleidiAI函式庫的協助,使用llama.cpp函式庫在新的Arm Cortex-X925 CPU上運行Llama 3的詞元首次回應時間與參考實作相比加快了190%。

Arm與Meta的合作成為產業合作的新標竿,它彙聚了Arm運算平台的靈活性、普及性和AI功能,以及Meta等產業領導者的技術專長,共同釋放AI被廣泛應用的新機會。無論是利用裝置端 LLM滿足使用者的個性化需求,如根據使用者所在的位置、日程和偏好來執行任務,還是透過企業級應用來優化工作效率,讓使用者更專注於創造價值的任務,Arm技術的整合都為未來奠定了基礎。裝置將不再只是命令和控制工具,更能在提升使用者整體體驗方面發揮積極的作用。

在Arm CPU上運行Meta最新Llama 3.2版本,其AI效能展現顯著的提升。這類開放式合作是實現無處不在的AI創新、促進AI可持續發展的最佳途徑。透過各項新的LLM、開源社群和Arm的運算平台,Arm正在建構AI的未來,到2025年,將有1,000多億台基於Arm架構的裝置支援AI。