Arm 正在與 Meta 公司的 PyTorch 團隊攜手合作,共同推進新的 ExecuTorch 測試版(Beta)上線,其目標為全球數十億邊緣端裝置和數百萬開發人員提供人工智慧(AI)和機器學習(ML)功能,進而確保 AI 真正的潛力能被最廣泛的裝置和開發人員所使用。
ExecuTorch 測試版發表
Arm 運算平台無處不在,為全球眾多邊緣端裝置提供支援,而 ExecuTorch 則是專為行動和邊緣端裝置部署 AI 模型而設計的 PyTorch 原生部署框架。兩者的緊密合作,使開發人員能夠促成更小、更優化的模型,包括新的 Llama 3.2 1B 和 3B 量化模型。這些新模型可以減少記憶體佔用、提高準確性、強化效能和提供可攜性,成為小型裝置上的生成式 AI 應用的理想選擇,例如虛擬聊天機器人、內容摘要和 AI 助理等。
Arm表示,開發人員無需額外的修改或優化,便可將新的量化模型無縫整合到應用中,進而節省時間和資源。因此,他們能夠迅速在廣泛的 Arm 裝置上大規模開發和部署更多智慧的 AI 應用。
Arm進一步表示,隨著 Llama 3.2 大語言模型(LLM)新版本的發佈,Arm 正在透過 ExecuTorch 框架優化 AI 效能,使得在 Arm 運算平台邊緣端裝置運行的真實生成式 AI 工作負載能更加快速。在 ExecuTorch 測試版發佈的首日起,開發人員便能享有這些效能的提升。
整合 KleidiAI 加速行動裝置生成式 AI 的實現
在行動裝置領域,Arm 指出,與 ExecuTorch 的合作代表眾多生成式 AI 應用,如虛擬聊天機器人、內容生成和摘要、即時語音和虛擬助理等,完全能夠在搭載 Arm CPU 的裝置上以更高的效能運行。
「這一成果受惠於KleidiAI,它導入了針對 4 位元量化優化的微核心,並透過 XNNPACK 整合在 ExecuTorch 中,因此,在 Arm 運算平台上運行 4 位元量化的 LLM 時,可無縫加速 AI 工作負載的執行。」Arm舉例說明,透過 KleidiAI 的整合,Llama 3.2 1B 量化模型預填充階段的執行速度可以提高 20%,使一些基於 Arm 架構的行動裝置上的內容生成速度超過每秒 400 個詞元(token)。這代表終端裝置使用者,將從他們的行動裝置上獲得更快速、回應更靈敏的 AI 體驗。