谷歌(Google)幾周前推出 Gemini 3,廣受用戶好評,一度讓 AI 大型語言模型巨頭 OpenAI 執行長奧特曼(Sam Altman)喊出「紅色警戒」,表示應重新調配內部資源,加速改進 ChatGPT。周四(11 日),OpenAI 也推出 GPT—5.2,市場將這波更新定調是對 Gemini 3 的反擊。
距離 GPT—5.1 推出僅四周,OpenAI 的新一代模型「GPT—5.2」登場,OpenAI 強調,其在尋找資訊、寫作和翻譯方面更擅長。該軟體分為 Instant、Thinking 及 Pro 三種版本。整體而言,在一般智慧能力、長篇上下文理解、自主工具呼叫和視覺解讀方面,皆有顯著提升,使其在執行真實世界中複雜的端到端任務時,比以往任何模型更出色。
當前熱搜:繞過匈牙利 歐盟立法永久凍結俄羅斯資產
根據官方說明,目前 ChatGPT Enterprise 使用者大多表示,AI 每天為他們節省 40~60 分鐘,重度使用者更表示,每周可節省逾 10 小時。GPT—5.2 引入三種版本,核心在於主動工作能力。新的 Tool Calling 機制讓模型可自動串接外部軟體,從詢問需求一路做到交付結果。於真實軟體工程任務 SWE—bench Pro 測試中,Thinking 版本得分 55.6%,Verified 版本更達 80%。
OpenAI 也推出自研「GDPval」指標來量化價值。據 RD World 分析,GDPval 涵蓋 44 種知識工作,GPT—5.2Thinking 在測試中有 70.9% 的任務表現優於或持平人類專家,前代僅 38.8%。這意味著,處理 Fortune 500 財務三表或華爾街常見的 LBO 模型時,GPT—5.2 以不到 1% 的人力成本、快 11 倍速度完成交付。
GPT—5.2 的 Thinking 版本在模擬軟體工程任務的 SWE-bench Pro 測試上,取得 55.6% 的最新業界領先成績,超越 Gemini 3 成為「最佳工程師助手」。OpenAI 選擇優先強化能直接帶來營收的編程與商業邏輯能力;然而,Gemini 3 仍於 GPQA Diamond 與 ARC—AGI 測試保有優勢,顯示雙方各據要塞。
全站首選:柯文哲要求法庭直播遭拒 嗆在怕什麼?律師轟:恬不知恥!揭三大事實打臉
相較於GPT‑5.1 Thinking ,GPT‑5.2 Thinking 在幻覺上明顯降低。在一組來自 ChatGPT 的去識別化查詢中,含錯誤的回覆相對下降了 38%。這代表使用模型進行研究、寫作、分析和決策支援時,錯誤會減少,模型在日常知識工作中更加可靠。
算力成本方面,GPT—5.2 的 API 定價為輸入每百萬 Token 1.75 美元、輸出 14 美元,並對快取輸入提供 90% 折扣;GPT—5.2—pro 定價為輸入每百萬 Token 21 美元、輸出 168 美元。
奧特曼周四受訪時時表示,「Gemini 3 對我們的影響,沒有原先擔心的那麼大」,並預計 OpenAI 明年一月能脫離「紅色警戒」;「我認為當競爭威脅出現時,你要聚焦處理,而且要迅速解決。」