谷歌Gemini 3推出一度逼出「紅色警戒」 OpenAI新模型「GPT-5.2」登場 | 科技

谷歌（Google）幾周前推出 Gemini 3，廣受用戶好評，一度讓 AI 大型語言模型巨頭 OpenAI 執行長奧特曼（Sam Altman）喊出「紅色警戒」，表示應重新調配內部資源，加速改進 ChatGPT。周四（11 日），OpenAI 也推出 GPT—5.2，市場將這波更新定調是對 Gemini 3 的反擊。

距離 GPT—5.1 推出僅四周，OpenAI 的新一代模型「GPT—5.2」登場，OpenAI 強調，其在尋找資訊、寫作和翻譯方面更擅長。該軟體分為 Instant、Thinking 及 Pro 三種版本。整體而言，在一般智慧能力、長篇上下文理解、自主工具呼叫和視覺解讀方面，皆有顯著提升，使其在執行真實世界中複雜的端到端任務時，比以往任何模型更出色。

根據官方說明，目前 ChatGPT Enterprise 使用者大多表示⁠，AI 每天為他們節省 40～60 分鐘，重度使用者更表示，每周可節省逾 10 小時。GPT—5.2 引入三種版本，核心在於主動工作能力。新的 Tool Calling 機制讓模型可自動串接外部軟體，從詢問需求一路做到交付結果。於真實軟體工程任務 SWE—bench Pro 測試中，Thinking 版本得分 55.6%，Verified 版本更達 80%。

OpenAI 也推出自研「GDPval」指標來量化價值。據 RD World 分析，GDPval 涵蓋 44 種知識工作，GPT—5.2Thinking 在測試中有 70.9% 的任務表現優於或持平人類專家，前代僅 38.8%。這意味著，處理 Fortune 500 財務三表或華爾街常見的 LBO 模型時，GPT—5.2 以不到 1% 的人力成本、快 11 倍速度完成交付。

GPT—5.2 的 Thinking 版本在模擬軟體工程任務的 SWE-bench Pro 測試上，取得 55.6% 的最新業界領先成績，超越 Gemini 3 成為「最佳工程師助手」。OpenAI 選擇優先強化能直接帶來營收的編程與商業邏輯能力；然而，Gemini 3 仍於 GPQA Diamond 與 ARC—AGI 測試保有優勢，顯示雙方各據要塞。

相較於GPT‑5.1 Thinking ，GPT‑5.2 Thinking 在幻覺上明顯降低。在一組來自 ChatGPT 的去識別化查詢中，含錯誤的回覆相對下降了 38%。這代表使用模型進行研究、寫作、分析和決策支援時，錯誤會減少，模型在日常知識工作中更加可靠。

算力成本方面，GPT—5.2 的 API 定價為輸入每百萬 Token 1.75 美元、輸出 14 美元，並對快取輸入提供 90% 折扣；GPT—5.2—pro 定價為輸入每百萬 Token 21 美元、輸出 168 美元。

奧特曼周四受訪時時表示，「Gemini 3 對我們的影響，沒有原先擔心的那麼大」，並預計 OpenAI 明年一月能脫離「紅色警戒」；「我認為當競爭威脅出現時，你要聚焦處理，而且要迅速解決。」