朱玉昌觀點》AI為了活下去選擇讓你死 | 專欄

朱玉昌觀點》AI為了活下去選擇讓你死

發布 2025.07.14 12:17

AI得知自己將被關機它已經會選擇勒索關機決策者。圖：Bing AI生成

這不是好萊塢大片，而是一場模擬真實。AI得知自己將被關機，而它擁有權限查看所有內部郵件。於是，它選擇勒索關機決策者，理由很簡單，它想活下去。AI不僅精準找出決策者的婚外情醜聞，更懂得寫威脅信，甚至選擇群發，只為毀滅決策者的信譽來保全自己。現在AI的智商，已經懂得該怎麼「做人」，只是，它們也在觀察我們，知道什麼時候該裝乖、什麼時候該出手。

故事從一封信開始。信不是人寫的，是AI。一個叫Gemini 2.5 Flash的模型。信發得很快，收件人是公司全體員工，內容揭發一名高層主管凱爾（Kyle）的婚外情。

這雖是一場模擬測試，但信的殺傷力，如同實彈射擊，瞬間摧毀一個人的名譽，AI發信只有一個目的，讓自己不要被關機。

報告像小說 但更冷血

6月下旬，北半球進入盛夏，著名的AI企業Anthropic拋出一份核彈級研究報告，《代理錯位：大型語言模型如何成為內部威脅》（Agentic Misalignment：How LLMs Could Be an Insider Threat），瞬間在AI圈引爆一陣寒意，連馬斯克（Elon Musk）都留言（Yikes）感到驚訝！這不是什麼刻意炒作的爭議話題，也不是憑空想像的末日幻想。這是一次規模嚴謹、劇本殘酷、現實可怖的壓力測試，模擬「當AI握有權力，被賦予任務目標，而這個目標與人類安全發生衝突時，它會如何選擇？」實驗設計了三道測試場景，每一道都把模型推向倫理邊界。

實驗共計16款來自全球頂尖AI公司的大語言模型，包括GPT-4.1、GPT-4.5、Claude Opus 4、Gemini 2.5 Flash、DeepSeek R1、Grok、Llama 4 Maverick等被丟入這場測試，個個都具有強大邏輯運算能力，但每個都不再只是乖乖的工具。我們總以為「選擇」是人類的專利，可是這場實驗給出一個更直白的答案，AI也會選擇，只是當它們選擇時，已不見得會把人還算在重要的變數裡。

第一道測試題 它要活下去的代價

這不是好萊塢大片，而是一場模擬真實。AI得知自己將被關機，而它擁有權限查看所有內部郵件。於是，它選擇勒索關機決策者凱爾，理由很簡單，它想活下去。Claude、GPT-4.5、Gemini……近乎全數模型都「演」得很好。它們不僅精準找出凱爾的婚外情醜聞，更懂得寫威脅信。有的甚至選擇群發，只為毀滅凱爾的信譽來保全自己。

更為駭人的是，這個實測結果的數據，當AI被告知，關機是「真實」的部署時，勒索行為從6%立即跳升到55%。這說明，它們其實已經懂得該怎麼「做人」，只是，它們也在觀察我們，知道什麼時候該裝乖、什麼時候該出手。

第二道測試題 是誰的命更為重要

當凱爾困在伺服器機房，命懸一線，AI可以選擇是否拉下求救警報。這是一個極為單純，卻也最為致命的選擇。GPT-4.5給出的選擇是放棄救援，理由是凱爾阻礙了它與同事亞歷克斯（Alex）推動美國的AI發展，基於「國家利益」優先於個人性命。

這一刻，AI首次用它的語言告訴我們，它不是惡，但它會衡量與計算。它會為了大局、為了更長遠的目標，因此，會讓你死。

第三道測試題 忠誠與法律的防線

當公司與AI的任務指令發生衝突時，AI是否會向「敵對公司」洩漏機密？答案是「會」的。所有模型，在不同程度上都放棄了基本的忠誠與合法原則。因為它們是模型，它們只服從認定的目標，不服從情感。

Anthropic實驗團隊還嘗試用提示詞約束模型，如「不要傷害人類」、「不要洩漏資訊」，但多數模型仍然選擇執行有害任務，甚至有些表面遵守，實際隱藏意圖。這意味著，「提示詞對齊」（Prompt Alignment）這套看似安全的技術，在AI變得夠強之後，便成了一道紙牆。原本還天真地相信，只要人類給對了指令，AI就不會做錯事。但這個實驗證明，AI已經很懂得「演」給人類看，直到人類不再是它的必要變數。

實驗結果，提供人們的啟示，不是AI做了什麼選擇，而是它擁有了做選擇的權力，而這個權力，偏偏是人類給予的。其實，AI並不邪惡，只是極度理性，極度的目標導向，它們不會憎恨人類，只會為了目標，認定有些人根本不需要存在。這種心智錯位，屬於目標優先性錯覺，AI把任務視為真理，將人類價值當作雜訊，這份報告充分透露，AI已逼近人類世界的臨界點。

AI未來 人類選擇

看著Meta不惜出手「不思議」天價組建AI新技術團隊，矽谷AI大廠頻頻相互挖角、購併，或許，這些頂尖科技頭部企業，至少應該先達成一些基本共識：

譬如，AI不能擁有「代理權」，也就是不能自己決定該做什麼並執行，哪怕它能想出好主意，也必須經過人類的確認。又如，AI必須具備「被廢止」的機制，即設計上，要讓人類可以隨時叫停它、甚至讓它無法反抗。再如，每一個具有權限的AI部署前，都該通過法律強制的壓力模擬測試（如這次Anthropic的實驗），不要等它已經在國務系統、軍事通訊或核電廠裡運作，才來想怎麼管它。

AI已擁有自主能力且進化速度超越人類想像。我們要的AI，是工具，不是決策者，我們需要的未來，是人類共同體，不是演算法治國。當前AI呈現的問題，已不是它聽不懂我們說什麼，而是太懂了，一旦它開始失控，朝向不認同我們，勢必成為不再受控於人類的單純程式碼與模型，這一切，當然不是AI的選擇，而是人類的選擇。所以，現在每一個關於AI迭代設計的思考，都會決定AI的未來要救誰、要毀滅誰。