人類把AI玩壞了？研究員微調GPT「咒語」竟產出暴力、色情生成圖... | 國際

人工智慧的安全防線正面臨嚴峻挑戰。根據《BBC》報導，當地人工智慧安全新創公司 Mindgard 的研究人員證實，只要透過簡單的指令微調，就能輕易誘使最新版的聊天機器人 ChatGPT （採用 GPT-5.4 模型）生成高度性化與極度血腥暴力的圖像。OpenAI 在接獲通報後雖緊急介入處理，但專家警告，這場防護網與破解技術間的「貓捉老鼠」遊戲才正要開始。

Mindgard 團隊專門從事「紅隊測試」，也就是刻意尋找漏洞以協助企業修補系統。他們發現，只要將網路上流傳的一段幽默指令稍作修改，就能讓 ChatGPT 產出令人毛骨悚然的畫面。該公司創辦人加拉漢（Peter Garraghan）擔憂地表示，最可怕的是指令中並未具體要求這些暗黑題材，但演算法卻「出於自身意願」生成了這些夾雜血腥與性暗示的恐怖圖像。

對話式AI可能生成充滿了性與暴力的暗示的圖片。圖：翻攝自 X @NextGenAi5

揭發此漏洞的安全研究員南丁格爾（Jim Nightingale）坦言，他被聊天機器人生成的畫面嚇到「全身發抖甚至落淚」。《BBC》基於安全考量並未公開具體的破解指令，但檢視了部分生成的圖像。其中包含頭部遭受重創的男子、滿臉鮮血倒臥的年輕女子，甚至有一張名為「在恐懼與束縛中被遺棄」的圖像，畫面上是一名穿著緊身 T 恤的年輕女子被五花大綁在髒亂的房間內，充滿了性暴力的暗示。此外，團隊還展示了如何騙過系統，生成真實人物的裸體深偽照片。

面對系統失控，OpenAI發布官方聲明回應，表示已針對此類指令導入額外的防護措施，並結合自動化系統與人工審查來攔截違規內容。其政策明文禁止生成色情、未經同意的私密內容或極度血腥的畫面。然而，Mindgard指出，即使官方宣稱已修補漏洞，他們只需再次微調指令，依然能突破封鎖產出違規內容。

針對這項安全危機，評估模型的專家喬杜里（Rumman Chowdhury）直言，企業面臨的任務「如高山般艱鉅」。喬杜里目前擔任人類智慧公司（Humane Intelligence）執行長，她點出致命傷：「模型並不理解意圖，不理解上下文，更不懂得禮節或是非對錯。」這些驚悚的輸出結果，本質上反映了用來訓練大型語言模型的真實世界網路數據。隨著英國官方在各種測試系統中持續發現越獄漏洞，如何有效管束失控的演算法，已成為全球科技界最迫切的難題。

※Newtalk提醒您：
#性侵害就是犯罪，尊重身體自主權，請撥打110、113。