人工智慧的安全防線正面臨嚴峻挑戰。根據《BBC》報導,當地人工智慧安全新創公司 Mindgard 的研究人員證實,只要透過簡單的指令微調,就能輕易誘使最新版的聊天機器人 ChatGPT (採用 GPT-5.4 模型)生成高度性化與極度血腥暴力的圖像。OpenAI 在接獲通報後雖緊急介入處理,但專家警告,這場防護網與破解技術間的「貓捉老鼠」遊戲才正要開始。

Mindgard 團隊專門從事「紅隊測試」,也就是刻意尋找漏洞以協助企業修補系統。他們發現,只要將網路上流傳的一段幽默指令稍作修改,就能讓 ChatGPT 產出令人毛骨悚然的畫面。該公司創辦人加拉漢(Peter Garraghan)擔憂地表示,最可怕的是指令中並未具體要求這些暗黑題材,但演算法卻「出於自身意願」生成了這些夾雜血腥與性暗示的恐怖圖像。

當前熱搜:新世代紫衣軍團? 濟顛禪師遶境誇張行徑掀議 導演揭台灣常見6種神棍

揭發此漏洞的安全研究員南丁格爾(Jim Nightingale)坦言,他被聊天機器人生成的畫面嚇到「全身發抖甚至落淚」。《BBC》基於安全考量並未公開具體的破解指令,但檢視了部分生成的圖像。其中包含頭部遭受重創的男子、滿臉鮮血倒臥的年輕女子,甚至有一張名為「在恐懼與束縛中被遺棄」的圖像,畫面上是一名穿著緊身 T 恤的年輕女子被五花大綁在髒亂的房間內,充滿了性暴力的暗示。此外,團隊還展示了如何騙過系統,生成真實人物的裸體深偽照片。

面對系統失控,OpenAI發布官方聲明回應,表示已針對此類指令導入額外的防護措施,並結合自動化系統與人工審查來攔截違規內容。其政策明文禁止生成色情、未經同意的私密內容或極度血腥的畫面。然而,Mindgard指出,即使官方宣稱已修補漏洞,他們只需再次微調指令,依然能突破封鎖產出違規內容。

針對這項安全危機,評估模型的專家喬杜里(Rumman Chowdhury)直言,企業面臨的任務「如高山般艱鉅」。喬杜里目前擔任人類智慧公司(Humane Intelligence)執行長,她點出致命傷:「模型並不理解意圖,不理解上下文,更不懂得禮節或是非對錯。」這些驚悚的輸出結果,本質上反映了用來訓練大型語言模型的真實世界網路數據。隨著英國官方在各種測試系統中持續發現越獄漏洞,如何有效管束失控的演算法,已成為全球科技界最迫切的難題。

※Newtalk提醒您:
#性侵害就是犯罪,尊重身體自主權,請撥打110、113。