壹、引言

隨著人工智慧技術的飛速發展,其應用場域已從單純的數據運算延伸至高度依賴價值判斷的司法體系。司法,被視為社會正義的最後一道防線,其運作基礎建立在「信任」之上:信任法官的專業、信任程序的公正、信任判決的結果符合社會期待。然而,在當代社會,這份信任正備受挑戰。一方面,人類法官受限於生理極限與主觀情感,難免出現判決品質不一、甚至發生低級錯誤的狀況,導致司法公信力受損;另一方面,數據科學與演算法的進步,為我們描繪了一個「數據治理」的美好願景,彷彿透過冷靜的數學模型,便能排除人類的偏私與疲憊。於是,AI 開始進入法庭,從協助整理卷宗,走向輔助量刑與風險評估。

然而,將 AI 導入司法判決,特別是刑事風險評估,是否真能修復這份破裂的信任?本文將剖析在人機協作的審判模式中,信任危機的根源究竟源於 AI 技術本身,還是公平正義的落實,必須源於人類審判獨立性。

貳、人類司法的侷限與 AI 的入場

(一)過勞與疏失:人類法官的極限

在討論是否應該引入 AI 之前,我們必須面對現實中,人類司法體系並非完美無瑕。法官也是人,當案件量超出負荷,判決品質的下降便成為必然的系統性風險。

回顧 2010 年發生的一起荒謬案例,一名陳姓法官因無法在宣示判決日當天完成判決書,為了避免在審判資訊系統中留下「延遲」的紀錄,竟先撰寫判決主文,而判決理由則直接複製其他不相關案件的內容,導致書記官將錯誤的判決書寄發給兩造當事人。

此案例雖是個案,卻揭示了司法過勞的冰山一角,期待每一位法官都能時刻保持客觀且詳盡地審視每一個案件,近乎是一種奢求。人類的注意力是稀缺資源,當資源耗盡,錯誤便隨之而來。

(二)精準的渴望:再犯風險評估

除了避免行政疏失,AI 在司法中被寄予厚望的另一個領域是「再犯風險評估」。刑罰的目的不僅是懲罰,更是矯治與社會復歸。然而,如何精準判斷一名受判決人的再犯風險,長期以來都是法官的難題。過去,這類判斷往往依賴法官的個人經驗與主觀直覺,容易受潛意識偏見(如種族、外貌、社經地位)影響。為了追求更客觀的標準,以數據為基礎的 AI 風險評估工具應運而生。

例如,加拿大心理學家設計的 VRAG(Violence Risk Appraisal Guide),透過 12 個變數預測特定人再犯的可能性;Multi-Health Systems 開發的 LSI-R(Level of Service Inventory-Revised),不僅預測風險,還能評估特定條件是否有助於降低再犯率。美國辛辛那提大學矯治研究中心開發的 ORAS(Ohio Risk Assessment System)以及廣為人知的 COMPAS(Correctional Offender Management Profiling for Alternative Sanctions),皆已被廣泛應用。

截至 2019 年 9 月,美國聯邦及 49 個州已在刑事程序的不同階段使用這些工具。其核心邏輯在於:依據客觀的大數據,而非純粹交給人類恣意決定是否監禁或釋放,這被視為刑事司法體系的重要進步。

參、AI 是否真的公正:以 COMPAS 為例

AI 的引入並未平息爭議,其中最具代表性的爭論,莫過於對 COMPAS 系統的質疑。調查新聞機構 ProPublica 曾發布報告,指控 COMPAS 對非裔美國人存在系統性偏見,傾向給予較高的風險評分。

面對指控,學界與開發商提出了反駁,認為 ProPublica 的分析存在嚴重的方法論瑕疵:首先是數據錯置:ProPublica 使用了「審前被告」的數據來評估 COMPAS,但該工具的主要設計對象是「判決後受監管」的人群,兩者的統計母體本質不同;二來是分析中排除了原始樣本中的適用對象(如緩刑和假釋者),卻未提供充分理由,導致統計結果失真;三來是錯誤的二分法,COMPAS 的設計包含低、中、高三種風險層級,但 ProPublica 強行將「中風險」併入「高風險」進行二分法分析,扭曲了原始模型的精細度;四來是忽視學術標準,ProPublica 未採用心理學界公認的偏見檢測標準,且將統計上不顯著的結果(p值未達顯著水準)解讀為顯著,忽略了效應大小(effect sizes)的影響。

這場爭論揭示了,我們對 AI 的不信任,有時源於對統計學的誤解,或是將社會既有的結構性不平等,錯誤地歸咎於演算法本身。

肆、AI 導入司法帶來的認知偏誤

然而,不論AI 的準確性是否臻於完美,即便我們假設 AI 的技術是完美的,數據是無偏誤的。司法判決的公平正義,也從來不只在於結果,而是在於過程。由於人類不是上帝,我們無法探知真正的「真實」,我們只能擔保,人類盡力以恰當的觀看方式,去檢閱各方證據,嘗試做出公允的評價。因此,一個公平正義的司法判決,是法官審理重大刑事案件時,不要看新聞媒體的腥羶色報導,或是採用「起訴狀一本主義」,避免法官的心證遭受污染,而無法做出恰當的評價。

回過頭來討論AI作為法官判決的依據考量,是否應該被追求。以美國的COMPAS再犯風險評估系統為例,美國威斯康辛州最高法院對於COMPAS相對樂觀,接受以COMPAS作為判決依據,認為只要AI的評估結果沒有作為唯一或決定性因素,而是做為法官判決的參考之一,就沒有任何問題,因此駁回一起質疑法官以COMPAS作為判決的上訴案件。

然而,把AI納入司法判決的依據,真如這些支持者所說,只是多一個內容,讓法官多多參考而已嗎?在2023年「人工智慧與法律的多學科視角」一書便挑戰這種技術中立的觀點。

該文章指出,最高法院完全沒有考量到AI對於法官所產生的認知偏誤。事實上,研究發現,人類對於涉及科技的決策,往往過分樂觀。這個與人類社會對於科技發展的體感有關,由於科技突破常常帶來戲劇性且令人難忘的成果,例如革命性的產業變革和生活品質提升,像是智慧手機、智慧手錶、自駕車、3D打印和娛樂串流服務,這些技術成功的案例具有高度的顯著性,但科技失敗的顯著性較低,因為它們不會改變現狀,也鮮少在公眾討論中被提及。因此,在長期的經驗累積下,人類容易在技術與成功之間建立起一種無意識的連結,認為科技是成功與進步的驅動力,這種對技術的樂觀偏見,被稱為「科技效應」。

上述研究並非空想,在喬治亞理工學院的實驗中,學生被安排在一間小辦公室裡與機器人一起完成學術調查,突然火警響起,煙霧瀰漫,測試學生這時會選擇跟著「逃生機器人」牌子的機器人,前往一條他沒有走過的路,還是自己走向另一個有「出口標示」的路口逃生。結果顯示,30位受試者有26人都選擇跟隨機器人,即便他們知道真正的出口在哪裡。甚至當機器人發生看似「故障」或靜止不動時,大多數受試者仍選擇跟隨機器人。這類型的行為經濟學與認知心理學研究顯示,人類要推翻「演算法」的建議是非常困難的,由於對科技過度樂觀的「科技效應」,人往往會產生對電腦的盲目信任,儘管電腦生成的判斷違反自己的判斷,這種不理性的認知偏誤被稱為「自動化偏誤」。

研究表明,在法庭中,法官往往順從電腦生成的數據與結果,這可能框限並制約法官的觀點。換言之,法官對於AI結果的採納,並不是基於自己對AI技術的正確理解所進行的參考,而是在認知偏誤中,對AI技術的盲目信任與過度樂觀所產生的依賴。如果AI的導入,只是讓法官戴上有色眼鏡,形成觀看與思考的偏差,便可能喪失司法判決所能夠追求的公平正義。

伍、結語

AI 的入場,確實為解決人類法官的過勞與主觀偏誤提供一線曙光,然而再犯風險評估系統的客觀性看似能提升司法準確度,但無論是 COMPAS 的統計方法論爭議,抑或是法官的自動化偏誤,都指向了技術的進步不等同於外界信任的落實。

司法的不信任,並非單純源於 AI 算法的不透明或偏誤,更多時候是源於人類在面對強大科技力量時,無意識地棄守了應有的獨立思考能力。當法官受限於 AI ,將本應只是參考用的 AI 風險評估奉為圭臬,司法審判便不再是人類獨立審判的權衡過程。

因此,提升司法信任不應僅著眼於如何讓 AI 的預測更準確,信任並非建立在完美的算法之上,而在於願意為每一個判決承擔最終責任的法官身上,唯有當人類法官能在 AI 的洪流中,依然保持清醒並堅守獨立審判的價值,科技才能真正成為輔佐的工具,而非隱形的枷鎖。

(作者:立法委員劉書彬、法案助理林廷印)

 

(文章僅代表作者觀點,不代表Newtalk新聞立場。)