人工智慧(AI)的發展高度依賴高品質、結構化的資料,數據的完整性、標準化與可用性直接影響AI訓練的效果。然而台灣在AI訓練資料的建構上仍面臨嚴峻挑戰,包括數據分散難以整合、企業與政府機構各自掌握數據但缺乏統一的標準與共享機制,以及繁體中文資料量相對不足影響AI的理解能力。此外資料隱私與法規限制也是關鍵問題,許多數據涉及個人資料與商業機密,導致資料收集與共享受到限制。面對這些挑戰,台灣必須採取策略,建立適合AI訓練的本土資料庫集,以支持AI產業發展,確保台灣在AI競爭中掌握自主權,實現主權AI的目標。
AI訓練過程中,數據的品質與多樣性決定了AI模型的準確性、適用性與公平性。目前國際AI模型(如OpenAI的GPT、Google Gemini)主要基於英語與簡體中文訓練,對於台灣的繁體中文、地方文化、法規制度、專業領域知識的理解較為有限。因此台灣若要發展本土AI,必須建立適合的訓練數據,確保AI能夠提升繁體中文理解能力,優化語言模型表現,符合台灣法規與社會文化,確保AI生成內容的合規性與適用性,並支持產業AI應用發展,讓AI模型能夠真正解決台灣產業的需求。例如若要開發法律AI,則需要涵蓋台灣法院判決書、法條、法律解釋函令等資料;若要發展醫療AI,則需要大量台灣本地的病患數據與醫療案例。因此建立本土AI訓練資料庫,不僅是技術問題,更關係到台灣產業競爭力的提升,並確保台灣在AI領域的主權。
讓AI產業能夠獲取高品質、多樣性、安全合規的訓練數據,台灣應該從數據收集、標準化、共享機制等多方面著手,建構完整的AI訓練資料庫。政府應該建立台灣AI公共數據庫,集中管理與釋出可用於AI訓練的數據集,供產業與學術界使用。目前台灣的數據多為企業內部封閉,政府雖釋出部分開放資料,但仍然缺乏統一的AI訓練數據平台。因此應建立「台灣AI訓練數據中心」,集中管理可公開的AI訓練數據,並釋出政府機關、學術單位、企業可共享的數據,例如法律資料(法院判決書、大法官解釋、政府法令)、醫療數據(去識別化的病患數據、醫學研究資料)、金融數據(台灣股市歷史數據、銀行詐欺案件數據)、氣象與環境數據(台灣氣象觀測數據、碳排放數據)、交通數據(車流量分析、公共運輸數據)。這樣的資料庫能夠讓AI訓練時擁有更本土化的語料,確保AI模型適應台灣的產業環境,實現主權AI的目標。
公共數據庫的建置之外,台灣應該推動產業資料共享機制,建立「產業AI數據聯盟」。目前許多產業內部數據被個別企業獨占,導致AI模型難以訓練出通用能力。例如製造業的生產數據、零售業的顧客行為數據、醫療院所的診療紀錄,這些數據都具有極高價值,但因競爭或隱私問題而未能共享。政府應該透過數據去識別化與區塊鏈技術,讓企業能夠安全地共享AI訓練數據,而不影響商業機密。透過「數據共享標準」,確保企業能夠互相交換AI訓練數據,並利用「聯邦學習(Federated Learning)」技術,允許AI在不同企業間學習數據,而無需集中存儲,確保資料隱私。此外政府應該鼓勵產業內企業參與AI訓練數據共享計畫,讓AI能夠學習更全面的產業資訊,以提升產業競爭力,實現主權AI的願景。
產業數據共享之外,台灣也應發展「開源繁體中文語料庫」,提升AI語言能力。目前全球AI訓練語料主要以英語與簡體中文為主,繁體中文語料數量少,且資料品質不一。為了讓AI更適應台灣繁體中文環境,政府與學界應該共同建構開源繁體中文語料庫,並鼓勵AI社群使用。這包括蒐集台灣新聞、論壇、政府公告、學術論文等繁體中文語料,建立高品質的開源語料庫,參考開源AI社群(如Hugging Face),開發適合繁體中文的開源語言模型,並鼓勵台灣企業與學術單位使用開源語料庫進行AI訓練,以提高AI模型的語言能力,確保台灣在AI領域的主權地位。
AI訓練數據涉及個人資料、隱私、倫理問題,若未能妥善處理,可能導致法律風險或社會爭議。因此台灣應該建立AI數據治理機制,確保AI訓練數據符合隱私保護、倫理規範與公平性的要求。政府應訂定AI訓練數據隱私標準,確保個資在AI訓練過程中不被濫用,透過區塊鏈技術確保數據可追溯,避免數據濫用風險,並建立AI倫理審查機制,確保AI訓練數據不含偏見與歧視性內容,讓AI發展符合社會價值觀。
AI的發展競爭不只是演算法與算力的比拼,更是數據資源的競爭。台灣如果希望在AI產業鏈中占有一席之地,必須建立完整的AI訓練數據基礎,讓AI能夠學習台灣本土語言與產業知識,提升應用價值。政府應該建立「台灣AI公共數據庫」,釋出高品質AI訓練數據,推動「產業AI數據聯盟」,促進企業之間的數據共享,發展「開源繁體中文語料庫」,提升AI語言模型能力,並強化AI數據治理機制,確保AI訓練符合隱私與倫理標準。透過這些措施台灣才能在全球AI競爭中掌握數據優勢,推動AI產業升級,並確保技術自主權!
楊聰榮(中台灣教授協會理事長,任教於台灣師範大學)
(文章僅代表作者觀點,不代表Newtalk新聞立場。)