(中央社台北20日綜合外電報導)臉書母公司Meta昨天宣布推出首創由人工智慧(AI)技術支援的閩南語、英語即時互譯系統。究竟閩南語翻譯難在哪、研發過程面臨哪些挑戰,中央社彙整5大問答一次看懂。

Meta今天在推特(Twitter)發文指出,閩南話翻譯有SpeechMatrix系統支援,這是一個有136個語言組合、含括41.8萬小時語音數據的語料庫。

Meta指出,至今為止,AI翻譯主要著重於各種書寫語言上,這次新推出的「通用語言翻譯工具」(Universal Speech Translator, UST)是全球第一個由AI技術支援的「口語對口語」翻譯系統,主要用於口語相傳的語言。

閩南語是全球約3000種口語相傳的語言之一,由於沒有標準書寫系統,也少有專門的翻譯人員,這使他們為AI模型建立訓練數據時難度更高,也很難仰賴閩南語文本。

Meta指出,他們向所有AI社群開放此基準資料集的原始碼,並將閩南語翻譯系統納入UST,希望其他研究人員能以此為基礎繼續研發,期盼有朝一日,未來所有語言無論是否可以書寫,都不再是阻礙人們相互理解的障礙。

● 全世界有多少人講閩南語?

閩南語是華裔群眾廣泛使用的語言,Meta統整2000年至2018年數據顯示,亞洲地區以中國大陸約2800萬人最多,其次依序為台灣約1350萬人、馬來西亞約200萬人、新加坡約150萬人、菲律賓約100萬人。

● 打造閩南語翻譯系統為何這麼難?

以往的AI翻譯工具,必須利用大量的書寫文字來訓練AI模型,閩南語雖然是華裔族群廣泛使用的語言,但大多以口語溝通,缺乏標準的書寫文字系統,無法以傳統的方式打造翻譯工具,因此研發團隊嘗試在「通用語音翻譯工具」(UST)項目中開發新的AI翻譯技術。

● 除了英文,閩南語還能翻譯成哪些語言?

根據Meta網站,目前這套翻譯系統只能以閩南語和英語進行即時語音翻譯,且每次只能翻譯一個完整的句子。

民眾可至Hugging Face網站使用(https://huggingface.co/spaces/facebook/Hokkien_Translation)

● 閩南語翻譯系統在開發過程中,面臨那些挑戰?

Meta在開發這套閩南語翻譯系統時,共面臨3大挑戰,分別是資料蒐集、模型設計以及準確度評估。

為了解決閩南語資源不足問題,研發團隊想到了2大方法,首先是利用資源充足且相似度高的中文作為「中間語言」,補足閩南語的詞彙量。研發團隊先將閩南語的語音,翻譯成中文文字,接著再翻譯成英文,成功後再新增到訓練資料庫。

二是利用「語音探勘」產生訓練資料,研發團隊使用預先訓練好的語音編碼器,系統會自動分析閩南語語音,並和相似語意的英文語音、文字進行配對。

在模型設計方面,有別傳統翻譯系統大多依賴「語音轉文字」系統,研發團隊則採用「語音轉單元翻譯」(S2UT)系統,將語音轉換成一系列的聲學單元並生成波形後,再進行解碼與翻譯。

至於準確度評估方面,研發團隊使用Meta開發的台羅(Tâi-lô)系統,將閩南語語音轉譯成標準化的拼音符號,以音節為單位來評估翻譯準確度。

同時根據名為Taiwanese Across Taiwan(TAT)的閩南語語音語料庫,建立第一個閩南語與英語雙向的語音翻譯基準資料集,未來將開放原始碼鼓勵其他研究人員合作進行閩南語語音翻譯。

值得注意的是,TAT資料庫是由台灣產官學界共同開發,收集台灣各地不同腔調的台語語音,總共錄製長達100小時語料,同時使用6支麥克風模擬各種情況,並使用約3000小時台語鄉土劇片段作為研究語料,幫助訓練系統模型,提高準確率。

● 這項AI翻譯技術除了翻閩南語,還能做什麼?

這項AI翻譯技術,未來可望擴展於其他口說或書寫語言,Meta也將公開具資料探勘技術支援的「大型語音翻譯語料庫」(LASER),讓其他研究人員也能建立自己的語音翻譯系統。(譯者:張茗喧/核稿:陳昱婷)1111020