在去年11月Google公布計劃後,近期Google發表了關於「通用語音模型(USM)」的API和研究成果。Google的自動語音辨識(ASR)是以「不斷自我監督學習並微調」的方式進行。目前已經可以支援 100 多種語言自動辨識,最終目標是希望開發到1000種語言。

全球搜尋引擎公司Google所設計的「自動語音辨識」,辨識參數有1200萬小時語音,並經過280億組訓練,涵蓋300多種語言,而目前可以支援到一百多種語言自動辨識。支援語種、資料庫是非常龐大的規模,目前Google還在持續開發設計,最終目標是支援到 1000 種語言。

自動語音識別的最大挑戰是「傳統監督學習」缺乏可擴展性,並且費時費力,所以模型本身需要更高效的方式改進來擴大語種跟辨別品質。Google對於自動語音辨識有三大自我監督學習的新設計,分別是「自我監督學習法」,可在無外部監督的情形下大量分析並學習語音資料,「多目標監督預訓練模型」,則可進行整合各地其他資訊,最後是「介入監督式 loss 函數」,對終端任務進行微調。

YouTube 的「即時語音辨識」與「翻譯」品質改善,正是因為 Google 已把這版的 USM 使用在 YouTube ,特別在使用量較少的 73 種語言上,實現低於 30% 的單詞錯誤率。