半導體公司輝達(NVIDIA)展示最新AI語音合成技術,有別於以往許多虛擬語音助理的聲音聽起來較生硬、機械化,輝達的技術能夠讓聲音的節奏、聲調更接近真人,未來有望應用到遊戲,或是輔助語言障礙者等不同領域。

NVIDIA的文字轉語音團隊近期研發出一款名為「RAD-TTS」的模型,允許用戶運用自己的聲音訓練語音AI系統,包括聲音的節奏、音高、音調、音色等,產出的聲音聽起來就像一般人在聊天講話一樣。

RAD-TTS的另外一項功能還包括「語音轉換」,類似於變聲器的概念,用戶如同聲音導演一樣指導語音AI,可藉由系統功能操作微調聲調節奏,或是增強想要強調的詞語,甚至在男性和女性的聲音之間做切換。

NVIDIA應用深度學習研究副總裁Bryan Catanzaro表示,這個語音AI模型未來有機會應用在配音、遊戲,模擬名人的歌聲等,也可以協助無法正常說話的語言機能障礙者。

除了人性化的語音合成技術以外,NVIDIA近年來也努力研究對話式AI的各種技術,包含自動語音辨識、音訊增強及降噪、關鍵字偵測等。

NVIDIA研發「RAD-TTS」語音模型,可利用真人聲音訓練語音AI。   圖:取自NVIDIA Youtube