傳統機器口譯都是先把語言翻成文本,再從文本出發成語言,多一道手續也多了一些時間,很難真正做到即時口譯。

Google的一項新研究項目,則採用語言的口說句子,輸出成另種語言的口說文字,沒有中間文本過程,純粹利用語音。這樣的翻譯速度不但快,而且更重要的是,能輕易反映出說話者聲音的節奏和語調。

這個項目叫做Translatotron,是這類相關工作的巔峰作,雖然現在仍屬實驗階段。Google的研究人員和其他做這類研究的工作者,多年來一直在努力語言直接對譯的可能性,但直到最近才有些收穫。

人類翻譯的真實工作情形目前仍不很明確,但很少人會說先分解文本,然後視覺化成一種新語言,然後再讀出新文本。人類的認知過程,往往是如何推進機器學習演算法的指南。

為此,研究人員開始研究將一種語言的頻譜圖,及音頻的詳細頻率分解,直接轉換成另種語言的頻譜圖。這就與傳統的三步驟式翻譯過程很不同,雖然也還是有缺點,但優勢很大。

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.