巴別魚——經典科幻小說《銀河系漫游指南》中設想的翻譯動物——的夢想可能更接近現實。科技巨頭 Meta 的研究人員創(chuàng)建了一個機器學習系統(tǒng),可以幾乎立即將 101 種語言的語音翻譯成語音合成器以 36 種目標語言中的任意一種說出的單詞。
大規(guī)模多語言和多模式機器翻譯 (SEAMLESSM4T) 系統(tǒng)還可以將語音翻譯為文本、文本翻譯為語音以及文本翻譯為文本。該結果于 1 月 1 日發(fā)表在《自然》雜志上。
Meta 總部位于加利福尼亞州門洛帕克,運營 Facebook、WhatsApp 和 Instagram 等社交媒體網站。Meta 表示,在成功發(fā)布 SEAMLESSM4T 的成功發(fā)布后,它正在將 SEAMLESSM4T 開源給其他想要在其基礎上進行開發(fā)的研究人員。 LLaMA面向全球開發(fā)人員的大型語言模型。
數據稀缺
機器翻譯在過去幾十年中取得了巨大進步,這在很大程度上要歸功于在大型數據集上訓練的神經網絡的引入。主要語言(尤其是英語)的訓練數據比比皆是,但許多其他語言的訓練數據卻非常稀缺。這種不平等限制了機器可以訓練翻譯的語言范圍。 “這會影響互聯網上不常出現的任何語言,”紐約州伊薩卡康奈爾大學的計算機科學家艾莉森·科內克 (Allison Koenecke) 在該論文隨附的《新聞與觀點》文章中寫道。機器人作家:語言生成人工智能的興起和風險
Meta 團隊以之前的語音到語音翻譯2以及名為No Language Left Behind?3的項目為基礎,該項目旨在為大約 200 種語言提供文本到文本翻譯。根據經驗,Meta 和其他地方的研究人員發(fā)現,即使在訓練數據有限的翻譯語言中,使翻譯系統(tǒng)成為多語言也可以提高其性能;為什么會發(fā)生這種情況尚不清楚。
該團隊從互聯網和聯合國檔案等其他來源收集了數百萬小時的演講音頻文件,以及人工生成的演講翻譯。作者還收集了其中一些演講的文字記錄。
該團隊還使用可靠的數據來訓練模型以識別兩個匹配的內容。這使得研究人員能夠將大約 50 萬小時的音頻與文本配對,并自動將一種語言的每個片段與其他語言的對應片段進行匹配。