巴別魚——經(jīng)典科幻小說《銀河系漫游指南》中設(shè)想的翻譯動物——的夢想可能更接近現(xiàn)實。科技巨頭 Meta 的研究人員創(chuàng)建了一個機器學(xué)習(xí)系統(tǒng),可以幾乎立即將 101 種語言的語音翻譯成語音合成器以 36 種目標(biāo)語言中的任意一種說出的單詞。
大規(guī)模多語言和多模式機器翻譯 (SEAMLESSM4T) 系統(tǒng)還可以將語音翻譯為文本、文本翻譯為語音以及文本翻譯為文本。該結(jié)果于 1 月 1 日發(fā)表在《自然》雜志上。
Meta 總部位于加利福尼亞州門洛帕克,運營 Facebook、WhatsApp 和 Instagram 等社交媒體網(wǎng)站。Meta 表示,在成功發(fā)布 SEAMLESSM4T 的成功發(fā)布后,它正在將 SEAMLESSM4T 開源給其他想要在其基礎(chǔ)上進行開發(fā)的研究人員。 LLaMA面向全球開發(fā)人員的大型語言模型。
數(shù)據(jù)稀缺
機器翻譯在過去幾十年中取得了巨大進步,這在很大程度上要歸功于在大型數(shù)據(jù)集上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的引入。主要語言(尤其是英語)的訓(xùn)練數(shù)據(jù)比比皆是,但許多其他語言的訓(xùn)練數(shù)據(jù)卻非常稀缺。這種不平等限制了機器可以訓(xùn)練翻譯的語言范圍。 “這會影響互聯(lián)網(wǎng)上不常出現(xiàn)的任何語言,”紐約州伊薩卡康奈爾大學(xué)的計算機科學(xué)家艾莉森·科內(nèi)克 (Allison Koenecke) 在該論文隨附的《新聞與觀點》文章中寫道。機器人作家:語言生成人工智能的興起和風(fēng)險
Meta 團隊以之前的語音到語音翻譯2以及名為No Language Left Behind?3的項目為基礎(chǔ),該項目旨在為大約 200 種語言提供文本到文本翻譯。根據(jù)經(jīng)驗,Meta 和其他地方的研究人員發(fā)現(xiàn),即使在訓(xùn)練數(shù)據(jù)有限的翻譯語言中,使翻譯系統(tǒng)成為多語言也可以提高其性能;為什么會發(fā)生這種情況尚不清楚。
該團隊從互聯(lián)網(wǎng)和聯(lián)合國檔案等其他來源收集了數(shù)百萬小時的演講音頻文件,以及人工生成的演講翻譯。作者還收集了其中一些演講的文字記錄。
該團隊還使用可靠的數(shù)據(jù)來訓(xùn)練模型以識別兩個匹配的內(nèi)容。這使得研究人員能夠?qū)⒋蠹s 50 萬小時的音頻與文本配對,并自動將一種語言的每個片段與其他語言的對應(yīng)片段進行匹配。