機(jī)器翻譯及其類型
機(jī)器翻譯(Machine translation,MT)已經(jīng)成為語言和翻譯界一個非常重要的話題。越來越多的公司已經(jīng)開始應(yīng)用機(jī)器翻譯,因?yàn)樗梢允顾麄兊?a >翻譯項(xiàng)目受益。但機(jī)器翻譯到底是什么,存在哪些不同的類型?這些是我將在下一篇文章中更仔細(xì)研究的要點(diǎn)。
根據(jù)定義,機(jī)器翻譯是一種計算語言學(xué)和語言工程的形式,它使用軟件將文本或語音從一種語言翻譯到另一種語言?;旧?,在機(jī)器翻譯過程中,一個源語言單詞被目標(biāo)語言中的一個單詞所代替。但不要把機(jī)器翻譯與計算機(jī)輔助翻譯(CAT)混淆,后者是指人工翻譯人員使用計算機(jī)軟件輔助翻譯過程;CAT工具不會自動翻譯內(nèi)容。
有幾種機(jī)器翻譯引擎可以對內(nèi)容進(jìn)行不同的分析和處理。最常見的是基于規(guī)則的機(jī)器翻譯和統(tǒng)計機(jī)器翻譯。
基于規(guī)則的機(jī)器翻譯(RBMT)
基于規(guī)則的引擎使用無數(shù)的語法和語言規(guī)則來分析內(nèi)容和分解文本。在使用這些規(guī)則時,源語言的語法結(jié)構(gòu)被轉(zhuǎn)換成目標(biāo)語言。雙語詞典也用于語言對,可以添加自定義術(shù)語列表來微調(diào)引擎。通過在特定主題或行業(yè)中添加特定術(shù)語,可以在特定主題上創(chuàng)建更可靠的翻譯結(jié)果?;谝?guī)則的引擎不需要雙語語料庫(也稱為大型結(jié)構(gòu)化文本集)來創(chuàng)建翻譯系統(tǒng)。
基于規(guī)則的引擎由于翻譯所基于的語法規(guī)則和詞典的數(shù)量,產(chǎn)生了相當(dāng)可預(yù)測的,但也非常一致的輸出。由于設(shè)置了規(guī)則,每個錯誤都可以用目標(biāo)規(guī)則來糾正。因此,通過添加更多的規(guī)則和更多的詞典或術(shù)語,可以改進(jìn)翻譯。
統(tǒng)計機(jī)器翻譯(SMT)
與RBMT不同,統(tǒng)計機(jī)器翻譯不基于語言規(guī)則分析文本。相反,這個引擎“學(xué)習(xí)”如何翻譯文本。因此,它分析語言對中的大量數(shù)據(jù),然后使用其統(tǒng)計翻譯模型來創(chuàng)建源內(nèi)容的翻譯。該模型是通過分析雙語語料庫建立起來的,需要適當(dāng)?shù)碾p語內(nèi)容量。使用SMT,還可以通過提供與所討論主題相關(guān)的更多數(shù)據(jù)來關(guān)注特定主題或行業(yè)。
機(jī)器翻譯與神經(jīng)網(wǎng)絡(luò)
機(jī)器翻譯正在發(fā)展。自2013年以來,谷歌和微軟等互聯(lián)網(wǎng)巨頭一直在探索使用神經(jīng)網(wǎng)絡(luò)的可能性。神經(jīng)網(wǎng)絡(luò)是最早應(yīng)用于語音和圖像識別技術(shù)的統(tǒng)計學(xué)習(xí)模型。在機(jī)器翻譯中使用它們使引擎能夠通過模式和結(jié)構(gòu)訓(xùn)練自己如何使用類似于人腦工作方式的過程翻譯文本。這個過程被稱為“深度學(xué)習(xí)”,它基于通過實(shí)施大數(shù)據(jù)分析而確立的原則。
雖然神經(jīng)機(jī)器翻譯(NMT)是一種新的翻譯方法,但它被認(rèn)為是一個巨大的突破,并且已經(jīng)在機(jī)器翻譯研究者中非常流行,因?yàn)楹苊黠@,它在大多數(shù)情況下提高了翻譯,提供的輸出看起來更流暢,更人性化。
他們說,NMT可以創(chuàng)造更流暢的翻譯,并且可以減少多達(dá)25%的后期編輯工作。對于一些語言專業(yè)人士來說,毫無疑問,神經(jīng)機(jī)器翻譯比基于規(guī)則或統(tǒng)計的機(jī)器翻譯表現(xiàn)得更好。NMT系統(tǒng)能夠理解和看到單詞的相似性,考慮整個句子,學(xué)習(xí)語言之間的復(fù)雜關(guān)系(來源:神經(jīng)翻譯是一個突破的三個原因)。
由于每個引擎處理和生成數(shù)據(jù)的方式不同,因此為項(xiàng)目選擇的引擎取決于目標(biāo)語言和給定源文件的參考資料的可用性。一般來說,機(jī)器翻譯最適合重復(fù)性和簡單性的內(nèi)容,在這些內(nèi)容中,相同的詞被重用,同義詞被最小化。毫無疑問,機(jī)器翻譯的優(yōu)勢在于:它提高了生產(chǎn)率,縮短了上市時間,提高了術(shù)語的一致性。