利用計(jì)算機(jī)把一種自然語(yǔ)言轉(zhuǎn)變成另一種自然語(yǔ)言的過(guò)程就是機(jī)器翻譯。
機(jī)器翻譯對(duì)于信息時(shí)代下海量信息的捕獲無(wú)疑具有重要作用,事實(shí)上,人們對(duì)于機(jī)器翻譯的需求也與日俱增。除了專業(yè)的出版水平的翻譯,機(jī)器翻譯還包括以了解信息或以交流信息為目的的機(jī)器翻譯。
多語(yǔ)言翻譯是機(jī)器翻譯需要面臨的一大技術(shù)現(xiàn)實(shí)。其中,一個(gè)理想的模型是一個(gè)統(tǒng)一的具備多種語(yǔ)言能力的模型,在遇到新的語(yǔ)言時(shí),臨時(shí)少量學(xué)習(xí)即可達(dá)到很流利的語(yǔ)言水平。
EMNLP 2020 最新的多語(yǔ)言翻譯新范式 multilingual Random Aligned Substitution Pre-training (mRASP)就成功實(shí)現(xiàn)了這一理想模型:mRASP通過(guò)預(yù)訓(xùn)練技術(shù)再在具體語(yǔ)種上微調(diào)即可達(dá)到領(lǐng)先的翻譯效果,其在 32 個(gè)語(yǔ)種上預(yù)訓(xùn)練出的統(tǒng)一模型在 47 個(gè)翻譯測(cè)試集上取得了全面顯著地提升。
不同于以往的翻譯模式,mRASP樹(shù)立了翻譯的預(yù)訓(xùn)練和微調(diào)的成功路徑。mRASP中的關(guān)鍵思想就是一種新的隨機(jī)對(duì)齊子串技術(shù),它使具有相似意義的單詞和短語(yǔ)更接近多種語(yǔ)言的表現(xiàn)空間。研究人員預(yù)先訓(xùn)練了32種語(yǔ)言,對(duì)聯(lián)合的mrap模型建立公共數(shù)據(jù)集。模型就是這樣對(duì)下游語(yǔ)言對(duì)進(jìn)行微調(diào)以獲得專門的機(jī)器翻譯模型。
研究人員在不同環(huán)境下對(duì)42個(gè)翻譯方向進(jìn)行了廣泛的實(shí)驗(yàn),包括跨文化的異國(guó)語(yǔ)言等。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的mRASP相比,mRASP對(duì)訓(xùn)練目標(biāo)具有顯著的性能改進(jìn)。這也是其第一次驗(yàn)證多個(gè)低資源語(yǔ)言對(duì)可以用來(lái)證明豐富的資源機(jī)器翻譯,甚至可以提高關(guān)于訓(xùn)練前語(yǔ)料庫(kù)中從未出現(xiàn)過(guò)的外來(lái)語(yǔ)的翻譯質(zhì)量。
mRASP 主要針對(duì)機(jī)器翻譯任務(wù)而設(shè)計(jì),它有三個(gè)應(yīng)用優(yōu)勢(shì):
一是打破了資源場(chǎng)景的限制,不論平行雙語(yǔ)資源高低都能有所提升。在資源豐富的語(yǔ)言,比如標(biāo)準(zhǔn)英法翻譯任務(wù)上已經(jīng)有 4000 萬(wàn)平行語(yǔ)句訓(xùn)練情況下,使用 mRASP 依然能獲得顯著提升,達(dá)到了 44.3 的 BLEU 值。
二是打破了語(yǔ)種數(shù)量的限制。任何語(yǔ)言的翻譯,無(wú)論是孟加拉語(yǔ)到古吉拉特語(yǔ)還是印地語(yǔ)到菲利賓語(yǔ),只要是地球上的語(yǔ)言,mRASP 都可以直接拿來(lái)微調(diào),并且效果可期。
三是資源消耗低。相比于上百?gòu)埧ǖ摹败妭涓?jìng)賽”預(yù)訓(xùn)練玩法,mRASP 更平民,僅需要 8 卡訓(xùn)練一周就可以得到。
隨著計(jì)算機(jī)運(yùn)算能力的提升和多語(yǔ)言信息資源的爆發(fā)式增長(zhǎng),機(jī)器翻譯技術(shù)日益精進(jìn),未來(lái)還將為普通用戶提供更加實(shí)時(shí)便捷的翻譯服務(wù)。
責(zé)任編輯:xj
-
人工智能
+關(guān)注
關(guān)注
1806文章
49011瀏覽量
249348 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
140瀏覽量
15191
發(fā)布評(píng)論請(qǐng)先 登錄
AI助力實(shí)時(shí)翻譯耳機(jī)

影目科技發(fā)布全球首款同傳翻譯眼鏡INMO GO2
LLMWorld上線代碼翻譯新工具——問(wèn)丫·碼語(yǔ)翻譯俠,快來(lái)體驗(yàn)!

人工智能發(fā)展需要新的芯片技術(shù)

IMAX攜手Camb.AI實(shí)現(xiàn)影院實(shí)時(shí)語(yǔ)言翻譯
嵌入式和人工智能究竟是什么關(guān)系?
LLM技術(shù)對(duì)人工智能發(fā)展的影響
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得
risc-v在人工智能圖像處理應(yīng)用前景分析
名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新
2024 年 19 種最佳大型語(yǔ)言模型

評(píng)論