智東西(公眾號(hào):zhidxcom)
編 | 子佩

智東西10月23日消息,F(xiàn)acebook近期開源其M2M-100源代碼,這是首個(gè)可以不依賴英語數(shù)據(jù)而可以實(shí)現(xiàn)100個(gè)語言對(duì)互相翻譯的機(jī)器翻譯模型(如中文-法文互譯為一個(gè)語言對(duì))。在訓(xùn)練2200種語言對(duì)后,該單一多語言模型不僅與傳統(tǒng)的雙語模型性能相當(dāng),同時(shí)也比以英語為中心的多語模型在機(jī)器翻譯評(píng)價(jià)指標(biāo)BLEU上提高了10%。

傳統(tǒng)機(jī)器翻譯算法通過為每種語言和每項(xiàng)任務(wù)構(gòu)建單獨(dú)的AI模型能夠同時(shí)處理多語翻譯,但由于依賴英語數(shù)據(jù)作為源語言和目標(biāo)語言之間的中介,在語義準(zhǔn)確性上可能有所折損。

為了實(shí)現(xiàn)多語言不依賴英語互譯,研究人員使用不同的挖掘策略構(gòu)建了首個(gè)真正的多對(duì)多翻譯數(shù)據(jù)集,再通過Fairscale等擴(kuò)展技術(shù)建立具有150億個(gè)參數(shù)的通用翻譯模型,使M2M-100可以從大量語言數(shù)據(jù)庫中學(xué)習(xí),并反映出更加多樣化的語言文字和詞法。

論文主頁:https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation

項(xiàng)目地址:https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

Facebook?100種語言互譯模型源代碼公開!機(jī)器翻譯再也不用英語當(dāng)媒介了?

一、多種技術(shù)融合,反向?qū)ふ液A繑?shù)據(jù)

多語言機(jī)器翻譯的目標(biāo)是建立一個(gè)超7000種語言的一對(duì)一互譯模型,如此大量級(jí)的模型需要大量數(shù)據(jù)來訓(xùn)練。由于小語種本身缺少可直接使用的大量數(shù)據(jù),再加上如果要實(shí)現(xiàn)多語言間任意方向高質(zhì)量翻譯,例如中文到法語和法語到中文,模型訓(xùn)練所需要的數(shù)據(jù)量會(huì)隨語言對(duì)數(shù)量呈二次增長。

Facebook?100種語言互譯模型源代碼公開!機(jī)器翻譯再也不用英語當(dāng)媒介了?

為此,F(xiàn)acebook在XLM-R,一種可以從單語數(shù)據(jù)中學(xué)習(xí)并以100種語言執(zhí)行任務(wù)的模型上,增添了新穎的語言識(shí)別技術(shù),用以從更多來源中挖掘更高質(zhì)量的數(shù)據(jù)。如可以對(duì)自然語言處理模型進(jìn)行零樣本傳輸(one-shot transfer)的開放式源代碼工具包Language-Agnostic Sentence Representations、用于訓(xùn)練翻譯模型的“十億規(guī)?!?bitext數(shù)據(jù)集CCMatrix以及跨語言Web文檔對(duì)的集合CCAligned。

除此之外,F(xiàn)acebook還使用反向翻譯(back-translation)來補(bǔ)充數(shù)據(jù)較少的語料數(shù)據(jù):如果目標(biāo)是訓(xùn)練一個(gè)中文到法文的翻譯模型,F(xiàn)acebook研究人員先訓(xùn)練一個(gè)法文到中文的模型,再將所有沒被翻譯的單語數(shù)據(jù)譯成中文。在 M2M-100的開發(fā)過程中,反向翻譯得到的數(shù)據(jù)會(huì)被添加到挖掘的并行數(shù)據(jù)中。

在得到的數(shù)據(jù)中,M2M-100也有三大篩選標(biāo)準(zhǔn):被廣泛使用的、不同語族的語言;已有評(píng)估標(biāo)準(zhǔn)數(shù)據(jù)的語言,以便更輕松地量化模型的性能;可以獨(dú)立存在的語言?;诖?,F(xiàn)acebook的M2M-100得到了100種不同語言超過75億個(gè)句子的數(shù)據(jù)集。

“多年來,人工智能研究人員一直在努力構(gòu)建一個(gè)單一的、跨語言的通用模型?!盕acebook的數(shù)據(jù)科學(xué)家Angela Fan在博客中寫道,“支持所有語言、方言的統(tǒng)一模型將幫助我們更好地為更多的人服務(wù),并為數(shù)十億人創(chuàng)造新的翻譯體驗(yàn)?!?/p>

二、“橋接策略”構(gòu)建語群,節(jié)約算力最大化

但并不是100種語言對(duì)中任意一種都需要實(shí)現(xiàn)互譯,例如冰島語-尼泊爾語或僧伽羅語-爪哇語之間需要互譯的情況是很少見的。Facebook研究人員為了避免這些少見的互譯組合浪費(fèi)算力,提出了“橋接策略”,即根據(jù)分類、地理和文化相似性將語言分為14個(gè)族。

Facebook?100種語言互譯模型源代碼公開!機(jī)器翻譯再也不用英語當(dāng)媒介了?

因?yàn)樯钤谙嗤Z族的國家和地區(qū)的人們會(huì)更加頻繁地交流,并從高質(zhì)量的翻譯中受益。例如,一個(gè)在印度地區(qū)生活的家庭可能日常會(huì)使用印度地區(qū)常用的語言,例如孟加拉語、北印度語、馬拉地語、尼泊爾語、泰米爾語和烏爾都語等。

為了滿足14個(gè)語群之間可能存在的互譯需求,F(xiàn)acebook研究人員還確定了少數(shù)“過渡語言”,即每個(gè)語族中一到三種主要語言會(huì)作為橋梁轉(zhuǎn)化不同語群語言。例如,印地語、孟加拉語和泰米爾語會(huì)成為印度-雅利雅語群中的橋梁語言。

研究人員會(huì)為橋梁語言的所有可能組合挖掘訓(xùn)練數(shù)據(jù),從而獲得上述數(shù)據(jù)集中的75億個(gè)句子。

三、154億參數(shù),只為模型容量最優(yōu)化

在解決了如何獲取數(shù)據(jù)和如何有效利用數(shù)據(jù)后,接下來的一步就是搭建模型。而在模型組建中遇見的最大問題就是:單一模型必須捕獲多種不同語言的多種文字信息,這時(shí)候就需要擴(kuò)展模型的容量及添加特定語言參數(shù)用以處理更多語言數(shù)據(jù)。

Facebook?100種語言互譯模型源代碼公開!機(jī)器翻譯再也不用英語當(dāng)媒介了?

M2M-100借助了Fairscale(一種用于大型模型訓(xùn)練的PyTorch庫),來增加Transformer網(wǎng)絡(luò)中的層數(shù)以及每層的寬度?;赯ero優(yōu)化器、層內(nèi)模型并行性和管道模型并行性,研究人員建立通用的基礎(chǔ)架構(gòu)來容納無法在單個(gè)GPU安裝的大型模型,此外還引入了模型壓縮和深度自適應(yīng)模型,以用常規(guī)主干和一些語言特定參數(shù)集來共同訓(xùn)練模型。

多種策略的組合使模型的容量增加了100倍,并能夠?qū)崿F(xiàn)Facebook聲稱的高精度語言服務(wù)。但僅將模型擴(kuò)展到10億參數(shù)還不能滿足處理大量數(shù)據(jù)的需要,最后當(dāng)將模型規(guī)模密集擴(kuò)展到12億個(gè)參數(shù)時(shí),才能得到所有語言方向上1.2BLEU的平均提升。

最后當(dāng)模型參數(shù)達(dá)154億時(shí),M2M-100可以針對(duì)最多的數(shù)據(jù)訓(xùn)練額外的模型容量。 “通過將模型容量的密集縮放與特定語言參數(shù)(總計(jì)30億)相結(jié)合,我們已經(jīng)提供了一個(gè)相對(duì)完善的不依賴英語的互譯模型。”Fan說到。

結(jié)語:母語者質(zhì)量評(píng)估,消除“偏見”在路上

縱使Facebook的M2M-100模型已在很多方面進(jìn)行了改進(jìn),但依舊存在很多問題亟待解決。

在測試階段,會(huì)有母語者對(duì)不涉及英語的20種語言對(duì)之間互譯質(zhì)量進(jìn)行評(píng)估。母語者對(duì)譯文整體評(píng)價(jià)較高,但他們也指出M2M-100傾向于使用不符合語境的俚語逐詞翻譯,也會(huì)出現(xiàn)如缺少逗號(hào)等語法問題,可能會(huì)導(dǎo)致歧義。

除翻譯語義的問題之外,F(xiàn)acebook研究人員也承認(rèn),在翻譯模型中,確實(shí)出現(xiàn)了有關(guān)性別偏見、種族偏見的歧視性字眼,但現(xiàn)如今沒有任何一種機(jī)器學(xué)習(xí)算法能防止偏見的產(chǎn)生,且這個(gè)問題在數(shù)據(jù)量少的小語種模型中更加明顯。

Angela Fan也表示他們將進(jìn)行更多的測試和評(píng)估,致力于使這個(gè)模型更加“公平公正”,但這個(gè)過程仍需要時(shí)間。

來源:VentureBeat、Facebook