4月8日至11日,全國乃至全球媒體的注意力都集中在博鰲亞洲論壇,這里匯集了多國首腦政要與高層人士,他們進行的討論與決策,不僅會影響亞洲經(jīng)濟發(fā)展,更會影響全球經(jīng)濟走向,其規(guī)格之高、意義之重無需多言。

今年博鰲論壇的一個變化就是引入了人工智能進行AI同聲傳譯,其實AI同傳不是新鮮事物,早在2016年的烏鎮(zhèn)大會上,搜狗就率先推出搜狗同傳,為大會提供機器同傳服務(wù)。但因為博鰲論壇的影響力且是舉辦17年以來的首次嘗試,從而引起廣泛關(guān)注。但擔負此項重任的騰訊AI同傳現(xiàn)場卻表現(xiàn)不佳, AI同傳也一時成了大家的吐槽對象。

拋開騰訊AI同傳在博鰲論壇的表現(xiàn),機器翻譯的難點在哪里,國內(nèi)機器翻譯研究水平到底如何,值得行業(yè)關(guān)注與思考。

騰訊AI同傳現(xiàn)場翻車

在一場主題為“全球化下半場:風險和不確定性”的分論壇中,騰訊AI同傳產(chǎn)生了許多錯誤,下圖是公眾號“遇見人工智能”截取的直播小程序頁面,和會議現(xiàn)場的顯示是一模一樣的,可以看到,翻譯出來的內(nèi)容支離破碎,已經(jīng)無法正常理解和閱讀。

AI同傳在博鰲論壇表現(xiàn)欠佳,技術(shù)進步還需更多耐心

此外,騰訊AI同傳還出現(xiàn)了類似下圖這樣,不斷重復(fù)無意義單詞和字符混亂的情況。

AI同傳在博鰲論壇表現(xiàn)欠佳,技術(shù)進步還需更多耐心

博鰲亞洲論壇作為亞洲乃至全球的一場有影響力的峰會,本是機器同傳一展身手,捕獲各方政要“芳心”的絕佳時刻。而此次論壇中的AI同傳卻錯誤頻頻,在吐槽騰訊AI同傳的同時,一個更加值得關(guān)注的問題是國內(nèi)機器同傳發(fā)展水平到底如何?機器同傳的難點到底在哪里,我們又該如何去進一步突破。

AI同傳的挑戰(zhàn)

從行業(yè)整體發(fā)展來看,認知智能相較于感知智能來說,在引入深度學(xué)習(xí)方面慢了一拍,整體發(fā)展還不成熟,其核心自然語言理解更是業(yè)界公認的難點。作為認知智能的落地應(yīng)用之一,AI同傳也會受制于認知智能的整體發(fā)展。

比如在博鰲論壇上,騰訊AI同傳將“一帶一路”翻譯成了“一條公路和一條腰帶”,這背后的故事是,演講嘉賓將“一帶一路”的固定說法“the belt and road”說成了“the road and belt”,這種需要“反應(yīng)一下”的工作,人類可以輕松完成,但對于缺乏上下文背景、沒有背景知識的機器來說,則是非常艱巨的任務(wù)。

此外,在翻譯領(lǐng)域,即使是兩位專業(yè)翻譯人員對于完全相同的句子也會有略微不同的理解,而機器翻譯面臨的挑戰(zhàn)就更大,比純粹的模式識別要復(fù)雜的多。

騰訊機器翻譯應(yīng)用AI同傳選擇在博鰲亮相,又同時面臨復(fù)雜的應(yīng)用場景:

第一,各國語言與口音混雜。博鰲論壇嘉賓來自世界各地,即便都使用英語,也存在不易識別的口音問題。英語就分美式發(fā)音、英式發(fā)音、中式發(fā)音等。通常的英文識別引擎?zhèn)戎氐母嗍敲朗桨l(fā)音和中式發(fā)音,但是如果遇到其它發(fā)音方式,識別的效果也會大大折扣。因此,多樣化的發(fā)音方式、口音都給AI同傳的第一步語音識別帶來巨大的挑戰(zhàn)。

第二,是會議內(nèi)容專業(yè)性強。無論是騰訊的AI同傳還是其他企業(yè)的機器同傳,所做研究的主要應(yīng)用方向都是通用領(lǐng)域的,對于極其專業(yè)和嚴肅的博鰲論壇來說,如何對專業(yè)詞匯、術(shù)語、關(guān)鍵的觀點進行精準的翻譯也是一個難題。即使是人工同傳,也需要花費大量的時間來學(xué)習(xí)和掌握經(jīng)濟、政治等這里領(lǐng)域的概念術(shù)語的翻譯。

針對騰訊AI同傳在博鰲論壇中的表現(xiàn),搜狗同傳負責人表示,博鰲論壇中出現(xiàn)的問題,其實是目前行業(yè)內(nèi)都在面臨的幾個挑戰(zhàn),總體來講就是不同口音的語音識別難、會議內(nèi)容的領(lǐng)域性強、語音識別錯誤對機器翻譯的干擾、口語化文本翻譯難等難題。

中國機器翻譯,水平到底如何?

從2014年開始,機器翻譯技術(shù)上開始從統(tǒng)計機器翻譯(SMT)向神經(jīng)機器翻譯(NMT)的遷移。深度學(xué)習(xí)技術(shù)的應(yīng)用和底層框架的突破,使目前國內(nèi)機器翻譯取得階段性進展。

拿搜狗來說,作為國內(nèi)較早從事機器同傳的團隊,搜狗早在2016年就在烏鎮(zhèn)互聯(lián)網(wǎng)大會上推出了機器同傳產(chǎn)品。這也是全球首個基于深度神經(jīng)機器翻譯技術(shù)的商用翻譯產(chǎn)品。目前搜狗的同傳翻譯已經(jīng)基于業(yè)界領(lǐng)先的Transformer框架。搜狗同傳目前已經(jīng)在國內(nèi)很多頂級大會上得到了應(yīng)用,已經(jīng)成功為數(shù)百場頂尖行業(yè)盛會提供過機器同傳服務(wù)。

除此之外,搜狗手機輸入法上線了文本翻譯和語音翻譯的能力,日均請求達800萬次。搜狗還推出了搜狗翻譯APP、搜狗旅行翻譯寶、搜狗翻譯筆等各個形式的AI翻譯產(chǎn)品。在國際翻譯比賽方面,搜狗榮獲了國際頂級機器翻譯比賽WMT 2017中英和英中賽道的冠軍,再一次在頂尖的國際舞臺證明了搜狗的翻譯技術(shù)實力。

AI同傳在博鰲論壇表現(xiàn)欠佳,技術(shù)進步還需更多耐心

搜狗同傳負責人表示,搜狗同傳取得的這些技術(shù)進步,主要得益于搜狗同傳的技術(shù)團隊在自然語言處理和深度學(xué)習(xí)方面有深厚的積累,同時也是搜狗同傳走在行業(yè)前沿的關(guān)鍵原因。

與此同時,我們也應(yīng)該看到機器翻譯作為AI研究的前沿方向之一,仍處行業(yè)于最早期,比如業(yè)界機器翻譯的準確率普遍略低,機器翻譯最難的部分在于盲傳,它沒有背景知識,而翻譯本身又嚴重依賴上下文。這有賴于自然語言技術(shù)的突破。

所以騰訊AI同傳面臨的挑戰(zhàn)和問題,是行業(yè)內(nèi)共有的。人工智能的發(fā)展仍然處在初級階段,機器同傳應(yīng)該給予更多的包容和時間,讓這些產(chǎn)品在博鰲論壇這樣規(guī)模的會議進行檢驗。

AI同傳在博鰲論壇表現(xiàn)欠佳,技術(shù)進步還需更多耐心