智東西(公眾號:zhidxcom)
文 | Lina

智東西11月21日消息,今天,微軟小冰首席科學(xué)家宋睿華、首席NLP科學(xué)家武威、首席語音科學(xué)家欒劍在一場小型媒體交流會上介紹了微軟小冰今年在自然語言處理、語音學(xué)研究、多模態(tài)生成等領(lǐng)域研究進(jìn)展。

對話微軟小冰三大首席科學(xué)家:用抖音神曲訓(xùn)練AI,機(jī)器作曲潛力巨大

▲從左到右:微軟小冰首席NLP科學(xué)家武威、首席語音科學(xué)家欒劍、首席科學(xué)家宋睿華

在會后的采訪中,欒劍告訴智東西,在AI編曲方面,小冰將尋找更多數(shù)據(jù),生成更多的模式和風(fēng)格。比如小冰可以從“抖音神曲”中挖掘現(xiàn)在流行的音樂風(fēng)格,生成更好的音樂。

一、AI學(xué)會北極熊怎么“躡手躡腳”

據(jù)微軟小冰首席科學(xué)家宋睿華介紹,最近幾年,微軟小冰團(tuán)隊在各大國際會議上發(fā)表了48篇論文/文章、獲得了包括全雙工AI技術(shù)在內(nèi)的72項專利。

當(dāng)前小冰已經(jīng)在搭載在4.5億臺第三方智能設(shè)備,平均對話輪數(shù)(CPS)達(dá)到23輪。

宋睿華分享了小冰在比喻、聯(lián)想方面的進(jìn)展,以及如何讓小冰像人一樣能將故事理解成畫面。

對話微軟小冰三大首席科學(xué)家:用抖音神曲訓(xùn)練AI,機(jī)器作曲潛力巨大

▲小冰通過聯(lián)想連接詞等方式生成的比喻句

此外,小冰像人一樣能將故事理解成畫面的能力涉及當(dāng)前很火的“跨模態(tài)理解”技術(shù)。

比如在語言方面,當(dāng)人類閱讀一段北極熊捕獵海豹的文字時,腦海中將會主動浮現(xiàn)相應(yīng)的場景。

對話微軟小冰三大首席科學(xué)家:用抖音神曲訓(xùn)練AI,機(jī)器作曲潛力巨大

而且,雖然文字段落里完全沒有提到北極熊是白色的、周圍冰天雪地的世界是白色的,但是人類可以通過常識補(bǔ)充這種缺失的信息。

宋睿華告訴智東西,當(dāng)前,AI在常識領(lǐng)域依舊存在缺失,因為人類不會把習(xí)以為常的東西寫進(jìn)文字里,比如人類不會專門說“我今天用兩條腿走路”。對于AI常識補(bǔ)充方面,孕育了不少可挖掘的東西。

同時,人類可能沒有見過北極熊“躡手躡腳”的樣子,但可以把自己家里面貓躡手躡腳的樣子進(jìn)行代入。通過向人類學(xué)習(xí),小冰也可以調(diào)動出以前的經(jīng)驗,模擬出當(dāng)前的場景,像人一樣能將故事理解成畫面。

對話微軟小冰三大首席科學(xué)家:用抖音神曲訓(xùn)練AI,機(jī)器作曲潛力巨大

▲小冰對“畫餅充饑”故事的圖像理解

宋睿華告訴智東西,在未來一兩年里,微軟小冰將繼續(xù)往多模態(tài)方向發(fā)展,未來小冰如果有一個具體的形象,變成有攝像頭(有眼睛)、有麥克風(fēng)(有耳朵),這種多模態(tài)AI技術(shù)將會是未來的發(fā)展重點。

二、從簡單回復(fù)到信息增量

微軟小冰首席NLP科學(xué)家武威今天分享的主題是《朝向自我完備的對話機(jī)器人(Towards a Self-Complete Chatbot)》。

武威說,“自我完備(Self-Complete)”是團(tuán)隊內(nèi)部自己“造”的詞,但是它能夠最好地概括小冰過去幾年的成果。

對于對話機(jī)器人來說,“自我完備”主要指的是具備以下幾大能力:

對話微軟小冰三大首席科學(xué)家:用抖音神曲訓(xùn)練AI,機(jī)器作曲潛力巨大

1、具備學(xué)習(xí)能力(初級能力包括從人類對話進(jìn)行中學(xué)習(xí);高級能力包括從其他對話機(jī)器人中學(xué)習(xí))

2、具備對話的自我管理能力(初級能力包括能夠知道自己在單輪對話中需要表達(dá)的內(nèi)容、高級能力包括有能力把握整個對話流程)

3、具備知識聯(lián)通能力(能夠連接世界上多項多模態(tài)知識)

以從人類對話中進(jìn)行學(xué)習(xí)來舉例,通過小冰團(tuán)隊打造的生成模型(Generation Models)小冰與人類的對話可以從單獨(dú)進(jìn)展到多輪、從簡單回復(fù)進(jìn)展到具備信息增量的內(nèi)容等等。

對話微軟小冰三大首席科學(xué)家:用抖音神曲訓(xùn)練AI,機(jī)器作曲潛力巨大

上圖是三種不同模型針對同一對話給出的不同回復(fù),當(dāng)人類給出“我的皮膚好干”對話時,SSA模型給出的回復(fù)是“啊啊啊啊”,S2SA-MMI模型給出的回復(fù)是“我也是啊”,微軟的TA-Seq2Seq模型給出的回復(fù)是“那就補(bǔ)水保濕吧”——“補(bǔ)水保濕“就是一個明顯的信息增量內(nèi)容。

武威說,這項研究雖然研究時間不長,但是發(fā)展得非???。

此外,當(dāng)前,全雙工多輪對話等技術(shù)在AI語音交互領(lǐng)域非常火,在過去幾個月之內(nèi),百度、阿里、小米等都陸續(xù)發(fā)布了相關(guān)的新品。

武威告訴智東西,微軟小冰很早就推出了相關(guān)功能,而且小冰的多輪對話能力不僅僅是讓小冰把上下文理解得更準(zhǔn)確、給出更準(zhǔn)確的回復(fù),更重要的是小冰會把控整個對話流程、進(jìn)行有來有往的對話引導(dǎo)。因為人類的交流過程不是一個簡單的問答模式,而是有目的、有情商的交流。

三、AI唱歌的難點:清唱數(shù)據(jù)缺乏

微軟小冰首席語音科學(xué)家欒劍分享了微軟小冰在AI唱歌方面的進(jìn)展。

欒劍說,微軟小冰做唱歌技術(shù)的原因有三點:1、AI唱歌比AI說話的技術(shù)門檻更高;2、唱歌的情感表達(dá)更豐富、更激烈;3、唱歌是一個非常重要的娛樂方式。

對話微軟小冰三大首席科學(xué)家:用抖音神曲訓(xùn)練AI,機(jī)器作曲潛力巨大

而唱歌的三大要素則包括吐字發(fā)音、節(jié)拍、旋律。這三大要素將通過兩種方式輸入機(jī)器,第一種是通過已有音頻輸入、第二種則是通過曲譜輸入。

欒劍說,對于AI唱歌來說,由于清唱數(shù)據(jù)嚴(yán)重缺乏,必須利用大量混合伴奏音軌的數(shù)據(jù)進(jìn)行訓(xùn)練。

對話微軟小冰三大首席科學(xué)家:用抖音神曲訓(xùn)練AI,機(jī)器作曲潛力巨大

針對這一難點,微軟小冰團(tuán)隊通過人聲部分檢測、音素時刻對齊、音高軌跡提取等方式,通過模型+數(shù)據(jù)的結(jié)合,才能成功打造出會唱歌的小冰。

不過,欒劍對智東西強(qiáng)調(diào):微軟小冰的語音合成技術(shù)現(xiàn)在暫時只會對企業(yè)開放,不對個人開放,因為這一技術(shù)對用戶隱私、AI欺詐等方面存在著很高的風(fēng)險。

四、落地線上零售,用抖音神曲訓(xùn)練AI

雖然這場分享會以技術(shù)進(jìn)展為主,但微軟小冰的研發(fā)大咖們也分享了一些微軟小冰在落地方面的進(jìn)展。

比如在線上零售方面,目前,小冰團(tuán)隊已經(jīng)在日本、美國落地了相應(yīng)的技術(shù),AI將通過幾個簡單的問題,迅速判斷出用戶的購物需求。

對話微軟小冰三大首席科學(xué)家:用抖音神曲訓(xùn)練AI,機(jī)器作曲潛力巨大

比如當(dāng)用戶提出需要購買一份畢業(yè)禮物時,AI通過10輪以內(nèi)的對話陸續(xù)挖掘出用戶送禮對象的興趣愛好,最后推薦一份合適的禮物(比如書、相機(jī)、咖啡等)。

據(jù)武威介紹,這一系統(tǒng)當(dāng)前用戶點擊的推薦轉(zhuǎn)化率高達(dá)68%。

同時,宋睿華表示,在AI對音樂、文字、圖畫等創(chuàng)作方面,音樂是一個非常大的市場。因為人類對音樂的消費(fèi)需求是很大的,但是真正能寫歌的人很少。

欒劍表示,現(xiàn)在微軟小冰的技術(shù)既可以幫助企業(yè)定制虛擬歌手、又可以為用戶提供音樂工具與平臺,讓用戶更方便地創(chuàng)造自己的歌曲。

在AI作曲的優(yōu)化方面,欒劍再次強(qiáng)調(diào),數(shù)據(jù)+模型非常重要。一方面,小冰將尋找更多數(shù)據(jù),生成更多的模式和風(fēng)格。比如小冰可以從“抖音神曲”中挖掘現(xiàn)在流行的音樂風(fēng)格,生成更好的音樂。

另一方面,在數(shù)據(jù)不足的時候,可以用專家模式抽取規(guī)則,把規(guī)則和算法模型更有機(jī)地結(jié)合。