智東西(公眾號(hào):zhidxcom)
文 | 寓揚(yáng)

在人工智能的舞臺(tái)上,微軟小冰可是一個(gè)明星人物,憑借著“鄰家女孩”溫柔可人的“形象”,可謂風(fēng)靡萬(wàn)千少男少女。

自2014年誕生以來(lái),在微軟亞洲互聯(lián)網(wǎng)工程院諸位“爸爸”的培育下,小冰也在不斷實(shí)現(xiàn)自身的升級(jí),目前已經(jīng)成長(zhǎng)至第五代,除了寫(xiě)詩(shī)、當(dāng)主持人之外,小冰也開(kāi)始與硬件相結(jié)合,落地米家生態(tài)鏈Yeelight。小冰也開(kāi)始從最初的情感陪伴轉(zhuǎn)向一個(gè)面向家庭的生活助手。

近期微軟亞洲互聯(lián)網(wǎng)工程院副院長(zhǎng)、微軟小冰全球負(fù)責(zé)人李笛、微軟小冰全球研發(fā)負(fù)責(zé)人、首席架構(gòu)師周力首次公布了對(duì)話式AI的最新框架——Session-oriented(面向?qū)υ捜蹋?。給智東西印象最深刻的一個(gè)觀點(diǎn)是,在小冰團(tuán)隊(duì)看來(lái)國(guó)內(nèi)對(duì)話式人工智能整體的發(fā)展像堆積木,而沒(méi)有更多地探索底層框架的設(shè)計(jì),這就大大限制了對(duì)話式AI的發(fā)展。微軟小冰正試圖采用一種新的底層框架,來(lái)改善現(xiàn)有的交互體驗(yàn)。

對(duì)話微軟小冰李笛:如何讓小冰流暢的與人交互?

(左為微軟亞洲互聯(lián)網(wǎng)工程院副院長(zhǎng)、微軟小冰全球負(fù)責(zé)人李笛,右為微軟小冰全球研發(fā)負(fù)責(zé)人、首席架構(gòu)師周力)

一、“十字路口”的陷阱

微軟小冰正在做的是“全雙工語(yǔ)音交互”,所謂全雙工可以理解為實(shí)時(shí)交互、雙向交互、連續(xù)交互,就像人和人打電話一樣,它可以實(shí)時(shí)的聆聽(tīng)并與你溝通,這樣做的好處就在于對(duì)話式人機(jī)交互更加自然,更符合人與人交互的體驗(yàn)。李笛稱(chēng)目前國(guó)內(nèi)的對(duì)話式AI都不能算是全雙工,最多算半雙工,而核心原因在于底層框架的限制。

他將基礎(chǔ)框架的理念分為兩種:Turn-oriented(面向單個(gè)任務(wù))和Session-oriented(面向?qū)υ捜蹋?/p>

對(duì)話微軟小冰李笛:如何讓小冰流暢的與人交互?

所謂Turn-oriented就是面向單個(gè)任務(wù)的編程,簡(jiǎn)單的表現(xiàn)就是一問(wèn)一答,通過(guò)最少的多輪對(duì)話幫你把任務(wù)完成,目前國(guó)內(nèi)大多數(shù)對(duì)話式AI沿用這種思路。

而Session-oriented不是這樣,它首先關(guān)注的是一個(gè)更大范圍的全程的對(duì)話,更加關(guān)注整個(gè)交互過(guò)程質(zhì)量的高低。這也是目前微軟小冰采用的基礎(chǔ)框架。

為了更好的理解,李笛將這兩種框架的區(qū)別形象的類(lèi)比為日常的事物。他將Turn-oriented比作“來(lái)自十字路口的對(duì)話”,它就像一個(gè)十字路口的“民警”,當(dāng)你發(fā)出指令后,它會(huì)快速的把你引導(dǎo)到一個(gè)方向,完成任務(wù)后就把你拉回十字路口,然后一切歸零,如此往復(fù)。當(dāng)沒(méi)有辦法把你引導(dǎo)到一個(gè)地方時(shí),過(guò)去就會(huì)通過(guò)搜索引擎的方式提供一些搜索信息。這樣做的好處就是能夠快速完成任務(wù),但它的弊端就是你一直處在十字路口,忽視過(guò)程的體驗(yàn)。

對(duì)話微軟小冰李笛:如何讓小冰流暢的與人交互?

相比而言,Session-oriented的對(duì)話像“河流”,它會(huì)從一個(gè)任務(wù)往下一個(gè)任務(wù)走,這個(gè)任務(wù)可能會(huì)進(jìn)入到進(jìn)一步的交流甚至閑聊,隨著進(jìn)一步交流可能引發(fā)出新的任務(wù),就這樣走下去。在這樣一個(gè)“河流”中,整個(gè)過(guò)程對(duì)話質(zhì)量的高低要優(yōu)于單個(gè)任務(wù)的完成,這樣的對(duì)話體驗(yàn)就更優(yōu)。

此前Facebook、亞馬遜、蘋(píng)果等采用的也是面向單個(gè)任務(wù)的交互框架,比如你跟Siri對(duì)話,每次可能只能說(shuō)一兩句,否則就不能很好的完成,我們從前端上認(rèn)為它不夠機(jī)制、系統(tǒng)不夠好,實(shí)際上是底層框架的問(wèn)題。而近期種種跡象表明他們都在向Session-oriented的技術(shù)方向探索,李笛稱(chēng)這將會(huì)是對(duì)話式AI未來(lái)1~2年的一個(gè)重要發(fā)展方向。

李笛進(jìn)一步強(qiáng)調(diào)到,Turn-oriented這種面向單個(gè)任務(wù)的框架的上限決定了它未來(lái)的發(fā)展空間。一開(kāi)始Session-oriented框架下的交互可能會(huì)用慘不忍睹來(lái)形容,但是一旦它越過(guò)某一個(gè)節(jié)點(diǎn),就會(huì)有很大的發(fā)展空間。

二、全雙工交互四大技術(shù)細(xì)節(jié)披露

微軟小冰的全雙工語(yǔ)音交互正是基于Session-oriented的框架進(jìn)行的,更加關(guān)注整個(gè)對(duì)話全程的交互。但要實(shí)現(xiàn)這樣一種全雙工、自然的交互有很多技術(shù)需要突破,微軟小冰全球研發(fā)負(fù)責(zé)人、首席架構(gòu)師周力分享了四大技術(shù)進(jìn)展。

第一個(gè)技術(shù)表現(xiàn)是“邊聽(tīng)邊想”,通過(guò)預(yù)測(cè)模型和動(dòng)態(tài)回應(yīng)來(lái)實(shí)現(xiàn)。所謂預(yù)測(cè)模型是小冰不在等到用戶(hù)一句話說(shuō)完再去進(jìn)行語(yǔ)音識(shí)別,而是每聽(tīng)到一個(gè)字,就會(huì)提前預(yù)測(cè)用戶(hù)整句話的完整意思。而動(dòng)態(tài)回應(yīng)也不意味著用戶(hù)輸入一條,AI回答一條,而是會(huì)根據(jù)提前預(yù)測(cè)的用戶(hù)意圖進(jìn)行“思考”回應(yīng),并根據(jù)最新獲取的信息來(lái)調(diào)整輸出結(jié)果。

對(duì)話微軟小冰李笛:如何讓小冰流暢的與人交互?

這樣做有兩個(gè)好處,一方面可以讓對(duì)話式AI的回答速度變得更快,另一方面在處理一些復(fù)雜的情況,它可以不拘泥于“我要回消息”,可以使用更好的對(duì)話策略。比如在“開(kāi)燈”這個(gè)指令下,它識(shí)別這個(gè)意圖后可以先說(shuō)“收到”,等這個(gè)燈真正打開(kāi)之后再說(shuō)已經(jīng)幫你把燈打開(kāi)了,體驗(yàn)效果就會(huì)好很多。

第二個(gè)技術(shù)表現(xiàn)是“節(jié)奏控制器”。在全雙工的對(duì)話中,節(jié)奏感會(huì)變得很重要,比如用戶(hù)說(shuō)的第一句話很重要,或者第一句話還有很長(zhǎng)時(shí)間要說(shuō),這時(shí)候AI不但需要與自己協(xié)調(diào)也要與人類(lèi)協(xié)調(diào),通過(guò)不同的應(yīng)對(duì)策略,來(lái)選擇重復(fù)、跳過(guò),甚至打斷用戶(hù)。

再比如用戶(hù)突然不說(shuō)話了,AI能否更具上下文拋出新的話題,或者維持既有的話題,從而打破沉默。這意味著AI將具有更多的主動(dòng)性,是目前語(yǔ)音助手所不具備的。

第三點(diǎn)全雙工的語(yǔ)音交互可以通過(guò)分類(lèi)器、環(huán)境處理、對(duì)象判斷等從而實(shí)現(xiàn)聲音場(chǎng)景的理解。首先語(yǔ)音身份識(shí)別是對(duì)話的基礎(chǔ),首先AI要識(shí)別是男的、女的、兒童,如果要對(duì)著一個(gè)男的垮“姐姐你好漂亮”就不合適。通過(guò)對(duì)用戶(hù)喜怒哀樂(lè)的識(shí)別,也可以采用不同的對(duì)話策略,從而增強(qiáng)用戶(hù)體驗(yàn)。

對(duì)話微軟小冰李笛:如何讓小冰流暢的與人交互?

環(huán)境的處理也很重要,通過(guò)環(huán)境的識(shí)別,如果在一個(gè)嘈雜的環(huán)境中AI自然需要放大聲音,但如果是談一些私密問(wèn)題時(shí),就應(yīng)該降低聲音,來(lái)體現(xiàn)說(shuō)話的藝術(shù)。此外對(duì)象的判斷也很重要,家庭環(huán)境中AI需要通過(guò)聲紋識(shí)別識(shí)別出爺爺、奶奶、爸爸、媽媽等不同人的身份來(lái)選擇不同的對(duì)話。

第四點(diǎn)在于自然語(yǔ)言理解和生成模型。在對(duì)話過(guò)程中,AI首先需要先理解它在做什么,從而根據(jù)場(chǎng)景調(diào)整對(duì)話策略。周力形象的解釋到,比如在播放故事的場(chǎng)景下,你想要調(diào)節(jié)音量,它可能只是燈亮一下來(lái)顯示音量的調(diào)節(jié)而不影響用戶(hù)聽(tīng)故事。

而生成模型意味著小冰的每一句話都是“自創(chuàng)”的,每一次回答都可能根據(jù)場(chǎng)景進(jìn)行變化,而非之前通過(guò)數(shù)據(jù)庫(kù)檢索獲得的。在一個(gè)以連續(xù)的流作為對(duì)話基石的時(shí)候,生成模型作為一種對(duì)話的技術(shù),變得越來(lái)越重要。

三、底層框架決定發(fā)展?jié)摿?/h2>

正如微軟亞洲互聯(lián)網(wǎng)工程院副院長(zhǎng)李笛所說(shuō),目前國(guó)內(nèi)對(duì)話式AI大多是單個(gè)任務(wù)的框架設(shè)定的。智東西此前也采訪過(guò)不少做NLP(自然語(yǔ)言處理)的公司,如三角獸、竹間智能、驀然認(rèn)知、海知智能等。NLP一直是人機(jī)交互的瓶頸所在,尤其是通用NLP更是如此,在這種情況下,出于實(shí)用主義考量,通過(guò)限定邊界場(chǎng)景,NLP開(kāi)始落地某一具體的場(chǎng)景。最初為了讓AI看上去更加有用,國(guó)內(nèi)大多采用基于任務(wù)導(dǎo)向的一問(wèn)一答式對(duì)話,從而盡可能完成用戶(hù)的任務(wù)。

對(duì)話微軟小冰李笛:如何讓小冰流暢的與人交互?

而微軟小冰關(guān)于Session-oriented這種“河流”式的面向整個(gè)過(guò)程的對(duì)話,聽(tīng)上去很美好,基于現(xiàn)有的NLP技術(shù)能否實(shí)現(xiàn)呢?智東西便把這一問(wèn)題拋給了周力。

周力坦言對(duì)于NLP的問(wèn)題包括學(xué)界都還是一個(gè)沒(méi)有很好解決的問(wèn)題。從小冰的角度講,他們采用的方法是各種技術(shù)的綜合,包括深度學(xué)習(xí)技術(shù)、也包括搜索技術(shù)、決策樹(shù)等,綜合起來(lái)達(dá)到一個(gè)更好的效果。

另外從全雙工的角度他繼續(xù)解釋到,自然語(yǔ)言處理的能力其實(shí)只是小冰實(shí)現(xiàn)很好對(duì)話其中的一個(gè)小部分,它還要包括場(chǎng)景識(shí)別、結(jié)構(gòu)控制等。盡管從NLP來(lái)講整個(gè)業(yè)界可能還有很長(zhǎng)的路要走,但是從客戶(hù)體驗(yàn)來(lái)講,只要找對(duì)了方向,找對(duì)了路,是可以在未來(lái)一兩年有非常大的突破的。

李笛也補(bǔ)充到,到今天為止,他們也不能說(shuō)小冰對(duì)話非常好,但這里面框架起到了決定性的價(jià)值,當(dāng)我們關(guān)注全局的時(shí)候,一“地”的得失,無(wú)論是我們還是用戶(hù),一定程度都能夠諒解,但像“十字路口”式的對(duì)話就沒(méi)有辦法了。

可見(jiàn)在他看來(lái),并非NLP本身變得更加重要,也并非NLP變得怎么樣小冰的對(duì)話就會(huì)很好,他強(qiáng)調(diào)的重點(diǎn)還在于底層框架,面向整個(gè)對(duì)話過(guò)程的對(duì)話機(jī)制才有更大的潛力空間。

對(duì)話微軟小冰李笛:如何讓小冰流暢的與人交互?