智東西(公眾號(hào):zhidxcom)
文 | 寓揚(yáng)

移動(dòng)互聯(lián)網(wǎng)時(shí)代,智能手機(jī)已經(jīng)成為我們的“貼身之物”,我們每個(gè)人都是“手機(jī)人”。我們通過(guò)應(yīng)用商店下載各種APP,來(lái)滿(mǎn)足自身多樣化的需求??梢?jiàn),APP服務(wù)對(duì)我們彌足重要。

在語(yǔ)音交互入口下,我們的人機(jī)交互方式也將由現(xiàn)在的觸屏轉(zhuǎn)變?yōu)檎Z(yǔ)音。同樣我們也需要一個(gè)語(yǔ)音“應(yīng)用商店”,承載各種語(yǔ)音技能,來(lái)滿(mǎn)足我們多樣化的需求。

而海知智能就是一家在語(yǔ)音交互入口下做“應(yīng)用商店”和“APP”的創(chuàng)業(yè)公司,即專(zhuān)注于語(yǔ)義理解,提供第三方Bot開(kāi)放平臺(tái)和Skill開(kāi)發(fā)工具。Bot可理解為聊天機(jī)器人,或一個(gè)虛擬助理,它可以實(shí)現(xiàn)人機(jī)交互,提供各種滿(mǎn)足人們需求的內(nèi)容服務(wù)。

近期智東西和海知智能CEO謝殿俠圍繞語(yǔ)音交互入口展開(kāi)深入對(duì)話,看看這家專(zhuān)攻語(yǔ)義理解的創(chuàng)業(yè)公司,潛伏三年究竟鑄了把什么劍?如何看待風(fēng)口下的語(yǔ)音交互行業(yè)?風(fēng)口下又將作出怎樣的抉擇?

一、始于硅谷的創(chuàng)業(yè)團(tuán)隊(duì)

謝殿俠是一個(gè)非常健談的人,有時(shí)拋出一個(gè)問(wèn)題,就能滔滔不絕的談?wù)撘环?,再配上一陣爽朗的笑聲,確實(shí)給人一種江湖豪杰“謝大俠”的感覺(jué)。

這家潛伏三年的創(chuàng)業(yè)團(tuán)隊(duì) 要做語(yǔ)音交互時(shí)代的“應(yīng)用商店”

他略帶調(diào)侃的講起了和CTO丁力一起創(chuàng)業(yè)的故事。謝殿俠在北京大學(xué)讀書(shū)期間,搞了一個(gè)幾百人的“北大愛(ài)樂(lè)社”,而在這些社員中就有一個(gè)叫丁力的。后來(lái)他1997年北大畢業(yè)后,就去了方正技術(shù)研究院工作。2014年他在硅谷再次遇到了那個(gè)“丁力”。

謝殿俠一直在思考怎么讓知識(shí)系統(tǒng)化,讓知識(shí)流動(dòng)起來(lái),從而產(chǎn)生更大的價(jià)值,而多年的工作經(jīng)歷給予了他更多產(chǎn)品、行業(yè)、市場(chǎng)的經(jīng)驗(yàn)。而丁力從研究生到博士以及后續(xù)工作都在學(xué)術(shù)界從事知識(shí)圖譜領(lǐng)域的研究和實(shí)踐。

經(jīng)過(guò)幾個(gè)月的洽談,在2014年下半年,兩人便決定圍繞語(yǔ)義理解開(kāi)始創(chuàng)業(yè),深耕家居市場(chǎng),做Bot應(yīng)用,并在2015年拿了聯(lián)創(chuàng)永宣馮濤的天使投資。

謝殿俠回憶到,當(dāng)時(shí)幾個(gè)因素促成了此次創(chuàng)業(yè)。其一4G開(kāi)始普及,傳統(tǒng)的智能硬件也剛剛開(kāi)始,未來(lái)機(jī)器人、智能硬件將會(huì)對(duì)語(yǔ)音交互有巨大的需求;其二隨著深度學(xué)習(xí)的發(fā)展,語(yǔ)音識(shí)別準(zhǔn)確率大大提高,這樣語(yǔ)義理解的前置條件就靠譜了;其三,傳統(tǒng)知識(shí)圖譜成本高,并且無(wú)法做到全、新、準(zhǔn),而2012年谷歌則推動(dòng)了知識(shí)圖譜技術(shù)的發(fā)展;其四盡管語(yǔ)義理解很難做,但是通過(guò)對(duì)邊界的界定,是可以做出用戶(hù)可容忍范圍內(nèi)的產(chǎn)品的。

以上條件的成熟,加上對(duì)未來(lái)智能硬件市場(chǎng)的看好,謝殿俠便和丁力便義無(wú)反顧地選擇了自然語(yǔ)言處理(NLP)和知識(shí)圖譜(KG)這個(gè)方向。當(dāng)時(shí)他們樂(lè)觀的認(rèn)為1年左右市場(chǎng)就會(huì)起來(lái),但預(yù)想并沒(méi)有如期而至。

2016年上半年是海知智能的低谷期,智能硬件等業(yè)務(wù)并沒(méi)有如期發(fā)展起來(lái)。盡管其技術(shù)也應(yīng)用在了一些機(jī)器人中,如賢二機(jī)器僧,但整個(gè)行業(yè)生態(tài)沒(méi)有起來(lái)。機(jī)緣巧合之下,海知智能介入了智能客服、智能分析員等業(yè)務(wù),作為當(dāng)下生存的變現(xiàn)渠道。

而隨著國(guó)外亞馬遜Echo的成功,2016年下半年國(guó)內(nèi)在智能音箱等市場(chǎng)也起來(lái)了,許多企業(yè)開(kāi)始找海知智能合作,其業(yè)務(wù)營(yíng)收也隨著風(fēng)口而水漲船高。

目前,海知智能團(tuán)隊(duì)約50人左右,其中一半為研發(fā)人員,一半為產(chǎn)品人員。

二、NLP+KG打造技能平臺(tái)

那么海知智能到底做什么呢?如果將語(yǔ)音交互拆開(kāi)來(lái)說(shuō),大體可以分為以下過(guò)程:拾音喚醒、語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成。大家耳熟能詳?shù)目拼笥嶏w做的就是語(yǔ)音識(shí)別部分,它處理的對(duì)象是聲音,將聲音轉(zhuǎn)換成文本;而海知智能做的就是語(yǔ)義理解部分,處理的對(duì)象就是文本,理解文本的意圖,并調(diào)動(dòng)相應(yīng)的服務(wù)。

謝殿俠將這種能力稱(chēng)為Bot(智能助理)或者Skill(技能),“Bot的實(shí)質(zhì)是它構(gòu)建了一個(gè)領(lǐng)域的知識(shí)圖譜,通過(guò)人能夠理解的語(yǔ)言和人交流”。而在技術(shù)路線上,海知智能通過(guò)知識(shí)圖譜+自然語(yǔ)言處理相結(jié)合的方式去搭建Bot平臺(tái)以及技能插件。

這家潛伏三年的創(chuàng)業(yè)團(tuán)隊(duì) 要做語(yǔ)音交互時(shí)代的“應(yīng)用商店”

(海知智能的Bot引擎)

簡(jiǎn)單來(lái)講Bot可以理解為手機(jī)中一個(gè)完整的“應(yīng)用商店”,它里面有各種內(nèi)容和服務(wù),只有有了應(yīng)用商店,你才能夠下載你想要的內(nèi)容,獲取你想要的服務(wù)。而Skill就像應(yīng)用商店的“APP”,它是一種單個(gè)的技能服務(wù),但是它的維度比觸屏更高,是通過(guò)語(yǔ)音的方式控制的。比如智能音箱中“查天氣”、“百科問(wèn)答”等都是一個(gè)Skill,而眾多Skill就匯聚成一個(gè)Bot平臺(tái),而這背后需要知識(shí)圖譜和NLP(自然語(yǔ)言處理)的支持。

謝殿俠談到,語(yǔ)義理解是非常難的一塊,只有限定語(yǔ)義理解的邊界才能夠做出在用戶(hù)容忍度之內(nèi)的產(chǎn)品。通過(guò)限定特定場(chǎng)景、特定用戶(hù)、特定問(wèn)題這三個(gè)邊界條件,海知智能選擇了家居這個(gè)場(chǎng)景。家庭對(duì)應(yīng)的產(chǎn)品是冰箱、空調(diào)、電視、音箱、機(jī)器人等;用戶(hù)可能有一對(duì)夫妻、老人和孩子;問(wèn)題則是從他們?cè)缟掀鸫?、音?lè)、新聞、天氣、出行、菜譜、講故事等。

圍繞這條線,經(jīng)過(guò)3年時(shí)間的打磨,海知智能在音樂(lè)、百科類(lèi)、詩(shī)詞、有聲資源(喜馬拉雅、蜻蜓、荔枝)、天氣等方面建立完善的知識(shí)圖譜,并深耕家庭場(chǎng)景,形成了50多個(gè)技能插件。

這家潛伏三年的創(chuàng)業(yè)團(tuán)隊(duì) 要做語(yǔ)音交互時(shí)代的“應(yīng)用商店”

海知智能的Bot平臺(tái)號(hào)稱(chēng)“第三方Bot開(kāi)放平臺(tái)”。首先這個(gè)平臺(tái)不僅提供整個(gè)Bot的輸出,也提供單個(gè)技能的輸出,并且在此基礎(chǔ)上,開(kāi)發(fā)者能夠進(jìn)行自己的個(gè)性化優(yōu)化。其次,它的開(kāi)放不僅對(duì)于開(kāi)發(fā)者,也對(duì)B端的平臺(tái)開(kāi)放,如百度DuerOS平臺(tái)、思必馳的DUI平臺(tái)。

最后,它還提供開(kāi)發(fā)工具,降低技能的開(kāi)發(fā)成本,讓工程師,甚至普通人員來(lái)開(kāi)發(fā)他們自己的技能。具體而言,比如你是一個(gè)菜譜內(nèi)容提供商,有100萬(wàn)個(gè)文字菜譜,通過(guò)海知智能平臺(tái)的開(kāi)發(fā)工具可以在較短的時(shí)間內(nèi)變成知識(shí)圖譜,并形成基于Bot的Skill技能。目前這個(gè)平臺(tái)還在內(nèi)測(cè)階段,有近10家廠商通過(guò)海知智能的平臺(tái)開(kāi)發(fā)技能,涉及政府、新聞、旅行客服等。

謝殿俠坦言,他們只深耕語(yǔ)義理解這個(gè)細(xì)分領(lǐng)域,如果要想形成閉環(huán),必須要采取開(kāi)放合作的模式,同時(shí)他們也愿意開(kāi)放,甚至向有業(yè)務(wù)競(jìng)爭(zhēng)關(guān)系的對(duì)手開(kāi)放,共同把技能平臺(tái)這塊市場(chǎng)做起來(lái)。

目前,小米電視、小米AI音箱、海爾冰箱、康力優(yōu)藍(lán)機(jī)器人、張小盒機(jī)器人、賢二機(jī)器人等都使用海知智能的技能插件,如近期推出是小米AI音箱中就使用了海知智能的17個(gè)技能插件。此外,百度DuerOS平臺(tái)、思必馳DUI開(kāi)放平臺(tái)、小米水滴平臺(tái)都是其合作伙伴。

三、“獨(dú)辟蹊徑”的盈利模式

在語(yǔ)音交互行業(yè)都面臨變現(xiàn)難題的當(dāng)下,海知智能是否盈利,以及如何營(yíng)收呢?謝殿俠表示,海知現(xiàn)金流為正,目前年?duì)I業(yè)額達(dá)千萬(wàn)。

但他也談到在智能家居技能方面采取免費(fèi)模式,比如和小米的合作。前提是小米有足夠的流量,可沿用應(yīng)用商店的分成模式,有獲得預(yù)期收入的可能。對(duì)于用戶(hù)流量規(guī)模較小的,可以采用授權(quán)模式,按照設(shè)備或者調(diào)用次數(shù)進(jìn)行收費(fèi)。

但靠免費(fèi)怎么能夠盈利?海知的收入到底來(lái)源于哪里?最終謝殿俠透露了當(dāng)下的核心盈利來(lái)源,目前智能客服業(yè)務(wù)和智能分析員的B端業(yè)務(wù)構(gòu)成了其收入的主要來(lái)源。

這家潛伏三年的創(chuàng)業(yè)團(tuán)隊(duì) 要做語(yǔ)音交互時(shí)代的“應(yīng)用商店”

他近一步談到,之前做語(yǔ)義理解,做機(jī)器人的Bot平臺(tái),但是生態(tài)沒(méi)起來(lái),公司的業(yè)務(wù)就沒(méi)有預(yù)期增長(zhǎng),必須將技術(shù)應(yīng)用在當(dāng)下“接地氣”的項(xiàng)目中。而機(jī)緣巧合之下,他們?nèi)ツ杲槿肓酥悄芸头I(lǐng)域。

當(dāng)時(shí)一個(gè)潛在合作項(xiàng)目存在大量智能客服的需求,又對(duì)原來(lái)的智能客服不太滿(mǎn)意,而海知智能通過(guò)技術(shù)測(cè)評(píng),發(fā)現(xiàn)可以通過(guò)其平臺(tái)的開(kāi)發(fā)工具,提供一套簡(jiǎn)單實(shí)用的智能客服技能。這給了謝殿俠一個(gè)啟發(fā),他們能夠憑借Bot的能力做智能客服。

智能客服確實(shí)是當(dāng)下技術(shù)應(yīng)用的一個(gè)剛需,但現(xiàn)有市場(chǎng)中玩家的技術(shù)力量不足,謝殿俠便在去年就啟動(dòng)了相關(guān)業(yè)務(wù)。目前他們也在為另一家大型客戶(hù)構(gòu)建智能客服,項(xiàng)目已經(jīng)基本敲定,這塊業(yè)務(wù)預(yù)計(jì)未來(lái)一兩年會(huì)較快發(fā)展。

通過(guò)其商業(yè)模式,我們發(fā)現(xiàn),盡管海知智能定位于打造家居Bot平臺(tái)以及技能插件,但是這塊市場(chǎng)尚屬早期,目前盈利模式并不清晰,反而是當(dāng)下需求較大的智能客服和智能分析員業(yè)務(wù)成為了它的主要收入。海知當(dāng)下的選擇,代表了他們對(duì)技術(shù)落地的新思考,也為公司拓展了更多的生存空間。

不僅感慨,目前市面上許多做Bot的公司如何生存盈利?或許在光鮮的Demo展示之外,不得不將技術(shù)落地到當(dāng)下需求性強(qiáng)、能夠解決的實(shí)際問(wèn)題上,來(lái)獲得生存。

四、提供標(biāo)準(zhǔn)工具打造個(gè)性化產(chǎn)品

涉及到打造產(chǎn)品,必然面臨一個(gè)問(wèn)題,如何打造差異化的產(chǎn)品?如何提升用戶(hù)體驗(yàn)?

關(guān)于用戶(hù)體驗(yàn),謝殿俠認(rèn)為,首先界定邊界非常重要,只有深耕某一場(chǎng)景的語(yǔ)義理解,才能夠做出用戶(hù)能夠容忍的技能服務(wù);其次,海知智能在3年前就開(kāi)始從事知識(shí)圖譜等的積累,目前在音樂(lè)、百科等領(lǐng)域積累了豐富的知識(shí)圖譜,這也大大提升了語(yǔ)義搜索能力;此外,海知的Bot管理工具可以和人工相結(jié)合,讓人工參與,從而提升差異化。

具體來(lái)講,海知智能在NLP層面是通過(guò)對(duì)話模板進(jìn)行機(jī)器學(xué)習(xí),由人來(lái)寫(xiě)少量的對(duì)話模板,再由海知通過(guò)平臺(tái)進(jìn)行學(xué)習(xí)、理解。謝殿俠認(rèn)為,這種方式比端到端的學(xué)習(xí)方式解釋性更強(qiáng),領(lǐng)域的優(yōu)化空間也更大。因?yàn)樗惴ㄗ詈蟛荒芙鉀Q所有的問(wèn)題,一個(gè)領(lǐng)域的數(shù)據(jù)量不足夠大, NLP中的問(wèn)題也沒(méi)法解決。針對(duì)這個(gè)問(wèn)題,可以提供一個(gè)足夠強(qiáng)的工具,讓Bot領(lǐng)域的專(zhuān)家、工程師等干預(yù)這個(gè)過(guò)程,將算法和人工相結(jié)合的方式提升Bot的管理能力。

這家潛伏三年的創(chuàng)業(yè)團(tuán)隊(duì) 要做語(yǔ)音交互時(shí)代的“應(yīng)用商店”

而另一個(gè)問(wèn)題就在于差異化。他談到,目前海知的合作主要分為兩類(lèi),一類(lèi)像和海爾的合作,海知提供一整套Bot/Skill的解決方案,對(duì)接硬件、語(yǔ)音識(shí)別、語(yǔ)音合成,落地到海爾。海爾也可以通過(guò)其平臺(tái)的開(kāi)發(fā)工具,進(jìn)行設(shè)定,打造個(gè)性化的產(chǎn)品。

小米的合作是另一種模式,小米有自己的Bot平臺(tái),海知?jiǎng)t是通過(guò)開(kāi)放API(應(yīng)用程序接口)的形式,將自己的技能插件輸出給小米的技能平臺(tái)。

前者的輸出像是輸出了一個(gè)手機(jī)上的“應(yīng)用商店”,而后者的輸出則像應(yīng)用商店中的“APP”。即便是對(duì)不同廠家輸出了相同的技能,隨著用戶(hù)的使用,數(shù)據(jù)的訓(xùn)練,也會(huì)進(jìn)行自適應(yīng),呈現(xiàn)個(gè)性化的差異。并且,人工也可以針對(duì)不同場(chǎng)景去干預(yù)。

五、語(yǔ)音交互的痛點(diǎn)是基于場(chǎng)景的個(gè)性化服務(wù)

回到語(yǔ)音交互這個(gè)大入口,尤其是今年火爆的智能音箱市場(chǎng)。他談到,語(yǔ)音命令并不是語(yǔ)音交互的核心痛點(diǎn),比如在冰箱上設(shè)定溫度,一方面遙控器足夠方便,另一方面語(yǔ)音交互準(zhǔn)確率并沒(méi)有那么高。那么語(yǔ)音交互的痛點(diǎn)究竟在哪里呢?

他認(rèn)為語(yǔ)音命令、語(yǔ)音控制只是錦上添花的事情。比如海爾打造的冰箱,最核心的不是聽(tīng)歌,也不是查天氣,最核心的應(yīng)該是基于廚房場(chǎng)景所提供的個(gè)性化服務(wù)。當(dāng)你要做一道菜時(shí),是拿手機(jī)搜菜譜,還是直接問(wèn)一下冰箱更方便呢?當(dāng)你做菜時(shí),豬肉和杏仁食材能不能搭配呢?當(dāng)你要減肥,如何制定營(yíng)養(yǎng)飲食體系?而這個(gè)冰箱中的語(yǔ)音交互就相當(dāng)于一個(gè)私人營(yíng)養(yǎng)師,它會(huì)比你電腦搜索、APP查詢(xún)更高效。

可以看出,謝殿俠眼中的語(yǔ)音交互核心在于Bot,針對(duì)每個(gè)場(chǎng)景提供智能助理,連接各種服務(wù)。而服務(wù)的打磨和體驗(yàn),則有賴(lài)于知識(shí)圖譜和NLP技術(shù)在邊界范圍內(nèi)進(jìn)一步完善。

謝殿俠也認(rèn)為智能音箱在家庭場(chǎng)景中是有剛需的,它可以為用戶(hù)提供從早上的鬧鐘、新聞、路況、菜譜、音樂(lè)、故事等價(jià)值,它是一個(gè)典型的MVP(最小可用功能體)。但受限于文化、家庭環(huán)境等因素,智能音箱在中國(guó)環(huán)境可能沒(méi)有美國(guó)那么成功,但它會(huì)逐步發(fā)展起來(lái),預(yù)計(jì)今年智能音箱市場(chǎng)將達(dá)百萬(wàn)臺(tái),明年千萬(wàn)臺(tái)的規(guī)模。

謝殿俠所理解的智能音箱是一個(gè)基因Bot的MVP,他認(rèn)為有電的地方都可以有語(yǔ)音交互。而B(niǎo)ot實(shí)質(zhì)上不僅僅可以是音箱、也可以是冰箱、空調(diào)、電視等等,它實(shí)質(zhì)上構(gòu)建了一個(gè)領(lǐng)域的知識(shí)圖譜,通過(guò)人能夠理解的語(yǔ)言和人交流。

對(duì)于語(yǔ)音技術(shù)落地到家庭場(chǎng)景而言,他更看好智能電視,其次才是智能音箱。他談到,現(xiàn)在出貨的電視都是語(yǔ)音交互的電視,而剩下的就是怎么在語(yǔ)義技能上做起來(lái),這也正是海知智能等發(fā)力Skill平臺(tái)的機(jī)會(huì)所在。

結(jié)語(yǔ):語(yǔ)音技能的崛起

如果說(shuō)當(dāng)下火爆的智能音箱、智能電視等推動(dòng)了智能硬件的迅速發(fā)展,那么接下來(lái)智能硬件對(duì)“技能商店”以及“技能”的需求將會(huì)大幅增長(zhǎng)。

謝殿俠認(rèn)為,人們?nèi)粘I罘?wù)中的需求比如說(shuō)要8萬(wàn)個(gè)Skill(技能)才能夠滿(mǎn)足,而發(fā)展最迅速的亞馬遜Alexa也只有1.5萬(wàn)個(gè)技能,技能只有達(dá)到一個(gè)更高的臨界點(diǎn),Bot和人溝通起來(lái),才能大部分命中人們的需求。在這種情況下,行業(yè)需要開(kāi)放,大家共同來(lái)做并集。

語(yǔ)音交互會(huì)是人機(jī)交互中的一場(chǎng)大變革,而硬件之上的交互內(nèi)容,下一個(gè)“應(yīng)用商店”又會(huì)誕生在哪里?

這家潛伏三年的創(chuàng)業(yè)團(tuán)隊(duì) 要做語(yǔ)音交互時(shí)代的“應(yīng)用商店”