車(chē)東西(公眾號(hào):chedongxi)
文 | 曉寒

隨著這一輪人工智能技術(shù)的興起,語(yǔ)音交互和圖像識(shí)別技術(shù)迅速在消費(fèi)電子乃至汽車(chē)領(lǐng)域普及。近來(lái)無(wú)論是國(guó)產(chǎn)還是合資品牌上市的新車(chē),在進(jìn)行市場(chǎng)宣傳時(shí)無(wú)一不在強(qiáng)調(diào)其車(chē)聯(lián)網(wǎng)和語(yǔ)音交互功能。

然而就在車(chē)企大肆宣傳的背后,科大訊飛這類(lèi)各種語(yǔ)音技術(shù)公司才是真正的幕后英雄。

無(wú)獨(dú)有偶,雖然名聲不及科大訊飛響亮,但本文的主角,擁有中科院聲學(xué)所背景,為BAT和小米、華為等一系列巨頭提供語(yǔ)音交互技術(shù)的聲智科技也是不得不提的一個(gè)玩家。

隨著GTIC 2018全球智能汽車(chē)供應(yīng)鏈創(chuàng)新峰會(huì)重磅嘉賓對(duì)話(huà)系列報(bào)道啟動(dòng),車(chē)東西奔赴聲智科技北京辦公室,與聲智科技戰(zhàn)略合伙人、副總裁李智勇展開(kāi)對(duì)話(huà),就聲智科技的發(fā)展現(xiàn)狀、產(chǎn)品體系,以及其對(duì)車(chē)內(nèi)語(yǔ)音交互應(yīng)用前景的看法等關(guān)鍵問(wèn)題進(jìn)行了深入交流,弄明白了這家創(chuàng)業(yè)為何能夠在語(yǔ)音交互領(lǐng)域得到BAT、360、小米等一系列大公司青睞的原因。

拿下BAT跟華為之后 這家公司跟騰訊一起做車(chē)機(jī)

一、一家中科院聲學(xué)所背景的公司

作為一家語(yǔ)音交互技術(shù)公司,聲智科技最引以為傲,以及對(duì)外進(jìn)行傳播時(shí)的一個(gè)關(guān)鍵標(biāo)簽就是其中科院聲學(xué)所的背景。聲智科技創(chuàng)始人、CEO陳孝良此前為中科院聲學(xué)所的副研究員,曾參與海軍某重大項(xiàng)目,以及國(guó)家863等科研項(xiàng)目,在聲學(xué)領(lǐng)域耕耘多年。

2015年,語(yǔ)音交互、智能音箱等技術(shù)與設(shè)備逐漸在消費(fèi)領(lǐng)域普及,陳孝良及其團(tuán)隊(duì)也開(kāi)始醞釀到體制外創(chuàng)業(yè)。彼時(shí),聲智科技戰(zhàn)略合伙人、副總裁李智勇則還在360工作,任高級(jí)投資經(jīng)理和戰(zhàn)略分析師。

拿下BAT跟華為之后 這家公司跟騰訊一起做車(chē)機(jī)

▲李智勇

李智勇告訴車(chē)東西,那時(shí)候360正在尋找語(yǔ)音賽道上的玩家準(zhǔn)備投資,剛好經(jīng)人介紹認(rèn)識(shí)了陳孝良等人。

聊完之后雙方彼此認(rèn)可,于是李智勇就聯(lián)合峰瑞資本一起,向陳孝良及其團(tuán)隊(duì)提供了超過(guò)1000萬(wàn)元的天使投資(峰瑞資本領(lǐng)投),直接促成陳孝良及其團(tuán)隊(duì)于2016年一起離職創(chuàng)辦了聲智科技,而李智勇隨后也以戰(zhàn)略合伙人和副總裁的身份加入聲智一起創(chuàng)業(yè),負(fù)責(zé)戰(zhàn)略規(guī)劃和商業(yè)落地事宜。

隨后在2016年和2017年底,聲智科技又先后獲得由俞敏洪參與創(chuàng)辦的洪泰資本領(lǐng)投的1600萬(wàn)元PreA輪和百度的A輪融資。

李智勇透露,經(jīng)過(guò)2年多的發(fā)展,聲智科技團(tuán)隊(duì)規(guī)模已百人,在老的中科院團(tuán)隊(duì)基礎(chǔ)之上又大量補(bǔ)充了來(lái)自亞馬遜、騰訊、360等大型互聯(lián)網(wǎng)科技公司的力量,形成了聲學(xué)+計(jì)算機(jī)科學(xué)+互聯(lián)網(wǎng)的團(tuán)隊(duì)結(jié)構(gòu)。

二、提供全套語(yǔ)音交互解決方案

粗略來(lái)說(shuō),目前這波以智能音箱或車(chē)內(nèi)語(yǔ)音交互為代表的中遠(yuǎn)場(chǎng)語(yǔ)音交互技術(shù)主要分為如下幾個(gè)步驟:

1、由麥克風(fēng)陣列拾取外界語(yǔ)音命令,并對(duì)其進(jìn)行、降噪、增強(qiáng)等處理。2、將處理后的聲音上傳至云端并將其識(shí)別為文字。

3、用NLP自然語(yǔ)言理解技術(shù)對(duì)文字進(jìn)行處理,了解用戶(hù)意圖。4、根據(jù)用戶(hù)意圖,為用戶(hù)反饋內(nèi)容(如音樂(lè),天氣等信息)或者進(jìn)行具體控制操作(如打開(kāi)天窗)。

按照這個(gè)框架,聲智科技目前的核心產(chǎn)品主要集中在1和2,即為B端客戶(hù)提供軟硬件一體的拾音和語(yǔ)音識(shí)別系統(tǒng)。

雖然看似簡(jiǎn)單,其實(shí)背后還有不少細(xì)分技術(shù)。

拿下BAT跟華為之后 這家公司跟騰訊一起做車(chē)機(jī)

▲搭載聲智語(yǔ)音交互技術(shù)的部分產(chǎn)品

例如在有許多人說(shuō)話(huà)的場(chǎng)景中拾音時(shí)首先要識(shí)別哪些是噪音,哪些是實(shí)際的語(yǔ)音命令。在拾取聲音之后還要對(duì)噪音進(jìn)行處理并增強(qiáng)語(yǔ)音命令的聲音才能供識(shí)別系統(tǒng)使用。而在語(yǔ)音識(shí)別步驟,則需要大量的語(yǔ)料,并運(yùn)用神經(jīng)網(wǎng)絡(luò)才能訓(xùn)練出一個(gè)高準(zhǔn)確率的識(shí)別系統(tǒng)。

“與Siri等挨著手機(jī)說(shuō)話(huà)的近場(chǎng)語(yǔ)音交互技術(shù)不同,中遠(yuǎn)距離拾音背景環(huán)境復(fù)雜噪音更多,不對(duì)聲音進(jìn)行處理單靠計(jì)算機(jī)很難做識(shí)別?!崩钪怯孪蜍?chē)東西說(shuō)道,“而這正是我們聲學(xué)+計(jì)算機(jī)科學(xué)+互聯(lián)網(wǎng)的團(tuán)隊(duì)結(jié)構(gòu)的優(yōu)勢(shì)?!?/p>

李智勇告訴車(chē)東西,聲智科技目前已經(jīng)擁有百余家客戶(hù),包括BAT、小米、華為、360等巨頭與大型科技公司的智能語(yǔ)音交互設(shè)備都會(huì)用到其產(chǎn)品與技術(shù)。

除了前兩步,李智勇透露聲智也在向上述第3和第4步進(jìn)發(fā),目前已經(jīng)與各大內(nèi)容平臺(tái)完成了對(duì)接,從而為一些傳統(tǒng)行業(yè)的客戶(hù)提供一套涵蓋4大步驟的完整解決方案。

三、車(chē)內(nèi)語(yǔ)音交互的第一要?jiǎng)?wù)是便利

對(duì)于行駛在公路上的汽車(chē)來(lái)說(shuō),用語(yǔ)音命令來(lái)操作導(dǎo)航、音樂(lè)系統(tǒng),或是控制門(mén)窗與空調(diào)系統(tǒng)被普遍認(rèn)為是比低頭去按按鈕更好的交互方式。最近一兩年上市的新車(chē),無(wú)論是國(guó)產(chǎn)還是合資品牌,無(wú)一不在強(qiáng)調(diào)其語(yǔ)音交互功能,甚至有廠(chǎng)家也就著語(yǔ)音交互技術(shù)大肆宣傳智能和互聯(lián)網(wǎng)特性。

拿下BAT跟華為之后 這家公司跟騰訊一起做車(chē)機(jī)

但就目前一些車(chē)型的實(shí)際體驗(yàn)來(lái)說(shuō),其語(yǔ)音交互系統(tǒng)離智能二字還有段距離,表現(xiàn)為語(yǔ)音識(shí)別準(zhǔn)確率不夠,對(duì)語(yǔ)句意思理解不到位,或者是控制功能不足等。

“我覺(jué)得目前是一些廠(chǎng)商把出發(fā)點(diǎn)搞錯(cuò)了?!睂?duì)于目前車(chē)內(nèi)語(yǔ)音交互市場(chǎng)的現(xiàn)狀,李智勇這樣評(píng)論道,“我們首先應(yīng)該解決便利問(wèn)題,其次才是實(shí)現(xiàn)智能。”

在李智勇看來(lái),由于技術(shù)所限,目前的各類(lèi)人工智能技術(shù)都是弱人工智能,基于此的語(yǔ)音交互技術(shù)也是這樣。在這種背景下,車(chē)企與技術(shù)公司應(yīng)該先解決最基礎(chǔ)的便利性問(wèn)題,而后才是追求智能。

例如使用語(yǔ)音技術(shù)控制導(dǎo)航系統(tǒng),應(yīng)該先將產(chǎn)品做到能夠準(zhǔn)確識(shí)別命令,準(zhǔn)確搜索到地點(diǎn),并迅速執(zhí)行導(dǎo)航操作,而不是去琢磨讓語(yǔ)音系統(tǒng)能夠聽(tīng)懂多種方言,或者是去猜測(cè)用戶(hù)的目的地等。

那么給汽車(chē)與給音箱等設(shè)備提供語(yǔ)音交互技術(shù)究竟有何異同呢?李智勇認(rèn)為,兩者整體的邏輯相似,最大的不同其實(shí)在于聲學(xué)前端處理與用戶(hù)判斷兩個(gè)方面。

首先,車(chē)內(nèi)場(chǎng)景環(huán)境比室內(nèi)場(chǎng)景更為復(fù)雜多了風(fēng)噪、胎噪、其他交通車(chē)輛的噪音等,同時(shí)還包括車(chē)內(nèi)的音樂(lè)與乘客之間的交談等,與室內(nèi)場(chǎng)景區(qū)別較大,因此需要不同的降噪算法。

其次,車(chē)內(nèi)語(yǔ)音交互系統(tǒng)還要具備判斷不同乘客的能力。例如“打開(kāi)車(chē)窗”這個(gè)命令,如果系統(tǒng)不知道是誰(shuí)在說(shuō)話(huà),就不知道究竟是要打開(kāi)哪一扇車(chē)窗,這就要求在車(chē)內(nèi)設(shè)置分布式麥克風(fēng)陣列來(lái)予以解決。

“與技術(shù)相比,汽車(chē)開(kāi)發(fā)的漫長(zhǎng)周期和復(fù)雜流程才是真正的挑戰(zhàn)?!痹谥v完車(chē)內(nèi)語(yǔ)音交互技術(shù)的特點(diǎn)后,李智勇補(bǔ)充道。以設(shè)置分布式麥克風(fēng)陣列為例,在車(chē)機(jī)里安裝麥克風(fēng)需要找車(chē)機(jī)的生產(chǎn)商,而如果還要在車(chē)頂和車(chē)內(nèi)其他位置安裝,又要與其他汽車(chē)零部件供應(yīng)商去溝通,比消費(fèi)電子產(chǎn)品復(fù)雜太多。

四、與騰訊一起讓語(yǔ)音交互上車(chē)

就在聲智科技以其拾音和語(yǔ)音識(shí)別方案在消費(fèi)電子領(lǐng)域攻城略地之時(shí),其也在盯著中國(guó)每年2000萬(wàn)+輛的汽車(chē)市場(chǎng)。

李智勇告訴車(chē)東西,2017年末的時(shí)候其也騰訊達(dá)成了合作,共同研發(fā)一款搭載語(yǔ)音交互功能的車(chē)載系統(tǒng),聲智在其中提供拾音及語(yǔ)音識(shí)別模塊。在聲智科技辦公室,車(chē)東西也看到了這款車(chē)載系統(tǒng)的Demo原型,采用了長(zhǎng)條狀的矩形設(shè)計(jì),整體尺寸非常大。

拿下BAT跟華為之后 這家公司跟騰訊一起做車(chē)機(jī)

▲聲智科技與騰訊合作的車(chē)機(jī)樣機(jī)

據(jù)悉,這款車(chē)載系統(tǒng)目前已經(jīng)研發(fā)完成,騰訊正在與某自主品牌合作推動(dòng)其量產(chǎn)裝車(chē)事宜,年底即可看到搭載該車(chē)機(jī)的3款量產(chǎn)車(chē)型上市。

“正如此前說(shuō)的,由汽車(chē)產(chǎn)業(yè)比較復(fù)雜,因此我們前期在切入汽車(chē)產(chǎn)業(yè)時(shí)也會(huì)與騰訊這類(lèi)合作伙伴一起推動(dòng)。”李智勇說(shuō)道。與此同時(shí),李智勇透露稱(chēng)其也在尋求與車(chē)企組建合資公司這樣的途徑來(lái)實(shí)現(xiàn)自家技術(shù)的量產(chǎn)裝車(chē)。

在采訪(fǎng)最后,車(chē)東西與李智勇也談到了車(chē)內(nèi)交互技術(shù)的未來(lái)發(fā)展趨勢(shì)。

車(chē)東西觀(guān)察到,以蔚來(lái)ES8的NOMI為代表,車(chē)載交互系統(tǒng)正在具象化,例如蔚來(lái)NOMI這樣的實(shí)體形象可以通過(guò)旋轉(zhuǎn)來(lái)看著司機(jī)乘客,并作出相應(yīng)的表情,增加語(yǔ)音交互系統(tǒng)的趣味性。

拿下BAT跟華為之后 這家公司跟騰訊一起做車(chē)機(jī)

▲蔚來(lái)汽車(chē)的NOMI

李智勇則認(rèn)為,具象化只是第一步,車(chē)內(nèi)交互系統(tǒng)未來(lái)還會(huì)與視覺(jué)和其他技術(shù)結(jié)合,做到“讀懂”司機(jī)乘客。例如車(chē)內(nèi)攝像頭能通過(guò)觀(guān)察駕駛員的面部表情來(lái)判斷其心情狀態(tài)從而有針對(duì)性地與之交談,或是在看到副駕駛有異性時(shí)會(huì)自動(dòng)播放一些浪漫的音樂(lè)等。

“車(chē)內(nèi)交互是一個(gè)非常有意思的領(lǐng)域,聲智也會(huì)從語(yǔ)音交互開(kāi)始,向更多交互方式前進(jìn)。”李智勇總結(jié)道。

結(jié)語(yǔ):從“小事”開(kāi)始創(chuàng)業(yè)

產(chǎn)品層面,聲智科技主要圍繞語(yǔ)音交互系統(tǒng)的拾音與識(shí)別兩個(gè)步驟進(jìn)行布局,其中又以遠(yuǎn)場(chǎng)語(yǔ)音交互技術(shù)為其最強(qiáng)項(xiàng)。

表面上看,聲智科技只涉及了語(yǔ)音交互產(chǎn)業(yè)鏈里的“小部分”,但其實(shí)是在對(duì)自己的強(qiáng)項(xiàng)進(jìn)行深入鉆研,僅在遠(yuǎn)場(chǎng)語(yǔ)音交互領(lǐng)域,聲智就開(kāi)發(fā)了包括波束成型、噪聲抑制、人聲干擾抑制、語(yǔ)音增強(qiáng)、聲源測(cè)向、聲紋識(shí)別等幾十個(gè)細(xì)分技術(shù)方向,并以這種專(zhuān)業(yè)度拿下了BAT、360、小米、華為等一系列巨頭或大企業(yè)客戶(hù)。

在把消費(fèi)電子領(lǐng)域的一件小事兒做好后再切入汽車(chē)等其他行業(yè),對(duì)于聲智科技來(lái)說(shuō),不失為一個(gè)好的發(fā)展策略。

拿下BAT跟華為之后 這家公司跟騰訊一起做車(chē)機(jī)