車東西(公眾號:chedongxi)
文 | 曉寒
隨著這一輪人工智能技術的興起,語音交互和圖像識別技術迅速在消費電子乃至汽車領域普及。近來無論是國產(chǎn)還是合資品牌上市的新車,在進行市場宣傳時無一不在強調其車聯(lián)網(wǎng)和語音交互功能。
然而就在車企大肆宣傳的背后,科大訊飛這類各種語音技術公司才是真正的幕后英雄。
無獨有偶,雖然名聲不及科大訊飛響亮,但本文的主角,擁有中科院聲學所背景,為BAT和小米、華為等一系列巨頭提供語音交互技術的聲智科技也是不得不提的一個玩家。
隨著GTIC 2018全球智能汽車供應鏈創(chuàng)新峰會重磅嘉賓對話系列報道啟動,車東西奔赴聲智科技北京辦公室,與聲智科技戰(zhàn)略合伙人、副總裁李智勇展開對話,就聲智科技的發(fā)展現(xiàn)狀、產(chǎn)品體系,以及其對車內語音交互應用前景的看法等關鍵問題進行了深入交流,弄明白了這家創(chuàng)業(yè)為何能夠在語音交互領域得到BAT、360、小米等一系列大公司青睞的原因。

一、一家中科院聲學所背景的公司
作為一家語音交互技術公司,聲智科技最引以為傲,以及對外進行傳播時的一個關鍵標簽就是其中科院聲學所的背景。聲智科技創(chuàng)始人、CEO陳孝良此前為中科院聲學所的副研究員,曾參與海軍某重大項目(為艦艇研發(fā)聲學相關的作戰(zhàn)設備),以及國家863等科研項目,在聲學領域耕耘多年。
2015年,語音交互、智能音箱等技術與設備逐漸在消費領域普及,陳孝良及其團隊也開始醞釀到體制外創(chuàng)業(yè)。彼時,聲智科技戰(zhàn)略合伙人、副總裁李智勇則還在360工作,任高級投資經(jīng)理和戰(zhàn)略分析師。

▲李智勇
李智勇告訴車東西,那時候360正在尋找語音賽道上的玩家準備投資,剛好經(jīng)人介紹認識了陳孝良等人。
聊完之后雙方彼此認可,于是李智勇就拉來峰瑞資本一起,向陳孝良及其團隊提供了超過1000萬元的天使投資(豐瑞資本領投),直接促成陳孝良及其團隊于2016年一起離職創(chuàng)辦了聲智科技,而李智勇隨后也以戰(zhàn)略合伙人和副總裁的身份加入聲智一起創(chuàng)業(yè),負責戰(zhàn)略規(guī)劃和商業(yè)落地事宜。
隨后在2016年和2017年底,聲智科技又先后獲得由俞敏洪參與創(chuàng)辦的洪泰資本領投的1600萬元PreA輪和百度的A輪融資。
李智勇透露,經(jīng)過2年多的發(fā)展,聲智科技團隊規(guī)模已百人,在老的中科院團隊基礎之上又大量補充了來自亞馬遜、騰訊、360等大型互聯(lián)網(wǎng)科技公司的力量,形成了聲學+計算機科學+互聯(lián)網(wǎng)的團隊結構。
二、提供全套語音交互解決方案
粗略來說,目前這波以智能音箱或車內語音交互為代表的中遠場語音交互技術主要分為如下幾個步驟:
1、由麥克風陣列拾取外界語音命令,并對其進行、降噪、增強等處理。2、將處理后的聲音上傳至云端并將其識別為文字。
3、用NLP自然語言理解技術對文字進行處理,了解用戶意圖。4、根據(jù)用戶意圖,為用戶反饋內容(如音樂,天氣等信息)或者進行具體控制操作(如打開天窗)。
按照這個框架,聲智科技目前的核心產(chǎn)品主要集中在1和2,即為B端客戶提供軟硬件一體的拾音和語音識別系統(tǒng)。
雖然看似簡單,其實背后還有不少細分技術。

▲搭載聲智科技技術的部分產(chǎn)品
例如在有許多人說話的場景中拾音時首先要識別哪些是噪音,哪些是實際的語音命令。在拾取聲音之后還要對不需要的噪音進行處理并增強語音命令的聲音才能供識別系統(tǒng)使用。而在語音識別步驟,則需要大量的語料,并運用神經(jīng)網(wǎng)絡才能訓練出一個高準確率的識別系統(tǒng)。
“與Siri等挨著手機說話的近場語音交互技術不同,中遠距離拾音背景環(huán)境復雜噪音更多,不對聲音進行處理單靠計算機很難做識別。”李智勇向車東西說道,“而這正是我們聲學+計算機科學+互聯(lián)網(wǎng)的團隊結構的優(yōu)勢?!?/p>
李智勇告訴車東西,聲智科技目前已經(jīng)擁有百余家客戶,包括BAT、小米、華為、360等巨頭與大型科技公司的智能語音交互設備都會用到其產(chǎn)品與技術。
除了前兩步,李智勇透露聲智也在向上述第3和第4步進發(fā),目前已經(jīng)與各大內容平臺完成了對接,從而為一些傳統(tǒng)行業(yè)的客戶提供一套涵蓋4大步驟的完整解決方案。
三、車內語音交互的第一要務是便利
對于行駛在公路上的汽車來說,用語音命令來操作導航、音樂系統(tǒng),或是控制門窗與空調系統(tǒng)被普遍認為是比低頭去按按鈕更好的交互方式。最近一兩年上市的新車,無論是國產(chǎn)還是合資品牌,無一不在強調其語音交互功能,甚至有廠家也就著語音交互技術大肆宣傳智能和互聯(lián)網(wǎng)特性。

但就目前一些車型的實際體驗來說,其語音交互系統(tǒng)離智能二字還有段距離,表現(xiàn)為語音識別準確率不夠,對語句意思理解不到位,或者是控制功能不足等。
“我覺得目前是一些廠商把出發(fā)點搞錯了。”對于目前車內語音交互市場的現(xiàn)狀,李智勇這樣評論道,“我們首先應該解決便利問題,其次才是實現(xiàn)智能。”
在李智勇看來,由于技術所限,目前的各類人工智能技術都是弱人工智能,基于此的語音交互技術也是這樣。在這種背景下,車企與技術公司應該先解決最基礎的便利性問題,而后才是追求智能。
例如使用語音技術控制導航系統(tǒng),應該先將產(chǎn)品做到能夠準確識別命令,準確搜索到地點,并迅速執(zhí)行導航操作,而不是去琢磨讓語音系統(tǒng)能夠聽懂多種方言,或者是去猜測用戶的目的地等。
那么給汽車與給音箱等設備提供語音交互技術究竟有何異同呢?李智勇認為,兩者整體的邏輯相似,最大的不同其實在于聲學前端處理與用戶判斷兩個方面。
首先,車內場景環(huán)境比室內場景更為復雜多了風噪、胎噪、其他交通車輛的噪音等,同時還包括車內的音樂與乘客之間的交談等,與室內場景區(qū)別較大,因此需要不同的降噪算法。
其次,車內語音交互系統(tǒng)還要具備判斷不同乘客的能力。例如“打開車窗”這個命令,如果系統(tǒng)不知道是誰在說話,就不知道究竟是要打開哪一扇車窗,這就要求在車內設置分布式麥克風陣列來予以解決。
“與技術相比,汽車開發(fā)的漫長周期和復雜流程才是真正的挑戰(zhàn)?!痹谥v完車內語音交互技術的特點后,李智勇補充道。以設置分布式麥克風陣列為例,在車機里安裝麥克風需要找車機的生產(chǎn)商,而如果還要在車頂和車內其他位置安裝,又要與其他汽車零部件供應商去溝通,比消費電子產(chǎn)品復雜太多。
四、與騰訊一起讓語音交互上車
就在聲智科技以其拾音和語音識別方案在消費電子領域攻城略地之時,其也在盯著中國每年2000萬+輛的汽車市場。
李智勇告訴車東西,2017年末的時候其也騰訊達成了合作,共同研發(fā)一款搭載語音交互功能的車載系統(tǒng),聲智在其中提供拾音及語音識別模塊。在聲智科技辦公室,車東西也看到了這款車載系統(tǒng)的Demo原型,采用了長條狀的矩形設計,整體尺寸非常大。

▲聲智科技與騰訊合作的車機樣機
據(jù)悉,這款車載系統(tǒng)目前已經(jīng)研發(fā)完成,騰訊正在與某自主品牌合作推動其量產(chǎn)裝車事宜,年底即可看到搭載該車機的3款量產(chǎn)車型上市。

▲聲智科技與騰訊合作開發(fā)的車載系統(tǒng)Demo
“正如此前說的,由汽車產(chǎn)業(yè)比較復雜,因此我們前期在切入汽車產(chǎn)業(yè)時也會與騰訊這類合作伙伴一起推動。”李智勇說道。與此同時,李智勇透露稱其也在尋求與車企組建合資公司這樣的途徑來實現(xiàn)自家技術的量產(chǎn)裝車。
在采訪最后,車東西與李智勇也談到了車內交互技術的未來發(fā)展趨勢。
車東西觀察到,以蔚來ES8的Nomi為代表,車載交互系統(tǒng)正在具象化,例如蔚來Nomi這樣的實體形象可以通過旋轉來看著司機乘客,并作出相應的表情,增加語音交互系統(tǒng)的趣味性。

▲蔚來Nomi
李智勇則認為,具象化只是第一步,車內交互系統(tǒng)未來還會與視覺和其他技術結合,做到“讀懂”司機乘客。例如車內攝像頭能通過觀察駕駛員的面部表情來判斷其心情狀態(tài)從而有針對性地與之交談,或是在看到副駕駛有異性時會自動播放一些浪漫的音樂等。
“車內交互是一個非常有意思的領域,聲智也會從語音交互開始,向更多交互方式前進。”李智勇總結道。
結語:從“小事”開始創(chuàng)業(yè)
產(chǎn)品層面,聲智科技主要圍繞語音交互系統(tǒng)的拾音與識別兩個步驟進行布局,其中又以遠場語音交互技術為其最強項。
表面上看,聲智科技只涉及了語音交互產(chǎn)業(yè)鏈里的“小部分”,但其實是在對自己的強項進行深入鉆研,僅在遠場語音交互領域,聲智就開發(fā)了包括波束成型、噪聲抑制、人聲干擾抑制、語音增強、聲源測向、聲紋識別等幾十個細分技術方向,并以這種專業(yè)度拿下了BAT、360、小米、華為等一系列巨頭或大企業(yè)客戶。
在把消費電子領域的一件小事兒做好后再切入汽車等其他行業(yè),對于聲智科技來說,不失為一個好的發(fā)展策略。
