車東西(公眾號(hào):chedongxi)
文 | 摩拉
隨著汽車智能化水準(zhǔn)的提升,人車交互也成了一個(gè)關(guān)鍵命題。但目前正在快速普及的語(yǔ)音交互、手勢(shì)交互等技術(shù),并沒(méi)有讓車內(nèi)交互體驗(yàn)帶來(lái)質(zhì)變,其更像是現(xiàn)有交互方式的補(bǔ)充。
那么人車交互的未來(lái)發(fā)展方向究竟在哪里呢?對(duì)此,一些領(lǐng)先的AI和汽車公司給出的答案是多模態(tài)交互。
即車輛通過(guò)對(duì)語(yǔ)音、圖像、位置、溫度等多種信息的融合處理,更主動(dòng)、更深入地了解乘客的信息,從而主動(dòng)對(duì)其進(jìn)行關(guān)懷、推送相關(guān)的內(nèi)容/服務(wù),并改變車輛設(shè)置。
今年上海車展期間,國(guó)內(nèi)知名的AI芯片及解決方案公司地平線就在其自動(dòng)駕駛產(chǎn)品之外,首次展出了多模態(tài)車內(nèi)交互解決方案,包括語(yǔ)音交互、車內(nèi)視覺(jué)感知、多模唇語(yǔ)命令詞、多模情緒識(shí)別、多模身份識(shí)別等多項(xiàng)細(xì)分技術(shù),算是開(kāi)辟了汽車業(yè)務(wù)的第二戰(zhàn)場(chǎng)。
在隨后的CES Asia上,地平線還宣布與理想汽車達(dá)成合作,向其首款量產(chǎn)車?yán)硐?/span>ONE提供多音區(qū)解決方案,意味著地平線的多模態(tài)車內(nèi)交互解決方案將步入量產(chǎn)階段,與地平線的自動(dòng)駕駛系列解決方案一道,成為地平線邁入汽車產(chǎn)業(yè)大門(mén)的兩大核心武器。
今年CES Asia期間,地平線多模交互產(chǎn)品總經(jīng)理張宏志在車東西主辦的智能座艙專場(chǎng)論壇發(fā)言后,與算法研發(fā)部副部長(zhǎng)牛建偉一道,接受了車東西的獨(dú)家專訪,就地平線在汽車領(lǐng)域的整體布局、多模態(tài)車內(nèi)交互解決方案的技術(shù)細(xì)節(jié),以及其解決多模交互核心難題的方式等關(guān)鍵問(wèn)題進(jìn)行了闡述。

▲張宏志在車東西主辦的智能座艙論壇上發(fā)言
透過(guò)這次專訪,既讓我們看到了地平線在汽車領(lǐng)域的具體打法與發(fā)展策略,也向外界透露了其在車內(nèi)多模交互這一前沿領(lǐng)域具備的核心技術(shù)水準(zhǔn),意義重大。
一、發(fā)布AI on Horizon戰(zhàn)略 兩大業(yè)務(wù)邁入智能駕駛
4日16日至25日,第18屆上海車展在上海國(guó)家國(guó)際會(huì)展中心拉開(kāi)帷幕,在一眾汽車廠商的展臺(tái)之中,地平線的展臺(tái)格外顯眼。
雖然不是整車企業(yè),但在地平線看來(lái),其未來(lái)命運(yùn)已經(jīng)與汽車產(chǎn)業(yè)深深地綁在了一起。
在當(dāng)日的新聞發(fā)布會(huì)中,地平線創(chuàng)始人、CEO余凱正式對(duì)外界發(fā)布了AI on Horizon戰(zhàn)略,核心是做智能汽車時(shí)代的底層AI技術(shù)賦能者,向車企、Tier1等伙伴提供芯片、AI算法、工具鏈、場(chǎng)景SDK等全套技術(shù)支持,幫助其打造基于AI技術(shù)的應(yīng)用與服務(wù)。

▲余凱在上海車展期間發(fā)布AI on Horizon戰(zhàn)略
地平線的核心業(yè)務(wù)聚焦基于邊緣AI芯片和核心算法的解決方案的研發(fā),可以在汽車、AIoT等多個(gè)領(lǐng)域應(yīng)用,汽車領(lǐng)域其此前主要圍繞自動(dòng)駕駛計(jì)算平臺(tái)以及相關(guān)的核心算法。
今年上海車展期間,地平線除了展出一系列自動(dòng)駕駛相關(guān)產(chǎn)品外,還首次展出了其自主研發(fā)的多模態(tài)車內(nèi)交互解決方案,基于其自主打造的征程2.0 AI芯片架構(gòu)、多模態(tài)融合算法等技術(shù),可以綜合處理視覺(jué)、語(yǔ)音、車身傳感器等多種信息,形成對(duì)天、地、人、車的物理世界到數(shù)字世界的建模。
這些數(shù)字化的建模能夠推動(dòng)面向汽車用戶的服務(wù)和推薦更加精準(zhǔn)化、主動(dòng)化和人性化,并且跟車身功能進(jìn)行深度整合,車身功能被全面賦予智能能力,從機(jī)械的物理功能轉(zhuǎn)化成智能化服務(wù)功能。
這也就是說(shuō),地平線在自動(dòng)駕駛業(yè)務(wù)之外,同時(shí)也更加注重代表人車交互未來(lái)的多模態(tài)車內(nèi)交互業(yè)務(wù),算是開(kāi)辟了汽車業(yè)務(wù)的第二戰(zhàn)場(chǎng)。車東西本次對(duì)話的主角張宏志和牛建偉,則正是車內(nèi)交互的業(yè)務(wù)和技術(shù)負(fù)責(zé)人。
一個(gè)有趣的細(xì)節(jié)是,自上海車展后,地平線在對(duì)外宣傳其車內(nèi)交互技術(shù)時(shí),重點(diǎn)都放在了多模態(tài)車內(nèi)交互層面,并且張宏志的Title,也從此前“地平線車聯(lián)網(wǎng)事業(yè)部總經(jīng)理”變?yōu)榱?/span>“多模交互產(chǎn)品總經(jīng)理”。
地平線對(duì)車內(nèi)多模交互技術(shù)的重視程度可見(jiàn)一斑。
那么一個(gè)關(guān)鍵問(wèn)題是,地平線的多模態(tài)交互方案具體有哪些功能來(lái)幫助提升車內(nèi)交互體驗(yàn)?zāi)??張宏志和牛建偉各講了一個(gè)例子。
第一個(gè)是唇語(yǔ)+語(yǔ)音的多模交互技術(shù)。
此前的語(yǔ)音交互技術(shù),受到行車中胎噪、風(fēng)噪、其他人交談等噪音影響,容易產(chǎn)生漏聽(tīng)、錯(cuò)聽(tīng)的問(wèn)題,而有了這種多模交互技術(shù),車輛可以通過(guò)對(duì)收集的聲音和乘客唇語(yǔ)的綜合處理,確定是哪個(gè)乘客在說(shuō)話,以及其說(shuō)話內(nèi)容。
第二個(gè)是駕駛員疲勞監(jiān)測(cè)與分級(jí)。
為了讓車輛更加主動(dòng)的了解駕駛員和乘客的狀態(tài),駕駛員或乘客監(jiān)測(cè)系統(tǒng)逐漸開(kāi)始量產(chǎn)裝車,其中一個(gè)重要應(yīng)用場(chǎng)景就是駕駛員疲勞監(jiān)測(cè)和分級(jí)。

▲地平線的車內(nèi)多模交互技術(shù)展示
為了實(shí)現(xiàn)這一目標(biāo),將對(duì)駕駛員的視線、眼神、表情、頭部方向、是否打哈欠、是否喝水等多種信息融合進(jìn)行處理,就既可以了解駕駛員是否疲勞,同時(shí)還可以了解到其疲勞程度。
此外,牛建偉也表示,未來(lái)的多模交互解決技術(shù)將實(shí)現(xiàn)車內(nèi)信息的協(xié)同融合,例如車內(nèi)傳感器感知駕駛員的狀態(tài),車外傳感器了解目前的天氣、溫度、地形等信息,綜合給用戶推薦相應(yīng)的音樂(lè)和車內(nèi)溫度等。
二、簽約理想 車內(nèi)多模交互技術(shù)已步入量產(chǎn)階段
上海車展亮相之后,地平線在CES Asia期間還宣布向新造車公司理想汽車的首款量產(chǎn)車?yán)硐?/span>ONE提供車內(nèi)多音區(qū)語(yǔ)音交互解決方案。
即通過(guò)四個(gè)車載麥克風(fēng),以及地平線研發(fā)的聲源定位、盲源分離和降噪算法,對(duì)不同乘客的語(yǔ)音指令進(jìn)行精確區(qū)分和識(shí)別,進(jìn)而助力理想汽車實(shí)現(xiàn)更加智能的語(yǔ)音交互體驗(yàn)。

▲地平線為理想ONE提供了車內(nèi)多音區(qū)解決方案
雖然這個(gè)多音區(qū)解決方案只是單模態(tài)交互技術(shù),但其實(shí)它也是地平線車內(nèi)多模交互解決技術(shù)的一個(gè)細(xì)分技術(shù)。
這次合作,既說(shuō)明地平線的車內(nèi)交互技術(shù)獲得了理想汽車這種知名新造車公司的認(rèn)可,同時(shí)也說(shuō)明其車內(nèi)多模交互技術(shù),正式步入量產(chǎn)階段。
據(jù)張宏志介紹,理想ONE在年底即將交付,時(shí)間較早,是地平線車內(nèi)交互技術(shù)走向量產(chǎn)的重要合作伙伴。
地平線在過(guò)去幾年的業(yè)務(wù)拓展過(guò)程中,在自動(dòng)駕駛、AIoT等領(lǐng)域的合作基礎(chǔ)上,車內(nèi)多模交互技術(shù)已經(jīng)與多家國(guó)內(nèi)外Tier1和車企達(dá)成合作,加上后裝車載智能設(shè)備,總計(jì)已經(jīng)有幾十個(gè)合作伙伴,后續(xù)也將有更多車輛搭載地平線的車載多模交互技術(shù)方案陸續(xù)上市。

▲地平線與首汽約車達(dá)成戰(zhàn)略合作
正如前文所言,多音區(qū)方案只是地平線車載多模交互技術(shù)的一個(gè)細(xì)分技術(shù),那么地平線的車載多模交互技術(shù)整體上能提供哪幾類產(chǎn)品和技術(shù)呢?
張宏志告訴車東西,總體來(lái)說(shuō)分為四塊業(yè)務(wù):
1、AI芯片能力
這是地平線最基礎(chǔ)的業(yè)務(wù),客戶可以基于地平線第二代AI芯片征程2.0,單獨(dú)打造語(yǔ)音、圖像類的AI應(yīng)用,或是語(yǔ)音、圖像等多模態(tài)融合處理的AI應(yīng)用(多模態(tài)交互)。
2、算法能力

▲地平線車內(nèi)視覺(jué)AI算法
基于AI芯片,地平線團(tuán)隊(duì)在圖像、語(yǔ)音領(lǐng)域也研發(fā)出了最底層的AI算法,例如前面提及的四音區(qū)方案、離線喚醒、駕駛員監(jiān)測(cè)、表情識(shí)別等技術(shù),都可以單獨(dú)或打包輸出給合作伙伴——例如理想ONE搭載的都是四音區(qū)方案。
3、打包的多模態(tài)交互解決方案
正如文章開(kāi)頭所言,車內(nèi)交互技術(shù)的未來(lái)就在多模態(tài)交互層面,對(duì)于集中在應(yīng)用和服務(wù)創(chuàng)新為主的車企和高度集成化為核心競(jìng)爭(zhēng)力的Tier1來(lái)說(shuō),選擇包括芯片、語(yǔ)音與圖像算法在內(nèi)的打包方案,是一個(gè)非常便捷的做法,能夠加快車型的量產(chǎn)時(shí)間和創(chuàng)新迭代速度。

▲地平線可提供軟硬一體的車內(nèi)多模交互解決方案
4、開(kāi)放工具鏈
為了更好、更快迎接AI時(shí)代的到來(lái),地平線將軟硬結(jié)合、面向場(chǎng)景的AI解決方案經(jīng)驗(yàn)通過(guò)工具鏈共享給行業(yè)和客戶。
對(duì)于那些擁有較強(qiáng)AI研發(fā)能力的大型車企和Tier1企業(yè)來(lái)說(shuō),有能力從頭打造自己的多模態(tài)交互產(chǎn)品,為此,地平線提供豐富的工具鏈,方便其基于地平線的底層算法,研發(fā)自己的技術(shù)和產(chǎn)品。這是地平線的AI on Horizon戰(zhàn)略核心體現(xiàn),充分開(kāi)放賦能,向行業(yè)客戶共享經(jīng)驗(yàn)和能力。
與電子產(chǎn)品不同,汽車上搭載的相關(guān)軟硬件技術(shù)都有嚴(yán)格的車規(guī)級(jí)要求,那么地平線的這套多模交互技術(shù)解決方案,在軟硬件上是否達(dá)到了車規(guī)的要求呢?
張宏志表示,其多模交互技術(shù)使用的地平線征程2.0 AI芯片是面向車規(guī)級(jí)要求進(jìn)行設(shè)計(jì)的。按照地平線的規(guī)劃,未來(lái)L3級(jí)自動(dòng)駕駛時(shí)代,其多模交互系統(tǒng),則將達(dá)到ASIL B級(jí)功能安全標(biāo)準(zhǔn)。

▲地平線展出的駕駛員監(jiān)測(cè)技術(shù)
滿足車規(guī)之外,想要實(shí)現(xiàn)技術(shù)上車的另一個(gè)難題則是成本足夠親民。
對(duì)此,張宏志透露其打包的多模態(tài)交互解決方案目前的成本在上百美金,即數(shù)百人民幣的程度,現(xiàn)在比較貴。但隨著規(guī)模化量產(chǎn)之后,會(huì)迅速下降到幾十美金的水準(zhǔn),可以實(shí)現(xiàn)普及。
“地平線從一開(kāi)始就要做成本可接受的產(chǎn)品,比如我們的芯片就追求高性能、低功耗,強(qiáng)調(diào)性價(jià)比,同時(shí)也注重提供軟硬件一體化的能力,并向合作伙伴提供工具鏈,實(shí)現(xiàn)開(kāi)放式賦能,這些都是實(shí)現(xiàn)技術(shù)平民化的關(guān)鍵能力。”張宏志總結(jié)道。
三、長(zhǎng)期積累、自主研發(fā) 三招攻克多模態(tài)交互融合難題
此前,語(yǔ)音交互或者手勢(shì)交互,都是讓AI算法對(duì)語(yǔ)音或者圖像某一具體模態(tài)進(jìn)行處理,進(jìn)而給出反饋結(jié)果。而多模態(tài),則是說(shuō)讓AI系統(tǒng)將語(yǔ)音、圖像甚至是嗅覺(jué)、觸覺(jué)等更多模態(tài)進(jìn)行融合處理給出反饋。
現(xiàn)階段實(shí)現(xiàn)多模態(tài)交互有兩種技術(shù)方式,粗略來(lái)說(shuō)即結(jié)果融合式和底層數(shù)據(jù)融合式。
結(jié)果融合式就是說(shuō)系統(tǒng)先對(duì)語(yǔ)音、圖像等模態(tài)分別進(jìn)行處理,得到每一個(gè)模態(tài)的處理結(jié)果后,再匯總所有結(jié)果綜合判斷。
底層數(shù)據(jù)融合式則是說(shuō)用一個(gè)“超級(jí)算法”,直接對(duì)獲取的語(yǔ)音、圖像等不同模態(tài)信息進(jìn)行處理,進(jìn)而給出判斷結(jié)果。
前者的實(shí)現(xiàn)方式較為簡(jiǎn)單,但多了一步處理速度較慢,且模態(tài)之間的信息不是綜合處理,難以獲得更加深入的處理結(jié)果。
后者雖然克服了前者的缺陷,但因?yàn)楝F(xiàn)在絕大部分深度學(xué)習(xí)模型都只能用來(lái)處理語(yǔ)音或圖像等一種模態(tài)信息,技術(shù)研發(fā)難度大大提升。
那么作為一家專注在芯片和底層AI算法領(lǐng)域的知名公司,地平線走的是哪一種技術(shù)路徑呢?
“當(dāng)然是底層數(shù)據(jù)融合模式。”牛建偉說(shuō)道,“在數(shù)據(jù)處理層面實(shí)現(xiàn)多模交互,不僅是算法問(wèn)題,更是涉及到傳感器、芯片、軟件的系統(tǒng)性問(wèn)題。”
據(jù)其介紹,地平線多模交互技術(shù)團(tuán)隊(duì)基于地平線在芯片、視覺(jué)AI技術(shù)、語(yǔ)音AI技術(shù)方面的積累,歷時(shí)1年多的時(shí)候,通過(guò)三大招數(shù),研發(fā)出了在底層對(duì)數(shù)據(jù)進(jìn)行融合處理的多模交互技術(shù),他以目前最普遍的音頻(語(yǔ)音)、視頻(圖像)融合處理技術(shù)進(jìn)行了詳細(xì)介紹。
1、重新設(shè)計(jì)傳感器
現(xiàn)有的攝像頭、麥克風(fēng)輸入的視頻幀率為30幀,音頻為100幀,無(wú)法完成時(shí)間同步,即無(wú)法進(jìn)行后續(xù)的融合處理。
而要解決這個(gè)問(wèn)題,就是提升攝像頭的視頻幀率,實(shí)現(xiàn)多路音頻和視頻輸入,并且還要具備更大的帶寬與高效的壓縮模型。
2、升級(jí)優(yōu)化計(jì)算芯片
由于多模處理需要處理更高幀率的多路音頻、視頻信號(hào),并且還要用特殊的神經(jīng)網(wǎng)絡(luò)層來(lái)抽取特征做對(duì)應(yīng),因此計(jì)算量較單純的音頻處理來(lái)說(shuō),相當(dāng)于是提升了一個(gè)數(shù)量級(jí)——從幾十GOPS提升到了幾百GOPS。
因此地平線多模交互團(tuán)隊(duì)也對(duì)地平線的征程芯片進(jìn)行了一些優(yōu)化升級(jí),以更加適應(yīng)車內(nèi)多模交互應(yīng)用。
據(jù)牛建偉介紹,地平線的征程2.0 AI芯片具備非常高的AI等效算力,能夠充分滿足多模交互算法的算力需求。
3、特殊編碼算法實(shí)現(xiàn)綜合處理
現(xiàn)有的神經(jīng)網(wǎng)絡(luò)只能用來(lái)處理同一類型的信息,因此無(wú)法對(duì)音頻和視頻進(jìn)行融合處理。
在有了合適的硬件后,地平線基于此研發(fā)出了一套多模交互算法,即先用一個(gè)編碼器分別對(duì)音頻、視頻信息進(jìn)行編碼,變成同一類信號(hào),然后再將其映射到一個(gè)高維空間,這樣就能將其放在同一個(gè)神經(jīng)網(wǎng)絡(luò)里進(jìn)行處理。
“實(shí)現(xiàn)多模態(tài)車內(nèi)交互技術(shù)的研發(fā),離不開(kāi)地平線此前在AI芯片、以及語(yǔ)音處理、圖像處理等方面的積累。”張宏志最后強(qiáng)調(diào)道,“只有將AI芯片、語(yǔ)音處理、圖像處理等每一項(xiàng)細(xì)分技術(shù)打磨好,才能實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)的融合處理。”

▲地平線美國(guó)研發(fā)中心
據(jù)其介紹,地平線目前總計(jì)有1000多正式員工,其中有四五百人都在從事AI芯片、底層AI算法等工作,而在智能駕駛這個(gè)應(yīng)用方向,又有數(shù)百人的團(tuán)隊(duì)在做相關(guān)工作,這些算下來(lái),相當(dāng)于有大幾百人在為汽車領(lǐng)域的技術(shù)工作,規(guī)模相當(dāng)之大。
結(jié)語(yǔ):一家有真實(shí)力的多模交互技術(shù)供應(yīng)商
在與張宏志和牛建偉交流完后,車東西有一個(gè)非常明顯的印象,就是地平線是一家有真實(shí)力的多模交互技術(shù)供應(yīng)商,體現(xiàn)在三個(gè)方面:
第一,基于地平線在AI芯片、語(yǔ)音處理、圖像處理等方面多年的積累,過(guò)百人的團(tuán)隊(duì)在1年多的時(shí)間攻克了多模交互的核心難題,實(shí)現(xiàn)了語(yǔ)音、圖像等不同模態(tài)信息在底層的融合處理。
第二,針對(duì)車內(nèi)出現(xiàn)的不同行車場(chǎng)景,其將多模態(tài)車內(nèi)交互解決方案分成分區(qū)降噪與拾音、手勢(shì)識(shí)別與跟蹤、表情識(shí)別、多模唇語(yǔ)命令詞、多模情緒識(shí)別等多個(gè)典型細(xì)分場(chǎng)景的技術(shù),方便車企按需選擇。
第三,在4月份剛剛展出多模態(tài)車內(nèi)交互解決方案沒(méi)多久,地平線就迅速與理想汽車等企業(yè)達(dá)成合作實(shí)現(xiàn)量產(chǎn)上車,說(shuō)明其技術(shù)實(shí)力已經(jīng)達(dá)到一定水準(zhǔn),獲得合作伙伴的認(rèn)可。
而隨著理想ONE項(xiàng)目的逐漸落地,未來(lái)也將有更多車型搭載地平線多模態(tài)車內(nèi)交互解決方案上市,讓地平線為更多新車的智能升級(jí)轉(zhuǎn)型提供AI動(dòng)力。
不遠(yuǎn)的未來(lái),隨著L3及以上級(jí)別自動(dòng)駕駛技術(shù)的逐漸落地,地平線的多模態(tài)車內(nèi)交互解決方案也將與自動(dòng)駕駛系統(tǒng)逐漸融合,讓汽車真正變成一個(gè)機(jī)器人,不僅能幫人類駕駛,還能像朋友一樣,對(duì)乘客進(jìn)行多方位的關(guān)懷,實(shí)現(xiàn)有溫度的出行體驗(yàn)。