智東西(公眾號(hào):zhidxcom)
編輯 |?李水青

智東西6月4日消息,近日GTIC 2021嵌入式AI創(chuàng)新峰會(huì)在北京圓滿收官!在這場(chǎng)全天座無(wú)虛席、全網(wǎng)直播觀看人數(shù)逾150萬(wàn)次的高規(guī)格AI芯片產(chǎn)業(yè)峰會(huì)上,來(lái)自產(chǎn)業(yè)鏈上下游的16位大佬共聚一堂,圍繞嵌入式AI的軟硬件生態(tài)創(chuàng)新、家居AIoT、移動(dòng)機(jī)器人和工業(yè)制造產(chǎn)業(yè)4大版塊地圖,帶來(lái)了深入淺出的分享。

會(huì)上,閱面科技聯(lián)合創(chuàng)始人&CEO丁小羽帶來(lái)題為《面向智能家居的嵌入式視覺之旅》的演講。閱面科技是我國(guó)嵌入式視覺識(shí)別技術(shù)領(lǐng)域的新銳玩家,其創(chuàng)始人丁小羽曾任卡內(nèi)基梅隆大學(xué)機(jī)器人所助理研究員,回國(guó)創(chuàng)業(yè)幾年,一直在做嵌入式視覺在民用領(lǐng)域的落地,丁小羽把它看作是團(tuán)隊(duì)的一個(gè)旅程。

閱面科技丁小羽:自然人機(jī)交互成智能家居主題,多模態(tài)技術(shù)融合日益重要

▲閱面科技聯(lián)合創(chuàng)始人&CEO丁小羽

丁小羽談到,閱面科技的嵌入式視覺技術(shù)發(fā)展經(jīng)歷了四個(gè)階段:

一是AI和算力的適配階段,二是AI和傳感的融合階段,三是行為/健康A(chǔ)I智能終端階段,四是全屋智能的感知基礎(chǔ)階段。

其中在行為/健康A(chǔ)I智能終端階段,閱面科技主要開發(fā)創(chuàng)新型硬件,整體地設(shè)計(jì)人機(jī)交互,以智能終端的形式部署,讓設(shè)備能主動(dòng)感知人體行為動(dòng)作和生理體征等狀態(tài)。

而在全屋智能的感知基礎(chǔ)階段,閱面科技的目標(biāo)是實(shí)現(xiàn)智慧的人居環(huán)境。丁小羽認(rèn)為,家庭AI擁有隱私數(shù)據(jù)規(guī)范、應(yīng)用形態(tài)靈活、交互親切自然等特點(diǎn),超越人眼視覺的AI傳感融合有很大機(jī)會(huì)。

“盡管目前智能家居還處于初期發(fā)展階段,但智能家居服務(wù)最終會(huì)從數(shù)字化空間走到機(jī)器人服務(wù)的物理空間階段?!彼劦剑谶@一階段,人和系統(tǒng)的自然交互已成為智能家居發(fā)展的主題,超聲波雷達(dá)、熱成像等傳感技術(shù)的融合越來(lái)越重要。

閱面科技丁小羽:自然人機(jī)交互成智能家居主題,多模態(tài)技術(shù)融合日益重要

以下為丁小羽演講實(shí)錄整理:

大家下午好!

回國(guó)創(chuàng)業(yè)這幾年,我跟團(tuán)隊(duì)一直在做嵌入式視覺在民用領(lǐng)域的應(yīng)用落地,我們把它看作是團(tuán)隊(duì)的一段旅程。今天跟大家來(lái)做一次分享,談到我們做的工作及一些比較個(gè)性化的體會(huì),很難說(shuō)是“正確的”,但希望對(duì)大家有幫助。

一、自然人機(jī)交互成智能家居主題,閱面科技選擇嵌入式視覺

丁小羽首先談到:

跟很多在座的朋友一樣,我們從這點(diǎn)出發(fā), 從實(shí)驗(yàn)室的圖像識(shí)別做起,去往全屋智能、智能家居的方向。

我們把智能家居看作是一個(gè)方向,而不是一個(gè)行業(yè),看作是一個(gè)大家都想去追求的更懂你的家——這個(gè)家可以感知人的需要,去理解人的需求,恰如其分地提供服務(wù)。(比如)我回到家的時(shí)候想做一件事,打開窗簾、聽一首歌,并不想在手機(jī)18個(gè)APP里面找到應(yīng)該用哪個(gè),也不想跟手機(jī)說(shuō)話,并不自然。

我們朝著這個(gè)方向,沿途經(jīng)過(guò)了跟芯片的結(jié)合,做到把實(shí)驗(yàn)室的GPU服務(wù)器上的算法做到嵌入式芯片上,把(視覺識(shí)別)模塊用到像人臉抓拍攝像機(jī)、門禁閘機(jī)的行業(yè)應(yīng)用上,一步步小型化。去年,我們開始大規(guī)模進(jìn)入家庭場(chǎng)景,比如將3D人臉識(shí)別做到門鎖上。

現(xiàn)在我們看家庭AI服務(wù)這里怎么走還是一團(tuán)迷霧。智慧的人居環(huán)境是大家都想去的方向,有人從“開關(guān)上網(wǎng)”去做,有人從智能音箱去做,我們則從嵌入式視覺這條路去走。怎么過(guò)去是未知的,但這也是有意思的地方。

一個(gè)團(tuán)隊(duì)的出發(fā)點(diǎn)非常重要——人都有路徑依賴,有時(shí)候是自己知道的,有時(shí)候是不知道的?,F(xiàn)在回想起來(lái)當(dāng)時(shí)出發(fā)時(shí)的環(huán)境,其實(shí)深遠(yuǎn)地影響我們對(duì)事情的認(rèn)知,包括(處理問(wèn)題)一些思維習(xí)慣。

比如,當(dāng)時(shí)我們出發(fā)的時(shí)候,大部分是靜態(tài)圖片的識(shí)別,目前大部分的網(wǎng)絡(luò)設(shè)計(jì)在交互過(guò)程中也還是靜態(tài)的,只是在時(shí)間域上加權(quán)策略性的方式。當(dāng)時(shí),端到端剛剛興起的時(shí)候,我們應(yīng)用到實(shí)際環(huán)境中發(fā)現(xiàn),真正要在成百上千萬(wàn)的設(shè)備上都得到不錯(cuò)的效果,其實(shí)理解整個(gè)決策過(guò)程的網(wǎng)絡(luò)可解釋性是非常重要的。這是當(dāng)時(shí)的環(huán)境決定,導(dǎo)致現(xiàn)在需要克服的一些問(wèn)題。

二、撥開家庭AI服務(wù)迷霧,閱面科技走出的四程路

隨后,丁小羽分享了閱面科技在嵌入式視覺這個(gè)方向上走過(guò)的四程路。

其演講實(shí)錄如下:

1、第一程:AI和算力適配,講求精準(zhǔn)打擊

帶著這些問(wèn)題,我們第一程做的是把實(shí)驗(yàn)室GPU集群上的視覺計(jì)算搬入到嵌入式設(shè)備上,抽象層面做的是AI和嵌入式算力的適配。 上午聽了很多嘉賓分享算力這塊,大家已經(jīng)開始在反思,非常同意算力不是評(píng)價(jià)芯片的唯一標(biāo)準(zhǔn),甚至不是一個(gè)最重要的標(biāo)準(zhǔn)。

分享一組數(shù)字,最早做VPU視覺模組的時(shí)候,芯片算力0.1T,今天看來(lái)是很小的數(shù)字,當(dāng)時(shí)我們已經(jīng)可以做本地的連續(xù)無(wú)感人臉檢測(cè)和追蹤,在抓拍機(jī)這些應(yīng)用上可以運(yùn)行的很好?,F(xiàn)在,算力已經(jīng)翻了幾十倍,甚至芯片價(jià)格還變得更低。

今天跟大家分享一點(diǎn),對(duì)AIoT智能家居的應(yīng)用來(lái)說(shuō),還是要講精準(zhǔn)打擊的,最適合這個(gè)場(chǎng)景包括I/O、存儲(chǔ)各方面,綜合性能要最適合,算力是其中可以說(shuō)是比較小甚至有些資源過(guò)剩的一塊。用超過(guò)十余家的芯片公司做過(guò)量產(chǎn)產(chǎn)品,甚至我們覺得做這個(gè)事情不是為了賺錢,只是為了跟芯片圈交個(gè)朋友而已,今天很高興認(rèn)識(shí)更多芯片圈的朋友,大家一起朝智能家居方向更進(jìn)一步邁進(jìn)。

目前有超過(guò)兩百萬(wàn)臺(tái)設(shè)備使用閱面的嵌入式AI方案,像智能門鈴和智能門鎖等,去感知人、理解人。這里我們做的只是是智能家居方向很小的一塊,把原來(lái)在實(shí)驗(yàn)室集群上做的事情搬入到嵌入式芯片上去。整個(gè)過(guò)程還是有很強(qiáng)的路徑依賴,過(guò)程還是靜態(tài)的、單向的。具體來(lái)看,模組我們當(dāng)時(shí)做近景和遠(yuǎn)景兩個(gè)版本,多核異構(gòu)當(dāng)時(shí)還是很新的詞,現(xiàn)在很多芯片都已經(jīng)這么設(shè)計(jì)了。

(當(dāng)時(shí)視覺模組)典型應(yīng)用主要是社區(qū)級(jí)的安防,工作主要是模型檢測(cè)、底層硬件的加速框架、低比特量化、模型剪枝?,F(xiàn)在好像并不需要自己寫底層硬件的加速框架了,但算力適配這個(gè)事情主要框架還是當(dāng)時(shí)那套,本質(zhì)提升并不是很多。右邊圖上是用在門禁上的模組——兩個(gè)攝像頭混合雙目攝像頭,通過(guò)多模態(tài)的方式把人和照片區(qū)分開來(lái),這是我們做模組過(guò)程中發(fā)現(xiàn)比較有意思的事情,引出下邊AI與傳感融合的話題。

閱面科技丁小羽:自然人機(jī)交互成智能家居主題,多模態(tài)技術(shù)融合日益重要

2、第二程:AI與傳感融合,可量產(chǎn)性面臨挑戰(zhàn)

(談到實(shí)際應(yīng)用中),從實(shí)驗(yàn)室出來(lái)我們的環(huán)境不再是靜態(tài)圖片,而是真實(shí)場(chǎng)景——真實(shí)場(chǎng)景中蘊(yùn)含豐富信息,“AI跟傳感融合”這個(gè)事情變得非常重要。

2017年,我們開始把越來(lái)越多的重心放到傳感融合上面,3D是其中一塊。要抓取場(chǎng)景中更豐富的信息,要超越人眼視覺能力,可用到的傳感技術(shù)很多,像3D成像的各種技術(shù)實(shí)現(xiàn),還會(huì)用到毫米波、超聲波雷達(dá)等。

創(chuàng)新傳感技術(shù)可以定義更豐富靈活的識(shí)別功能,(比如)可以做金融支付級(jí)的活檢安全標(biāo)準(zhǔn);在隱私敏感場(chǎng)景使用,在拍攝用戶時(shí)身份脫敏“去ID化”;適合用到老人看護(hù)等場(chǎng)景當(dāng)中去。

我們今年投入了比較多的時(shí)間來(lái)做健康傳感方向,通過(guò)非接觸無(wú)感方式去持續(xù)監(jiān)測(cè)人的呼吸和心率。設(shè)計(jì)過(guò)程中比較有意思的地方是神經(jīng)網(wǎng)絡(luò)和ISP功能打通,芯片公司也在用神經(jīng)網(wǎng)絡(luò)做ISP,做完以后成像結(jié)果給我們,我們這邊再用神經(jīng)網(wǎng)絡(luò)做視覺結(jié)果,很自然大家想有沒有可能把兩個(gè)網(wǎng)絡(luò)合成一個(gè)網(wǎng)絡(luò)去做,這里我們積累了很多聯(lián)合優(yōu)化經(jīng)驗(yàn)。

前面談到意識(shí)到和擺脫路徑依賴很難,算法團(tuán)隊(duì)傾向于用模型調(diào)參去解決問(wèn)題,即使傳感成像方面的優(yōu)化有時(shí)更容易提升整體效果。同時(shí)考慮整個(gè)方案的可量產(chǎn)性,因?yàn)樯婕暗紸I跟傳感的結(jié)合、特殊攝像頭標(biāo)定等等因素,面臨非常大的挑戰(zhàn)。

抽象層面是在做傳感融合,具體工作這里舉例3D人臉識(shí)別的門鎖模組。那用在智能門鎖上,最主要的功能還是幫助智能門鎖刷臉開門。同時(shí)希望有超長(zhǎng)的帶機(jī)時(shí)間、單次換電希望用6個(gè)月以上,并且流暢、安全。

這里是我們新版模組的實(shí)測(cè)數(shù)據(jù)顯示,從上電啟動(dòng)到電機(jī)解鎖,即門可以推開大概要2秒鐘時(shí)間。大家可以看到,跟算力最相關(guān)的活檢和識(shí)別部分的整個(gè)時(shí)間只有300毫秒,其實(shí)并不是系統(tǒng)的瓶頸。而內(nèi)存加載等部分其實(shí)是越來(lái)越限制時(shí)間進(jìn)一步優(yōu)化的瓶頸。我們希望智能門鎖達(dá)到的體驗(yàn)?zāi)繕?biāo),就像大家過(guò)高速收費(fèi)站一樣,需要減速,但是不需要停頓就可以進(jìn)到自己的家門。一般門鎖在人距離1米的時(shí)候感應(yīng)觸發(fā),人走過(guò)去的時(shí)間1秒,那目前水平在門前需要停留1秒,這1秒就是接下來(lái)要優(yōu)化的空間。我們希望跟產(chǎn)業(yè)鏈一起努力,在芯片的I/O設(shè)計(jì)、量化方式和模型怎么做得更小等方面有所突破。

閱面科技丁小羽:自然人機(jī)交互成智能家居主題,多模態(tài)技術(shù)融合日益重要

3、第三程:AI智能終端階段,整體設(shè)計(jì)人機(jī)交互

第三程,講到傳感融合我們進(jìn)入智能終端階段,強(qiáng)調(diào)整體性而不僅是一個(gè)模組。

回顧2016年我們剛開始在行業(yè)推出嵌入式AI方案的時(shí)候,業(yè)內(nèi)容易接受的方式是做功能疊加,把一套算法或者模組附到傳統(tǒng)的設(shè)備上,設(shè)備本質(zhì)上還是一個(gè)門禁機(jī)等傳統(tǒng)功能,只是具備了人臉識(shí)別功能。

到第三程階段,算力和傳感的基礎(chǔ)具備一定條件,我們可以做創(chuàng)新型的智能終端,從整體去設(shè)計(jì)AI嵌入式能力和人機(jī)交互交互過(guò)程。

大家分享兩個(gè)具體的例子:

(1)AI嬰兒監(jiān)護(hù)器,我們通過(guò)毫米波雷達(dá)等創(chuàng)新的AI傳感融合技術(shù),可以持續(xù)無(wú)感做睡眠周期的統(tǒng)計(jì),體溫、呼吸、心率的監(jiān)測(cè)、異常事件的預(yù)警,這個(gè)產(chǎn)品邏輯是通過(guò)改善嬰兒睡眠來(lái)改善整個(gè)家庭的睡眠,也很好的體現(xiàn)了我們想實(shí)現(xiàn)“有溫度的技術(shù)”理念。

(2)3D行為識(shí)別相機(jī),目前還用在行業(yè)場(chǎng)景,我們做技術(shù)積累,希望很快能用到家庭上面。如圖這里做了遠(yuǎn)距離的3D行為分析,可以在10米范圍用世界坐標(biāo)做精準(zhǔn)的測(cè)量和分析,人和物的相距狀態(tài)等。這個(gè)設(shè)備在不遠(yuǎn)的將來(lái)有望在功耗和成本上小型化,做到家庭場(chǎng)景3D感知終端。

閱面科技丁小羽:自然人機(jī)交互成智能家居主題,多模態(tài)技術(shù)融合日益重要

4、第四程:全屋智能感知階段,構(gòu)建家庭AI中心

第四程,方向是全屋智能,但是路徑上還不清楚,如圖上的迷霧。

我們想要實(shí)現(xiàn)家居智能的一個(gè)“空靈”境界——用戶回家后是“空”的,不需要打開手機(jī)找APP,開窗用哪個(gè)APP,開燈用哪個(gè)APP,不停地跟它說(shuō)話指令它,而是環(huán)境感知人理解人提供服務(wù),智能硬件都是很有“靈”氣,可以恰如其分提供服務(wù),打造家居智能硬件朋友圈。

如圖我們看智能家居發(fā)展這幾個(gè)階段,感知階段就像我們做的人臉識(shí)別門鎖可以主動(dòng)識(shí)別門前情況,主動(dòng)開門和關(guān)門。數(shù)字化服務(wù)階段,像小孩回家等事件可以通過(guò)微信小程序的方式推送到用戶手機(jī)上。之后產(chǎn)業(yè)界會(huì)把這個(gè)服務(wù)從數(shù)字化空間延伸到物理空間,提供機(jī)器人服務(wù),而這里我們做的是其中整個(gè)全屋智能的感知基礎(chǔ)技術(shù)。

我們?cè)O(shè)計(jì)的整套系統(tǒng)包括家庭的AI中心、連接存儲(chǔ)和計(jì)算的功能和一系列智能終端矩陣。我們從嵌入式視覺這個(gè)角度來(lái)做,一些各種形態(tài)的智能攝像頭,以各種各樣的形式,比如門鈴門鎖,會(huì)議攝像頭和臺(tái)燈等嵌入家居環(huán)境。

家里會(huì)出現(xiàn)越來(lái)越多的智能攝像頭,初聽來(lái)可能會(huì)覺得這個(gè)事情有點(diǎn)可怕,其實(shí)大家每天都隨身帶著幾個(gè)智能攝像頭。家庭AI的影像數(shù)據(jù)逐步應(yīng)用規(guī)范化,數(shù)據(jù)加密和去ID分析等隱私安全技術(shù)應(yīng)用趨向成熟. 同時(shí)以家庭專屬AI系統(tǒng)的方式提供高頻、剛需、訂閱服務(wù),數(shù)據(jù)隱私規(guī)范性基礎(chǔ)上提供便捷。

閱面科技丁小羽:自然人機(jī)交互成智能家居主題,多模態(tài)技術(shù)融合日益重要

三、前半程關(guān)注軟硬一體,后半程關(guān)注傳感融合

我們前半程關(guān)注軟硬一體,算法怎么搬入到嵌入式芯片上去,后半段傳感融合,結(jié)合創(chuàng)新型的熱成像技術(shù)、毫米波雷達(dá)等傳感技術(shù),在場(chǎng)景端抓取豐富信息,再往后的主題應(yīng)是用戶交互和系統(tǒng)服務(wù). 從應(yīng)用場(chǎng)景出發(fā)不斷調(diào)整關(guān)注重點(diǎn)。

家庭AI場(chǎng)景的隱私數(shù)據(jù)需要規(guī)范,應(yīng)用形態(tài)也比較靈活。這里靈活性對(duì)芯片公司提出很大的挑戰(zhàn)。我們看到門禁道閘等行業(yè)應(yīng)用對(duì)嵌入式AI芯片的要求一段時(shí)間是穩(wěn)定的,也確實(shí)出現(xiàn)了切入點(diǎn)準(zhǔn)確長(zhǎng)期成功的芯片。而家庭場(chǎng)景的AI應(yīng)用變化很快,芯片需要應(yīng)用到設(shè)計(jì)時(shí)沒有考慮甚至還不存在的具體場(chǎng)景,這就特別需要跟算法結(jié)合以適應(yīng)靈活性的挑戰(zhàn)。

現(xiàn)在我們已經(jīng)看到可以做咖啡的機(jī)械臂,AI服務(wù)正在從數(shù)字空間開始逐步延伸到物理空間,在這個(gè)過(guò)程中AI融合3D傳感技術(shù)是越來(lái)越重要的一個(gè)方向。

此外,仿生是一種設(shè)計(jì)參考而不是限制,超越肉眼可見才有更大的機(jī)會(huì)。我們可以從數(shù)據(jù)的角度,大數(shù)據(jù)推斷當(dāng)前的狀態(tài)和正常的區(qū)別,也可以從傳感的角度,從超聲波雷達(dá)檢測(cè)到人的呼吸角度去超越一般的肉眼可見的水平,提供家庭場(chǎng)景定制化的產(chǎn)品和服務(wù)。

從算力和傳感的介紹也可以很明顯看出,我們今天做的這個(gè)事情依賴產(chǎn)業(yè)鏈的共同進(jìn)步。我們也一直在行業(yè)里面尋求優(yōu)秀的同行者,特別像嵌入式AI芯片的公司、創(chuàng)新傳感的公司,大家想去的方向一致,路徑有別,希望在各個(gè)階段可以深入交流,相互促進(jìn)。

以上是丁小羽演講內(nèi)容的完整整理。