芯東西(公眾號:aichip001)
編輯 |? GACS

9月14日~15日,2023全球AI芯片峰會(GACS 2023)在深圳南山圓滿舉行。在首日AI芯片架構創(chuàng)新專場上,肇觀電子的CEO馮歆鵬分享了主題為《AI視覺芯片打造機器人的核心感知能力》的主題演講。

馮歆鵬先介紹了VPU的定義以及學科基礎背景,認為VPU的市場規(guī)模和GPU相當,在世界正在從2D轉向3D的技術革新中,是未來機器人等智能設備必不可少的重要組成部分。

肇觀電子在產(chǎn)業(yè)內(nèi)積累數(shù)年之久,也從其中汲取了不少落地經(jīng)驗,并將其賦能與產(chǎn)業(yè)。馮歆鵬還提到肇觀電子幾個有趣的落地場景案例。比如說,如何打造能夠在冷庫中工作的機器人,又如何讓汽車能夠巧妙的避開障礙物等等。此外,他還認為未來世界,將會是機器人和人類共存的狀態(tài)。

以下為馮歆鵬的演講實錄:

大家好!我是肇觀電子CEO馮歆鵬,很高興今天有機會能夠跟大家分享。肇觀電子名字聽起來比較獨特,肇是開啟,觀是視覺,開啟視覺的意思,英文是NextVPU,也就是Next Vision Processing Unit,下一代視覺處理器的意思。

我們是一家做計算機視覺和人工智能端側的芯片和模組核心元器件的公司,我們做的事情就是幫助所有智能設備,讓它看懂世界,賦予它看懂世界能力的事情。我們的下游也比較廣泛,在機器人、車載、工業(yè)、安防、消費都有諸多的應用。

一、要讓機器人看懂世界,需解決五大技術問題

今天我講的主題聚焦在機器人方面,機器人在過去的很長一段時間,一直是熱點的領域,也經(jīng)歷了很多年的發(fā)展,到現(xiàn)在機器人領域在快速地發(fā)展,而且將來市場非常廣大。所以特斯拉馬斯克說過特斯拉現(xiàn)在已經(jīng)不是一個車載公司,是機器人公司。

大家想要解決的問題其實很類似,當今世界面臨很多挑戰(zhàn),解決這些挑戰(zhàn)的一個現(xiàn)實有效的措施,是提高生產(chǎn)效率。如何能夠快速地提高生產(chǎn)效率?就得利用發(fā)明或者創(chuàng)造更加智能的設備,來自動幫人解決很多問題。

我們都希望將來的世界大概率會是一個無人工廠、無人農(nóng)場、可穿戴設備、無人駕駛汽車,是一個高度自動化的世界,這些智能設備可以提高每個人的工作效率以及生活的質(zhì)量。咱們這個會場可能有很少的機器人,但是過數(shù)年后,全球可能是300億個機器人和90億人口共存的一個世界。

300億個智能設備很重要的就是具有視覺能力,機器人要能自主地在空間中移動,去解決它的這些問題,完成它的任務。這些設備自主移動、需要全天候地移動,需要24小時在各種惡劣條件下、各種環(huán)境下,能夠正確地解決它的問題,這需要它有相當程度的視覺能力。

我們肇觀電子做的事情,就是幫助所有設備賦予它“視覺能力”。

視覺,大家都比較理解,它對于每個智能生物和智能設備都非常重要,人對信息的采集主要是通過眼睛,同樣對設備而言,視覺能力是它的核心技術能力,所以我們在做這樣一件事情。

我們讓設備看懂世界的話,要解決幾個子問題,就是設備要看懂世界,首先得看得見世界,還得看得清楚、看得懂。

看得見和看得清楚,在現(xiàn)場這樣的光照下是挑戰(zhàn)相對比較低的場景。但是如果需要一個智能設備在完全無人化地去解決它的問題,在全天候、全場景地去做,這個問題就變得非常復雜。

機器人往往會被要求在人眼都睜不開的強光下,還能夠正常地成像;在很黑暗的區(qū)域,比如黑燈工廠,它還要能正常成像;還有在強逆光下,比如智能車很大的挑戰(zhàn)就是遠光燈打過來的時候,人都覺得晃眼,車也是一樣,所以這些設備要在強光下、弱光下、逆光下都能正常成像,看得見這些該被看見的東西,這些是非常重要的基礎。

因此,成像對智能設備能看懂世界非常重要,它首先得看得見、看得清楚世界。

這是我們肇觀電子從成立到現(xiàn)在,一直在孜孜不倦解決的方向。成像這個方向可以做50年、100年,是非常浩瀚和非常長的領域。我們?nèi)〉昧艘恍╇A段性成果,但還是在持之以恒地繼續(xù)做。

肇觀電子馮歆鵬:五大技術讓機器人看懂世界,AI視覺芯片實現(xiàn)顛覆式創(chuàng)新丨GACS 2023

另外一個很重要的對于機器人的基礎能力就是3D感知,機器人如果固定在那里,不跟周圍環(huán)境交互,這個問題相對好一些,但一旦機器人動起來,就涉及到跟環(huán)境中的物體如何互動的問題,那么機器人不能撞到人、不能撞到寵物、不能撞到機器人,所以遇到這些問題的時候,機器人要移動。

像慢速的機器人,大概每秒鐘移動0.2米到1米;如果像人的步速機器人,大概每秒鐘是1.5到2.5米的速度;如果是兩輪車或者四輪車,速度越來越快;還有像飛機這樣更加高速移動的設備,這些設備但凡要移動起來,就會跟周圍的空間環(huán)境帶來一些關聯(lián)。

對于周圍做正確的3D感知是每一個自主設備,每一個要在空間中移動的設備的核心基礎能力。3D感知是機器人讓它變得更智能的核心能力,這也是肇觀電子在芯片上做了一系列的事情,使得這些機器人的應用能夠更好地感知周圍的環(huán)境。

AI是機器人的另一大方面,剛才很多嘉賓分享了在AI方面諸多的成績。AI對于機器人,當它能夠正確識別什么是地板、什么是墻壁、什么是天花板,其實這都是很有挑戰(zhàn)的事情。大部分情況下,人一看就知道這是地板,但對機器人而言,要嚴格意義上讓它99.99%的情況下知道是地面還是桌面,要加以區(qū)分,是非常困難的一件事情。

所以AI解決的就是這樣的問題,桌子、椅子、茶杯是不一樣的物體,如何做語義分割,如何在高速移動物體情況下還能正確識別,這是非常重要的事情。AI的處理能力對機器人也是一個基礎能力。

VSLAM,也就是Visual Simultaneous Localization And Mapping,實時定位和構圖技術對機器人也非常重要,對于空間的復刻,數(shù)字化整個環(huán)境,顯示定位自身,把周圍地圖都畫出來,是智能設備、智能生物的基礎能力。

SoC,當我們解決了諸多的這些問題之后,我們需要考慮到一個工程化系統(tǒng)層面可執(zhí)行、可落地、可商用,能夠切實給我們下游帶來好處,形成價值鏈閉環(huán)的載體,就是SoC,片上系統(tǒng)。一個完整的芯片必須具有諸多的功能,這樣使得我們不用在電路板上用多個芯片搭出來一個系統(tǒng),而是直接在一個板子上用一顆芯片,一顆芯片解決所有問題,這樣才能做到高性能、低功耗、低成本、低系統(tǒng)復雜度,有諸多好處。

可以看到,解決這些機器人看懂世界是我們的目標,我們要解決的事情,要在成像、3D、AI、VSLAM、SoC解決這五個問題,這五個問題也是肇觀電子從成立到現(xiàn)在一直在積累的能力。

二、攝像頭正在從2D向3D躍遷,VPU市場與GPU市場相當

機器人的發(fā)展在這幾年非??焖?,我們也切實地看到了在一些比較艱苦的工作環(huán)境下,高溫下、低溫下,在比較惡劣的環(huán)境下,以及枯燥的、繁重的這些勞動下,機器人換人的比例在非??焖俚厣仙瑱C器人的滲透率不斷地走高。

機器人有很多種機器人,有工業(yè)機器人、服務機器人、人形機器人、特種機器人、無人機等各種移動物體,如果速度再快一些,可能四個輪子的汽車也是一種機器人。這些設備在不知不覺地快速發(fā)展,而且這些設備上面都需要越來越強大的視覺能力,能夠看懂周圍。

很多機器人它不像人,咱們?nèi)酥灰翱淳涂梢粤耍芏鄼C器人比人更先進,它需要四面八方都要看,所以它的身上要裝很多眼睛,這也是我們在幫助我們的下游做的事情。

視覺的前身是圖像處理,發(fā)展了很多年,正在面臨比較大的變革,就是從2D往3D在發(fā)展。我們知道蘋果在消費端發(fā)布了Vision Pro,在內(nèi)容生產(chǎn)上做了一些事情。世界是3D的,無論現(xiàn)在手機也好,各種照相設備也好,都是2D成像,它帶來了一維信息的損失,這個損失其實是非??上У囊约胺浅V匾模驗槟且痪S信息很重要,所以往前走,大家所有的采集信息拍照設備一定會變成3D。

肇觀電子馮歆鵬:五大技術讓機器人看懂世界,AI視覺芯片實現(xiàn)顛覆式創(chuàng)新丨GACS 2023

我們知道從量的角度來講,現(xiàn)在全球每年大概15億只手機,大概9000萬輛車,每個車上有十幾個攝像頭,有很多的家電,所有這些上面的傳感器、攝像頭將來都要從2D往3D躍遷,所以我們現(xiàn)在面臨比較大的技術變革。

我們做的VPU,跟GPU比較相似的名字定義,GPU大家已經(jīng)非常熟悉了,GPU的學科基礎是計算機圖形學,VPU的學科基礎就是計算機視覺,計算機視覺跟計算機圖形學這兩個學科是完全相逆的,VPU干的事是更接近人的智能的本質(zhì),它是讓設備看懂世界,看懂世界之后這個設備就具有了相當程度的智能,我們都說解決AI問題一半的問題在于視覺,所以解決視覺問題也解決了相當程度的人工智能問題。所以VPU的市場非常之廣闊,GPU市場大家都知道很大,VPU其實不比GPU小。

肇觀電子馮歆鵬:五大技術讓機器人看懂世界,AI視覺芯片實現(xiàn)顛覆式創(chuàng)新丨GACS 2023

這是我們做的階段性成像成果,我們在暗光、逆光、強光下做一些事情,這些成像是永無止境的事情,我們調(diào)整了很多傳感器,和各類傳感器廠商的關系也非常好,大家互相扶持,也幫助前面的透鏡、中間的光電轉換以及SoC,這大家在成像系統(tǒng)里面屬于三個重要的部分。我們互相扶持幫助彼此解決對方的問題,形成一個非常好的成像系統(tǒng)。

成像系統(tǒng)可以說永無止境,不同的客戶有不同的需求,而且不同客戶要求也越來越高,所以在這個領域我們做了非常多的事情。

在實際落地中有各種各樣奇奇怪怪的問題,透鏡有透鏡的問題,現(xiàn)場又有特別奇怪的光照情況,在這里面這些問題都需要加以解決,肇觀電子在過去一段時間幫助各種客戶解決他們實際的問題。

這是我們正在做的一些3D技術,無論是在純室外、室內(nèi)外切換的場景還是純室內(nèi)場景,我們做了系列3D的技術,這都是用芯片來去做一些計算。在室外,比如像車,以及像各種室外工作的機器人,都需要我們這樣的技術,來解決3D感知的問題,使得機器人能避開障礙,知道自己在哪里,能獲得這些重要的信息。

肇觀電子馮歆鵬:五大技術讓機器人看懂世界,AI視覺芯片實現(xiàn)顛覆式創(chuàng)新丨GACS 2023

這是我們基于芯片做的一個VSLAM的案例,我們的一位員工拿著智能3D深度相機在空間中移動,紅色的線是相機移動的軌跡,通過這些掃旁邊的一張桌子,把它掃描出來,這是實時掃描的結果,我們在芯片上做了很多特征點的加速,各種濾波的加速,在上面做很多VSLAM硬件的底層硬件加速的事情,使得離線在端側實時做三維重建成為可能。

很多應用對實時性要求非常高,一個機器人,我們不希望它像恐龍一樣,看到的東西等它反應過來已經(jīng)是1秒之后了,這是不行的,很多機器人希望0.1秒,也就是100毫秒就要反應過來;這就涉及到感知,從光子打到傳感器到它全部處理完然后作出反應,100毫秒內(nèi)要解決問題。所以很多時候,端側的處理能力非常重要,因為有些時候是來不及往云端傳輸數(shù)據(jù),解決完再傳回來。當然云端也非常重要,所以云和端都是在很繁榮地往前發(fā)展。

AI大家比較熟悉了,這些都是具體的落地應用,肇觀服務了非常多的各種各樣的客戶,解決客戶的問題。

三、一款汽車多個部位用到VPU芯片,VPU做機器人的眼睛

我們的芯片被用在了汽車上,用在車的三個鏡子上,車內(nèi)后視鏡以及車的兩個外后視鏡上,以及被用在車的攝像頭里面,以及被用來做ADAS比如LDW(車道預警)、交通標志輔助識別、駕駛員疲勞監(jiān)測、乘客監(jiān)測、DVR,做BSD盲區(qū)檢測等等。在車載領域,我們是車規(guī)、國產(chǎn)、高畫質(zhì)、低延時,性能還不錯。大家如果對車載芯片有需求,我們是比較好的選擇之一。

一個具體的應用案例是一個電子后視鏡,在下雨的時候,畫質(zhì)非常清晰。在黑暗的場景,通過屏幕看,電子后視鏡仍然很清晰。

四、基于肇觀自研芯片打造費曼系列智能深度相機,更進一步服務下游客戶

我平常隨身也帶著芯片,放在一個小盒子里,給大家展示一下;做芯片就是有這個好處,產(chǎn)品非常小,可以隨身攜帶。

我們基于自己芯片的電路板做了智能深度相機,這就是機器人的眼睛,我隨身帶的一個機器人的眼睛。工業(yè)機器人、服務機器人、人形機器人、特種機器人、無人機器人等各種各樣的機器人,都需要這樣的眼睛。這個眼睛解決的問題是幫助機器人3D感知,AI識別全在里面做了,成像,以及輸出碼流。

所以,一個小的模組,像口香糖一樣大的模組,就解決了機器人眼睛所有的問題。

我們花了很多力氣在做這個產(chǎn)品,來解決客戶的問題。舉例來講,很多很嚴苛的客戶,要求我們把眼睛要做到世界第一;在沒有我們的時候,是有一家海外的巨頭來提供類似的模組。有了我們之后,我們被客戶要求替代掉海外巨頭,被要求在很多的技術點上要磨到世界第一。

舉一個很簡單的例子,像這樣的模組,它的連接是USB3.0的連接,大家可能有些人比較熟悉,就是一根線,拖出來插到電腦上充電也好,數(shù)據(jù)傳輸也好,都可以用。從技術角度而言,USB協(xié)議其實不是一個特別穩(wěn)定可靠的協(xié)議。大家如果關注這一點,在工業(yè)這種場景下,不穩(wěn)定可靠是致命的,如果通過USB連接,把這個數(shù)據(jù)穩(wěn)定傳出來,我們的客戶要求我們10萬小時的連接不能中斷一次,這就要求非常高了。所以為了達到這樣的目標,就是海外巨頭都做不到這一點,因為它有一些天生的不足導致的問題。

肇觀電子馮歆鵬:五大技術讓機器人看懂世界,AI視覺芯片實現(xiàn)顛覆式創(chuàng)新丨GACS 2023

為了達到這個10萬小時一次連接都不斷,我們被迫要去在芯片級、在所有的底層驅動都重新寫一遍,在跟它連接的另外一端的軟件也要重新寫一遍,所以全部的硬件軟件都要重新做,所以才能做到10萬小時不斷連接的場景,這只是客戶的諸多非常細的要求之一。

在這個過程中,我們能夠提供給客戶穩(wěn)定的、可靠的、智能的、3D的深度的相機,適用于各種極限場景,比如說我們有冷庫機器人的客戶,它的機器人常年在零下18度搬海鮮的客戶,它的眼睛就需要在零下18度每次都能正常啟動,完成它的任務,然后再關機。但是比如海外巨頭的產(chǎn)品在零下18度開機都開不出來,我們被要求在如此低溫下能正常工作。我們也被要求在非常高溫下要能正常工作,所以這里面有非常多的客戶需求。

所以我們在跟諸多客戶在過去很多年一直在打磨,我們積累了非常多解決方案,這些解決方案反過來幫助了肇觀如何能夠設計出更好的芯片和模組來切實解決客戶的問題,這是非常重要的。

在這個過程中,我們也深刻理解了客戶的使用場景,客戶面對的各種問題。因為這些模組主要賣給這些toB的客戶。我們作為一個核心元器件廠商,如何幫助他們解決問題,在這里面肇觀也收獲了很多寶貴的經(jīng)驗。

五、支持荷蘭語德語等各種語言,OCR識別正確率全球領先

肇觀電子馮歆鵬:五大技術讓機器人看懂世界,AI視覺芯片實現(xiàn)顛覆式創(chuàng)新丨GACS 2023

肇觀電子馮歆鵬:五大技術讓機器人看懂世界,AI視覺芯片實現(xiàn)顛覆式創(chuàng)新丨GACS 2023

肇觀也應一類客戶要求,在OCR的領域做了很多事情。不謙虛地講,在自然光照條件下各種復雜文本的采集分析方面,我們在這個領域,在全球范圍內(nèi)做得算是比較領先。

舉例子來講,比如彎曲的各種文字、不同的背景下,我們文字的采集、文字識別和處理做得比較領先。比如說,右下角這是一個日本的報紙,日文報紙有豎排、橫排混在一起,我們就被客戶要求把它完全正確處理出來,而且把順序排好,要能夠語義能夠理解出來。所以在OCR領域,我們做了很多事情,現(xiàn)在已經(jīng)支持十幾種不同國家的語言了,在這個領域算法做得比較領先。

這是我們OCR的具體例子,我們的識別準確率,我們支持中文、英文、日文、韓文、阿拉伯語、西班牙語、葡萄牙語、法文、德文、荷蘭語等各國語言,我們支持各國語言的OCR,我們在這方面做得算是世界領先之一,我們不僅做逐字的識別,在表格的識別,還在各種時尚雜志、繪本等復雜頁面里面,能把該提取的東西提取出來,不該提取的不提取,在這里面我們做了非常多的事情。

大家如果誰對OCR的算法或者技術有需求,也歡迎聯(lián)系我,聯(lián)系肇觀電子,我們都很樂意在客戶的產(chǎn)品中貢獻一點力量。

肇觀一直致力于用AI視覺芯片來幫助所有的智能設備看懂世界,來做這樣一件事情,這個事情對我們而言意義非常重大,對這些智能設備而言也非常重要,所以在這個領域,我們一直在深耕我們的芯片,深耕我們的核心能力,更好地幫助到客戶。今天我的分享就到這里,感謝大家!

以上是馮歆鵬演講內(nèi)容的完整整理。