機(jī)器人前瞻(公眾號(hào):robot_pro)
作者?|??許麗思
編輯?|??漠影

對(duì)生成式AI的想象力,正在從電子屏幕中的數(shù)字世界邁向物理世界。

而賈奎所做的,便是教生成式AI在仿真模擬平臺(tái)中學(xué)會(huì)物理,能搞懂物理世界的運(yùn)行規(guī)律和千萬種可能性,從而讓具身智能硬件直接與物理世界進(jìn)行智能交互。

他是一家通用具身智能技術(shù)研發(fā)公司“跨維智能”的創(chuàng)始人,同時(shí)也是香港中文大學(xué)(深圳)的教授。翻看他的過往履歷,可以說是相當(dāng)豐富:曾先后在中科院深圳先進(jìn)技術(shù)研究院、香港中文大學(xué)、伊利諾伊大學(xué)香檳分校先進(jìn)數(shù)字科學(xué)研究中心、澳門大學(xué)及華南理工大學(xué)任教,從事人工智能、生成式三維建模與學(xué)習(xí)、三維感知大模型等領(lǐng)域的研究。

賈奎帶領(lǐng)著團(tuán)隊(duì)成為國內(nèi)最早開始研究AI三維應(yīng)用和物理智能的一批人,用全仿真數(shù)據(jù)就能完成模型訓(xùn)練和機(jī)器人抓取99.9%以上成功率,這在業(yè)內(nèi)是首家。

目前,跨維智能的具身智能解決方案已經(jīng)成功落地多個(gè)行業(yè)場(chǎng)景,在美的、中國中車、五菱等企業(yè)生產(chǎn)場(chǎng)景中進(jìn)行應(yīng)用。公司今年?duì)I收可達(dá)數(shù)千萬元人民幣,下一年有望實(shí)現(xiàn)過億。

不久前,機(jī)器人前瞻在跨維智能位于深圳南山軟件產(chǎn)業(yè)基地的辦公室見到了賈奎。他看起來做事總是雷厲風(fēng)行、充滿干勁,搞科研、教學(xué)和創(chuàng)業(yè)排滿了日程。

憑借著熱愛和多年積累的技術(shù)優(yōu)勢(shì),賈奎帶領(lǐng)著跨維智能在具身智能賽道嶄露頭角,為機(jī)器人的產(chǎn)業(yè)化應(yīng)用提供了全新思路。

深圳教授聯(lián)手三星高管押注具身智能!被聯(lián)想創(chuàng)投等看中了

▲跨維智能創(chuàng)始人、香港中文大學(xué)(深圳)終身教授 賈奎

一、用懂物理的AI感知攻克泛制造痛點(diǎn),獲聯(lián)想創(chuàng)投青睞

2010年,AI、計(jì)算機(jī)視覺和自然語言處理從非深度學(xué)習(xí)向深度學(xué)習(xí)轉(zhuǎn)變,二維圖像層面識(shí)別理解問題也逐漸得到了解決。

二維圖像層面的識(shí)別理解,就像一個(gè)人認(rèn)知層面的智能,比如看到一幅圖像能知道圖像里面是什么內(nèi)容。而當(dāng)2015年之后,AI的應(yīng)用滲透到AR、VR、元宇宙和機(jī)器人等方面,AI本身和深度學(xué)習(xí)的范式開始發(fā)生改變。

這是從二維平面空間向三維物理空間的轉(zhuǎn)變。

剛好趁著這個(gè)時(shí)機(jī),2016年,賈奎回國來到華南理工大學(xué)任教,選擇用新型 AI 作為攻克三維感知的研究方向。

?2018 年起,賈奎在華南理工大學(xué) “幾何感知與智能” 實(shí)驗(yàn)室中,嘗試研發(fā)能夠處理信號(hào)形式與物理世界關(guān)聯(lián)的深度學(xué)習(xí)算法,并且以自研的Sim2Real技術(shù)為核心,通過物理引擎去合成3D 仿真數(shù)據(jù)。

當(dāng)時(shí),國內(nèi)還沒有企業(yè)涉及這一領(lǐng)域,實(shí)驗(yàn)室成為國內(nèi)最早研究AI與三維空間應(yīng)用問題的團(tuán)隊(duì),這也是如今的跨維智能的雛形。

2020年,團(tuán)隊(duì)已經(jīng)完成了一些從底層到應(yīng)用的技術(shù)積累,賈奎也看到了生成式AI在三維感知層面的商業(yè)化潛在機(jī)會(huì),開始思考技術(shù)產(chǎn)業(yè)化的價(jià)值和落地方向。

要落地在哪里呢?賈奎介紹,一般有三個(gè)方向:一是AR、VR、元宇宙,二是無人駕駛,三是機(jī)器人。

最終,賈奎選擇了在智能制造的場(chǎng)景里,將搞懂了物理世界的AI應(yīng)用在機(jī)器人身上進(jìn)行產(chǎn)業(yè)落地。

“智能制造是剛需,因?yàn)樗嬖谥罅客袋c(diǎn)。在這之前,工業(yè)領(lǐng)域里基本都是找到一個(gè)行業(yè)痛點(diǎn),就采用項(xiàng)目研發(fā)的方式來解決問題,但使用AI范式解決通用性問題是更重要的,”賈奎說,“我們希望機(jī)器人可以有‘大腦’、‘眼睛’,不管是面對(duì)汽車制造、3C制造還是化工行業(yè)、家電行業(yè)等,都能在產(chǎn)線上柔性、靈活地進(jìn)行生產(chǎn)?!?/p>

相較于傳統(tǒng)的單點(diǎn)項(xiàng)目研發(fā)式,搞懂了物理世界的AI能夠讓機(jī)器人的泛化能力得到極大提升,不拘于特定條件和場(chǎng)景,這能夠帶來研發(fā)成本、產(chǎn)品硬件成本、落地部署成本等大幅度降低。

從高校老師到創(chuàng)業(yè)者,賈奎坦言,因?yàn)殚L期在“象牙塔”中,可能會(huì)存在不了解行業(yè)、不知道社會(huì)真正需要什么的情況?!岸际且欢?strong>拿著錘子找釘子的過程?!?/p>

目前,跨維智能已經(jīng)建立起一個(gè)能將生成AI從文本、圖像視頻擴(kuò)展到三維物理世界的實(shí)力強(qiáng)勁的團(tuán)隊(duì),研發(fā)人員占比達(dá)70%以上。

吳迪是資深傳感器專家,負(fù)責(zé)相機(jī)等硬件研發(fā),曾任騰訊高級(jí)算法工程師,研發(fā)機(jī)器視覺產(chǎn)品;作為華為高級(jí)算法工程師負(fù)責(zé)華為首款雙攝手機(jī)三維重建算法,并曾在霍尼韋爾等企業(yè)擔(dān)任高級(jí)工程師。

賈奎還邀請(qǐng)了原三星首席工程師、曾主導(dǎo)了多款機(jī)械臂、移動(dòng)機(jī)器人和復(fù)合機(jī)器人的研發(fā)及量產(chǎn)的金毅博士加入團(tuán)隊(duì)擔(dān)任CTO,負(fù)責(zé)加強(qiáng)機(jī)器人本體控制的協(xié)調(diào)性和靈活性。

成立至今,跨維智能已經(jīng)完成了四輪融資,已獲得來自松禾資本、真格基金、聯(lián)創(chuàng)資本、聯(lián)想創(chuàng)投等知名機(jī)構(gòu)投資。現(xiàn)在,下一輪融資工作正在快速推動(dòng)中。

二、用100%合成數(shù)據(jù),實(shí)現(xiàn)99.9%抓取成功率

數(shù)據(jù)匱乏,是橫亙?cè)谏墒紸I從二維跨到三維的一道高墻。

“以機(jī)器人為例,機(jī)器人需要結(jié)合現(xiàn)實(shí)物理環(huán)境相關(guān)的數(shù)據(jù)、采用多種信號(hào)形式進(jìn)行處理,而二維的互聯(lián)網(wǎng)上不存在三維物理世界的機(jī)器人數(shù)據(jù),無法通過互聯(lián)網(wǎng)方式對(duì)這些數(shù)據(jù)進(jìn)行采集和傳播?!辟Z奎說。

這也是跨維智能在將生成式AI和物理世界相結(jié)合的過程中,與傳統(tǒng)AI路徑最大的不同之處所在——采用基于物理規(guī)律的生成式AI合成的數(shù)據(jù)去訓(xùn)練大模型,再將大模型連接上機(jī)械臂、機(jī)器人等不同的具身智能硬件,讓其學(xué)會(huì)智能化操作。

為什么不是真實(shí)數(shù)據(jù),而是合成數(shù)據(jù)?

“AI的智能來自于所提供的足夠多的數(shù)據(jù),而對(duì)具身智能來說,用真實(shí)數(shù)據(jù)采集的方式是無法實(shí)現(xiàn)落地級(jí)應(yīng)用的,”賈奎說,“唯一做到的是無人駕駛,因?yàn)榈缆飞媳緛砭陀写罅康能囕v在運(yùn)行。但是對(duì)機(jī)器人來說,目前遠(yuǎn)沒有達(dá)到這個(gè)數(shù)量級(jí),所以需要一個(gè)更低成本、高效、快速的方法?!?/p>

眼下,業(yè)內(nèi)多數(shù)基于3D視覺的機(jī)械臂等產(chǎn)品,控制系統(tǒng)的算法訓(xùn)練采用的就是真實(shí)數(shù)據(jù)。但是不同場(chǎng)景采集的數(shù)據(jù)難以實(shí)現(xiàn)通用,繁瑣的數(shù)據(jù)采集、清洗、標(biāo)注、增強(qiáng)等處理過程,一環(huán)又一環(huán)地導(dǎo)致數(shù)據(jù)成本的增加。

賈奎介紹,具身智能機(jī)器人需要三類數(shù)據(jù):一是機(jī)器人身上不同類型的傳感器數(shù)據(jù),如視覺傳感器、力矩傳感器和觸覺傳感器等;二是機(jī)器人自身狀態(tài)數(shù)據(jù),如在執(zhí)行動(dòng)作的過程中關(guān)節(jié)、角速度等自身狀態(tài)數(shù)據(jù);三是驅(qū)動(dòng)機(jī)器人進(jìn)行各種動(dòng)作時(shí),動(dòng)作本身的數(shù)據(jù)。前兩類數(shù)據(jù)是模型的輸入,最后一類是模型的輸出。

這三類數(shù)據(jù),會(huì)通過sim2real和物理引擎進(jìn)行放大,例如要讓機(jī)器人學(xué)習(xí)咖啡拉花這個(gè)動(dòng)作,就可以將軌跡動(dòng)作嵌入虛擬物理世界,然后變換不同的環(huán)境、咖啡杯、咖啡機(jī)等各種物理?xiàng)l件,成千上萬倍地放大數(shù)據(jù),從而高效地讓機(jī)器人學(xué)會(huì)咖啡拉花。

最關(guān)鍵的還是,在訓(xùn)練效果上,合成數(shù)據(jù)能夠更優(yōu)于真實(shí)數(shù)據(jù)。由于本身就是基于物理規(guī)律合成,合成數(shù)據(jù)天生自帶絕對(duì)精確的標(biāo)注,這就意味著,AI學(xué)習(xí)起來效率非常高。另外,合成數(shù)據(jù)的“全面性”是真實(shí)數(shù)據(jù)難以比擬的。

不需要使用任何一張真實(shí)照片,跨維智能就可以完成機(jī)械臂等復(fù)雜場(chǎng)景作業(yè)的3D視覺模型訓(xùn)練,在多個(gè)商業(yè)場(chǎng)景中毫米、亞毫米的操作精度要求下,達(dá)到99.9%以上的任務(wù)成功率。

三、全自動(dòng)拆解任務(wù)訓(xùn)練機(jī)器人,已落地工業(yè)制造及商業(yè)服務(wù)

跨維智能自研的DexVerse? 具身智能引擎,能解決3D數(shù)字資產(chǎn)生產(chǎn)、數(shù)字資產(chǎn)生成-GenAI、合成數(shù)據(jù)生成等問題。

在一些工業(yè)制造或商業(yè)服務(wù)場(chǎng)景中,無需研發(fā)人員的參與,只需要輸入一個(gè)操作對(duì)象,引擎就能夠利用大語言模型自動(dòng)拆解所涉及到的機(jī)器人技能及子技能,進(jìn)而自動(dòng)化地生成仿真所需對(duì)象、場(chǎng)景等數(shù)字資產(chǎn)讓模型進(jìn)行訓(xùn)練。

深圳教授聯(lián)手三星高管押注具身智能!被聯(lián)想創(chuàng)投等看中了

▲引擎正在對(duì)“用積木搭建一個(gè)小鹿”這一任務(wù)進(jìn)行拆解

深圳教授聯(lián)手三星高管押注具身智能!被聯(lián)想創(chuàng)投等看中了

▲引擎自動(dòng)化生成仿真對(duì)象后,進(jìn)行模型訓(xùn)練

深圳教授聯(lián)手三星高管押注具身智能!被聯(lián)想創(chuàng)投等看中了

▲模型訓(xùn)練完畢后,導(dǎo)入一個(gè)雙臂機(jī)器人中進(jìn)行實(shí)操

再加上空間與具身智能傳感器——DexSense系列,能夠在多種不同角度對(duì)圖像進(jìn)行捕捉,在不同的光線條件下都能穩(wěn)定地成像,能夠解決視覺行業(yè)一直以來的半透明物品的成像難點(diǎn),并且最快可以實(shí)現(xiàn)每秒30幀頻率,接近人眼感知世界的方式。

跨維智能把這樣的“大腦”和“眼睛”相結(jié)合,應(yīng)用于機(jī)器人身上,已經(jīng)落地了汽車零配件、金屬加工、工業(yè)物流、家電、光伏等三十多個(gè)行業(yè),在美的、中國中車、五菱等多家企業(yè)生產(chǎn)場(chǎng)景中進(jìn)行應(yīng)用,能夠賦能泛制造領(lǐng)域的無序分揀、柔性裝配等環(huán)節(jié)。

例如,在汽車扁平件的上料環(huán)節(jié),沖壓件視覺特征點(diǎn)少且表面平整反光,跨維智能3D視覺套件,采用模型預(yù)訓(xùn)練方式現(xiàn)場(chǎng)進(jìn)行模板匹配,可以應(yīng)對(duì)產(chǎn)品表面反光、環(huán)境光等各種干擾,快速成像配合PickWiz 工業(yè)軟件進(jìn)行模板匹配,五分鐘完成調(diào)參,大幅減少換產(chǎn)成本。

深圳教授聯(lián)手三星高管押注具身智能!被聯(lián)想創(chuàng)投等看中了

▲機(jī)器人正在進(jìn)行汽車扁平件上下料工作

在商業(yè)服務(wù)領(lǐng)域中,其也實(shí)現(xiàn)了在無人充電、卡車換電、按摩機(jī)器人等眾多場(chǎng)景的落地。

深圳教授聯(lián)手三星高管押注具身智能!被聯(lián)想創(chuàng)投等看中了

▲跨維智能在無人充電場(chǎng)景的應(yīng)用

除此之外,跨維智能也正在通過賦能人形機(jī)器人等其他硬件本體,在一些偏向于家庭環(huán)境的場(chǎng)景中進(jìn)行探索。例如,訓(xùn)練一個(gè)人形機(jī)器人如何學(xué)會(huì)自主煮泡面:

深圳教授聯(lián)手三星高管押注具身智能!被聯(lián)想創(chuàng)投等看中了

結(jié)語:押注具身智能,是因?yàn)橛新涞氐南M?/strong>

賈奎相信,具身智能是一個(gè)比無人駕駛更大的賽道,同時(shí)也是更長周期、具有相當(dāng)強(qiáng)生命力的賽道。“具身智能現(xiàn)在之所以能夠被‘炒作’,是因?yàn)榇蠹矣性V求,并且覺得從認(rèn)知層面的AGI到物理層面的AGI有希望落地?!?/p>

具身智能雖然也會(huì)存在著波峰波谷,但是相較于無人駕駛明確的落地場(chǎng)景——路面,具身智能機(jī)器人的落地場(chǎng)景則廣泛得多,從工廠、辦公樓、超市到家庭等,有著無限的機(jī)會(huì)。

這也對(duì)創(chuàng)業(yè)企業(yè)在技術(shù)和商業(yè)落地上的平衡方面提出了更高的要求。

當(dāng)下,跨維智能正在把具身智能“大腦”快速拓展到工業(yè)外的商業(yè)場(chǎng)景,并且將目光投向人形機(jī)器人身上。

賈奎透露,公司預(yù)計(jì)很快會(huì)推出自己的人形機(jī)器人產(chǎn)品,人形機(jī)器人由金毅博士帶隊(duì)研發(fā)。

“與工業(yè)機(jī)器人不同,人形機(jī)器人是一個(gè)全新的行業(yè),在現(xiàn)在這個(gè)時(shí)間點(diǎn),許多公司還不是很成熟,我們想要自己打造一個(gè)軟硬結(jié)合、更好的人形機(jī)器人平臺(tái)?!彼f。

人形機(jī)器人會(huì)為整個(gè)行業(yè)帶來范式革命,賈奎也有信心,已經(jīng)跑通了一些具身智能應(yīng)用場(chǎng)景的跨維智能,會(huì)在這條路上走得更快、更好。