智東西(公眾號(hào):zhidxcom)
作者 | GenAICon 2024

2024中國生成式AI大會(huì)于4月18-19日在北京舉行,在大會(huì)第一天的主會(huì)場(chǎng)開幕式上,北京大學(xué)助理教授、銀河通用機(jī)器人創(chuàng)始人&CTO、智源具身智能中心主任王鶴以《通向開放指令操作的具身多模態(tài)大模型系統(tǒng)》為題發(fā)表演講。

成立于2023年5月的銀河通用機(jī)器人,是國內(nèi)具身智能代表初創(chuàng)公司之一,迄今已完成4輪融資,美團(tuán)是公司外第一大外部股東,北大燕緣創(chuàng)投、清華無限基金SEE Fund均是投資方,其累計(jì)融資額已超過1億美元。

作為國內(nèi)具身智能領(lǐng)域資深專家,王鶴詳細(xì)解讀了具身智能大模型的定義、范圍和關(guān)鍵技術(shù)。他談到目前面向通用機(jī)器人的具身多模態(tài)大模型的局限在于數(shù)據(jù)來源有限、很難高頻輸出動(dòng)作。應(yīng)對(duì)這兩大挑戰(zhàn)的方向,一是通過仿真世界提供訓(xùn)練數(shù)據(jù),二是采用三維模態(tài)模型提升泛化性和速度。

對(duì)此,銀河通用機(jī)器人構(gòu)建了三層級(jí)大模型系統(tǒng),包括硬件、仿真合成數(shù)據(jù)訓(xùn)練的泛化技能、大模型等?;谠撓到y(tǒng),機(jī)器人可實(shí)現(xiàn)跨場(chǎng)景、跨物體材質(zhì)、跨形態(tài)、跨物體擺放、依據(jù)人類語音指令進(jìn)行的開放語義泛化抓取,成功率達(dá)95%。

以下為王鶴的演講實(shí)錄:

今天我?guī)淼膬?nèi)容與機(jī)器人相關(guān),這個(gè)話題也是今年“AI+”中最火熱的話題之一。

大模型公司OpenAI和機(jī)器人公司Figure AI聯(lián)手演出,讓我們看到機(jī)器人在廚房里拿蘋果、端盤子、放杯子的驚艷視頻。還有巨頭英偉達(dá)在GTC大會(huì)官宣要做Project GROOT,GROOT就是通用機(jī)器人。

那么,對(duì)于通用機(jī)器人我們的期待是什么?就是它能像人一樣干各種各樣的體力勞動(dòng),可以實(shí)現(xiàn)我們告訴機(jī)器人指令,它通過視覺去看、各種傳感器去感知,然后連續(xù)高頻輸出動(dòng)作,也就是能夠聽懂我們跟它說的任務(wù)指令。這就是“言出法隨”。

此外,機(jī)器人還應(yīng)該做到環(huán)境泛化,在家庭、工廠、商超等不同的環(huán)境中工作。

這樣的通用機(jī)器人顯然不是只造出機(jī)器人本體就可以,那么背后的技術(shù)是什么?什么賦予了它這樣的能力?就是具身多模態(tài)大模型。

一、拆解大模型分類,自動(dòng)駕駛是典型的具身大模型

具身多模態(tài)大模型就是能高頻輸出動(dòng)作的大模型,我將其分為非具身和具身大模型兩類。

今天前面看到的一些大模型實(shí)際是非具身大模型,如GPT-4、GPT-4V、Sora等,它們的特點(diǎn)是,輸出都是給人看或者給人讀的。無論語言、圖片還是視頻大模型,最終服務(wù)的對(duì)象是人,顯示的設(shè)備是各種手機(jī)、電腦、AR設(shè)備等。

而具身大模型的特點(diǎn)是:擁有一個(gè)身體,最終輸出的對(duì)象是身體的運(yùn)動(dòng)。

銀河通用王鶴:讓具身智能機(jī)器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

這樣來看,自動(dòng)駕駛大模型就是一種典型的具身大模型,比如特斯拉的FSD全自動(dòng)駕駛系統(tǒng),今年8月號(hào)稱要開始無人出租車業(yè)務(wù)Robotaix。

自動(dòng)駕駛大模型的輸入是視覺信號(hào)和終點(diǎn)的位置,輸出是方向盤的動(dòng)作和油門、剎車的大小。機(jī)器人相比于車來說,動(dòng)作空間自由度更高,輸出是底盤或者腿、手臂、手指等全身的運(yùn)動(dòng)。這樣的機(jī)器人大模型也是這幾年學(xué)術(shù)界、工業(yè)界研究的熱點(diǎn)。

谷歌RT-2大模型是端到端的具身大模型代表,能夠把香蕉放到寫有“3”的紙上,把草莓放到正確的碗里?!罢业秸_的碗”,這背后需要大模型的通用感知和理解能力,以及連貫的動(dòng)作生成能力。還有把足球移到籃球旁邊,把可樂罐移到Taylor Swift的照片旁邊,將紅牛移動(dòng)到“H”字母上。

這樣的具身大模型,如果能完全達(dá)到Open-Instruction(開放指令)、Cross-Environment(跨環(huán)境泛化),就能替代大量的體力勞動(dòng)。

今天,全球語言大模型、視頻大模型、圖片大模型、自動(dòng)駕駛大模型的市場(chǎng)規(guī)模都達(dá)到至少千億美元,試問如果能有一個(gè)完成任何指令的機(jī)器人代替人,它的市場(chǎng)規(guī)模會(huì)有多大?可能相比于目前車的市場(chǎng)提升兩到三個(gè)數(shù)量級(jí)。

二、通用機(jī)器人面臨兩大局限性:數(shù)據(jù)來源有限,機(jī)器人反射弧長

谷歌的RT-2大模型背后就是通過多模態(tài)大模型輸出動(dòng)作,那么這樣的大模型是否已經(jīng)成熟了?是否今年我們可以期待有機(jī)器人保姆在家里干活?目前,無論OpenAI、英偉達(dá),還是谷歌,做通用機(jī)器人都還有巨大的局限性

谷歌的技術(shù)局限性第一點(diǎn)在于,具身機(jī)器人數(shù)據(jù)來源非常有限,谷歌在Mountain?Village(美國加州)辦公室的廚房里采集了17個(gè)月,得到13萬條數(shù)據(jù),使得其機(jī)器人在谷歌的廚房里表現(xiàn)可以非常好。

但一旦出了這個(gè)廚房,需要考察其環(huán)境泛化性,它的成功率就從97%驟降到30%左右。并且這種泛化是有選擇的泛化,不是將其直接放到施工工地、非常嘈雜的后廚等場(chǎng)景中,它最大的問題就是數(shù)據(jù)采集沒有辦法做到Scalable(可擴(kuò)展)。

今天,有百萬臺(tái)車主在開特斯拉,為特斯拉的端到端自動(dòng)駕駛模型提供數(shù)據(jù),互聯(lián)網(wǎng)上有無窮無盡的用戶上傳的照片等作為多模態(tài)大模型的數(shù)據(jù),那么機(jī)器人大模型的數(shù)據(jù)在哪兒?這是谷歌、OpenAI、英偉達(dá)沒有完全解決的問題。

第二點(diǎn)局限為,RT-2大模型中包含了谷歌上一代大模型PaLM-E,它的速度只能達(dá)到1~3Hz,機(jī)器人的反射弧長達(dá)0.3秒甚至1秒,這樣的機(jī)器人恐怕你也不敢用。

銀河通用王鶴:讓具身智能機(jī)器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

OpenAI和Figure AI合作用的是小模型,它能夠達(dá)到200Hz的動(dòng)作輸出頻率,大模型如何做到以200Hz的頻率輸出動(dòng)作也成為通用機(jī)器人領(lǐng)域的重要問題。

三、打造三層級(jí)大模型系統(tǒng),解決泛化、響應(yīng)速度難題

今天給大家?guī)硪恍┿y河通用在這個(gè)問題上的探索。

如何能夠做到又快又泛化?泛化說的是數(shù)據(jù)問題,今天真正可以滿足機(jī)器人大模型需求的數(shù)據(jù)且含有動(dòng)作標(biāo)簽的數(shù)據(jù),只能來自于仿真世界、物理傳感器。

在2017年,我讀博士期間就開始研究如何通過仿真生成大量的合成數(shù)據(jù),來訓(xùn)練機(jī)器人的視覺和動(dòng)作。今天我們可以把各種家用電器等物體搬到仿真設(shè)備里面,并且可以真正做到物理仿真,機(jī)器人要沿著一定方向用力拉抽屜,而不是像游戲里面手一過去抽屜就彈開了。如果是那樣的話,機(jī)器人學(xué)到的東西在真實(shí)世界里面沒有用。

我們?cè)诜抡媸澜缋锩娣艥M了各種各樣的物體,賦予它跟真實(shí)世界相同的交互方式,我們?cè)侔褌鞲衅鞣诺椒抡姝h(huán)境里面去訓(xùn)練,就擁有了一個(gè)足夠好的數(shù)據(jù)生成來源。

那么如何做到快?就是小模型,如同OpenAI和Figure AI的小模型一樣,高頻輸出動(dòng)作。三維視覺的小模型給我們帶來了一個(gè)比Figure AI更好的選擇方案。

Figure AI的方案采用了二維視覺模型,二維視覺模型最大的特點(diǎn)是很難泛化。如果你之前在黑色房間做訓(xùn)練,那么換成白色的房間此前的訓(xùn)練就白費(fèi)了。三維視覺看到的是點(diǎn)云、物體的幾何,不會(huì)受光照、紋理、顏色影響。

那么,這樣可以做到泛化、快,還是從仿真數(shù)據(jù)里面學(xué)習(xí)的模型,能不能解決我們真實(shí)世界開放與易操作的問題?今天我把我們做的標(biāo)志性成果跟大家分享一下。

銀河通用王鶴:讓具身智能機(jī)器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

我們用的是三層級(jí)大模型系統(tǒng),底層是硬件層,中間層是通過仿真合成數(shù)據(jù)不用任何真實(shí)世界數(shù)據(jù)訓(xùn)練的泛化的技能,包括自主建圖、自主導(dǎo)航、物體抓取、開門開抽屜開冰箱、移動(dòng)操作、掛衣服疊衣服柔性物體操作的泛化技能。

這里談泛化的原因?yàn)椋覀兛梢栽诜抡姝h(huán)境里生成千萬級(jí)場(chǎng)景,十億規(guī)模的動(dòng)作來訓(xùn)練機(jī)器人,讓其可以應(yīng)對(duì)各種真實(shí)世界的情形和挑戰(zhàn)。這種采集方式,相對(duì)于在真實(shí)世界里用遙控器遙控機(jī)器人采集具有極高的效率和豐富的數(shù)據(jù)來源。

最上層是大模型,可以調(diào)度中間技能API,來實(shí)現(xiàn)完整的從任務(wù)的感知、規(guī)劃到執(zhí)行的全流程。

四、大型仿真平臺(tái)Open6DOR,破解六自由度操作難題

先展示第一個(gè)例子,我們如何做開放語義關(guān)節(jié)類物體的操作。

我們與斯坦福大學(xué)合作,機(jī)器人執(zhí)行開關(guān)微波爐、開鍋、使用攪拌機(jī)等任務(wù)時(shí),背后不是靠我們?nèi)グ€(gè)訓(xùn)練不同類別,而是直接在這些物體上測(cè)試我們的模型。

這一技能來源于CVPR 2023的滿分論文,我們提供了世界上第一個(gè)以零件為中心的數(shù)據(jù)集,該數(shù)據(jù)集覆蓋了各種家用電器上可能存在的主要操作零部件,包括旋轉(zhuǎn)蓋、推蓋、轉(zhuǎn)鈕、按鈕、直線把手、圓形把手、門等。

然后我們把這些零部件放在仿真世界里面,并標(biāo)注了它的位姿、所有軸的使用方法,從而幫助推理相應(yīng)開門等操作的方法。

這樣的合成數(shù)據(jù)集就能教機(jī)器人如何去開生活中沒見過的柜子,機(jī)器人只要有三維點(diǎn)云、找到把手的位置,正確抓取把手在沿著柜子的方向一拉就可以打開任何抽屜。

我們的實(shí)驗(yàn)也證實(shí)了機(jī)器人可以完全依賴仿真世界的數(shù)據(jù),實(shí)現(xiàn)真實(shí)世界里關(guān)節(jié)類物體的泛化操作,包括沒見過的物體類別,如遙控器、計(jì)算器、圓形把手的鍋蓋等。圖上面是三維視覺的輸出,下面是機(jī)器人技能的展示。

銀河通用王鶴:讓具身智能機(jī)器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

這樣的技能如何與大模型相結(jié)合?GPT-4V與我們十分互補(bǔ),GPT-4V是典型的二維語言雙模態(tài)大模型,它具有很強(qiáng)的推理和感知能力。但其缺點(diǎn)在于,會(huì)偶爾看不出來,對(duì)物體零部件的數(shù)量判斷錯(cuò)誤,且不知道零部件在三維空間中的具體位置,定位能力為零。

三維視覺的模型就可以提供GPT-4V檢測(cè)到零部件的數(shù)量、位置和形態(tài),把它作為Prompt交給GPT-4V,讓它去思考這個(gè)東西怎么去用。

我舉一個(gè)例子,當(dāng)我們直接把檢測(cè)到的微波爐零部件交給GPT-4V作為Prompt時(shí),讓它生成關(guān)于這個(gè)場(chǎng)景的綜合描述,它會(huì)說這個(gè)微波爐有直線門、直線把手、按鈕和旋鈕,然后問它:“如果我想打開微波爐,我應(yīng)該動(dòng)哪個(gè)零部件?使用哪個(gè)API?”

大模型的回應(yīng)是“動(dòng)把手,調(diào)用的API是繞門軸轉(zhuǎn)90度”。那么,把手在哪里、門軸在哪里是三維視覺給它的,GPT-4V不能輸出三維的坐標(biāo)和位置。

銀河通用王鶴:讓具身智能機(jī)器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

然后機(jī)器人嘗試時(shí),我們發(fā)現(xiàn)這個(gè)操作看似合理,但實(shí)際操作卻打不開,這是為什么?因?yàn)槲⒉t不可以靠蠻力開,這時(shí)候我們將“門沒有打開,只旋轉(zhuǎn)了零點(diǎn)幾度”的三維視覺反饋給GPT-4V,問它接下來怎么辦。

大模型給出操作時(shí),可以調(diào)用檢測(cè)出的按鈕再開門。這體現(xiàn)了大模型通過豐富的語料訓(xùn)練,已經(jīng)產(chǎn)生了足夠多的知識(shí)。我們可以直接信任它進(jìn)行操作。

這樣的例子很多,我們最開始講的家用電器的零部件,GPT-4V知道零部件的位置等就可以進(jìn)行操作。這是真正的Open-Instruction(開放指令),它關(guān)于環(huán)境是泛化的,不受環(huán)境的顏色、光照影響,只關(guān)心幾何。

第二個(gè)例子是如何做到六自由度物體的自由擺放。六自由度指的是三自由度的平動(dòng)、三自由度的轉(zhuǎn)動(dòng)。

谷歌的工作是三自由度的開放語義操作,它只能做到放在哪兒,不能做到朝哪兒放,其沒有方向改概念只有位置概念。我們?cè)谌蚵氏忍岢鲎烂婕?jí)操作要解決的里程碑難題就是六自由度操作,能夠在桌面同時(shí)執(zhí)行位置和朝向的指令,我們將其命名為Open6DOR。

Open6DOR是大型仿真平臺(tái),里面包含2500個(gè)各種各樣的任務(wù)。這些任務(wù)不用于訓(xùn)練,而是拿來檢測(cè)具身多模態(tài)大模型能不能完成,這其中有200多個(gè)家用常用物體。

其主要關(guān)注三類任務(wù)追蹤,第一是只關(guān)心位置,比如把蘋果放到勺子的右邊、把瓶子放到錘子和改錐的中間,這就是Position-track;第二是Rotation-track,把錘子沖向左、易拉罐的標(biāo)簽朝左、把碗上下顛倒。而實(shí)際我們需要的是Position+Rotation的任務(wù)執(zhí)行,也就是六自由度Track,比如把盒子放到鍋和鍋蓋之間并讓標(biāo)簽沖上,或者把卷尺放到中間且讓它立起來,像這樣的操作是桌面級(jí)操作里的關(guān)鍵性里程碑。

銀河通用王鶴:讓具身智能機(jī)器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

誰能夠率先完成2500個(gè)任務(wù),就說明你的大模型已經(jīng)初步具備了Open Instuction能力。

五、三維視覺小模型快速生成動(dòng)作,大模型規(guī)劃

目前,針對(duì)2000多個(gè)任務(wù),我們自己提了一套方法。

首先是抓取能力,這是銀河通用的獨(dú)有技術(shù),我們研發(fā)出全球首個(gè)可以實(shí)現(xiàn)基于仿真合成數(shù)據(jù)訓(xùn)練任意材質(zhì)的技術(shù)。通過海量的合成數(shù)據(jù),我們?cè)谌虻谝淮芜_(dá)到了跨場(chǎng)景、跨物體材質(zhì)、跨形態(tài)、跨物體擺放實(shí)現(xiàn)泛化抓取,并且首次達(dá)到95%的抓取成功率。

此外,對(duì)于純透明、純反光等物體的泛化抓取對(duì)于二維視覺、三維視覺都有極大的挑戰(zhàn)性??梢钥吹?,我們的方法能實(shí)時(shí)將透明高光物體的深度進(jìn)行重建,并據(jù)此進(jìn)行物體抓取。

下圖中演示的抓取不是簡單的從上往下抓,它其實(shí)是六自由度的抓取,既有三自由度的轉(zhuǎn)動(dòng),又有三自由度的平動(dòng)。此外,當(dāng)其耦合大模型后,可以實(shí)現(xiàn)開放語義的物體抓取,從抓取能力上今年我們已經(jīng)實(shí)現(xiàn)了泛化的一指令抓取。

銀河通用王鶴:讓具身智能機(jī)器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

那么如何做到位置抓取有效?下面四張圖演示的指令分別是,抽一張紙蓋在改錐上、把瓶子豎直放到紅碗里、把足球放到抽屜里、把水豚放到金屬杯子里面。

它背后是怎么做的?首先我們要用GPT-4V提取指令中的關(guān)鍵信息,這里的指令是“把水豚放到寫著‘Open6DOR’的紙上,并且把水豚沖前”,我們用GPT-4V+Grounded-SAM把所有的物體進(jìn)行分割,并且把其三維Bounding Box(邊界框)輸出給GPT-4V。GPT-4V理解這些物體現(xiàn)在的位置后,就會(huì)輸出應(yīng)該把物體放在哪個(gè)位置的指令。

那么旋轉(zhuǎn)怎么辦?GPT-4V是否可以直接輸出旋轉(zhuǎn)矩陣?輸出機(jī)械臂左轉(zhuǎn)上轉(zhuǎn)橫轉(zhuǎn)分別多少度?答案是不能,GPT-4V沒有這個(gè)能力,它并不知道轉(zhuǎn)軸在哪里。

我們?cè)谌蛱岢隽?span style="color: #0f59a4;">Real-same-real的Pipeline,先將真實(shí)物體在仿真環(huán)境里面重建,再把重建的物體Mesh自由落體撒滿整個(gè)仿真環(huán)境,讓物體處于各種可能待的位置。然后將這些位置交給GPT-4V評(píng)判,誰滿足語言指令的需求,隨后GPT-4V通過兩輪篩選,選擇出符合指令物體的擺放位置。

銀河通用王鶴:讓具身智能機(jī)器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

這樣的仿真是全并行,可以很快完成,其中比較慢的就是GPT-4V需要在很多張圖里選最好的一張圖。我們會(huì)將十張圖拼成一張圖,上面打出標(biāo)簽0~9,GPT-4V直接輸出選擇哪個(gè),可以同時(shí)解決位置在哪兒、朝向在哪兒的問題,后面就用我們的抓取算法結(jié)合路徑規(guī)劃,將任務(wù)完成。

我今天談的例子是,當(dāng)我們用GPT-4V端到端去做動(dòng)作生成時(shí),它并不快,就像視頻生成現(xiàn)在是離線的一樣。而機(jī)器人需要在線實(shí)時(shí)生成,因此我們提出了用中間的三維視覺小模型進(jìn)行動(dòng)作快速生成,大模型進(jìn)行規(guī)劃的三層級(jí)思路。

但未來還是端到端,誰能做好端到端的視覺、語言、動(dòng)作大模型?這里隱含了一個(gè)條件——沒有做好小模型的公司、沒有能讓動(dòng)作小模型泛化的公司,不可能讓大模型泛化。因?yàn)榇竽P驮趩我蝗蝿?wù)上的數(shù)據(jù)需求遠(yuǎn)高于小模型。

銀河通用攜帶著一系列從抓取、放置、柔性物體操作到關(guān)節(jié)類物體操作等各種小模型,我們將百川歸海,最終融匯到大模型里實(shí)現(xiàn)通用機(jī)器人。在這一點(diǎn)上,我們已經(jīng)率先打造了全球首個(gè)跨場(chǎng)景泛化的導(dǎo)航大模型,你可以用一句話讓機(jī)器人在沒見過的環(huán)境里面跟著指令走,這樣的機(jī)器人沒有任何三維定位、建圖、激光雷達(dá),只有圖片作為輸入,這與人走路找路的方式一模一樣。

我們相信這樣通用、泛化的端到端的Vision Language Action Model(視覺語言動(dòng)作大模型)將迅速革命現(xiàn)有的機(jī)器人產(chǎn)業(yè)格局,在非具身大模型和自動(dòng)駕駛大模型之后創(chuàng)造出一條萬億的賽道。

銀河通用成立于去年6月,用10個(gè)月的時(shí)間完成四輪融資,累計(jì)融資額達(dá)到1億美元,我們有一眾明星投資人。

以上是王鶴演講內(nèi)容的完整整理。