EAIRCon 2025中國(guó)具身智能機(jī)器人大會(huì)是由智猩猩面向具身智能與機(jī)器人領(lǐng)域發(fā)起主辦的大型會(huì)議,由主論壇+專(zhuān)題論壇+研討會(huì)+展覽區(qū)四大板塊組成,近40位產(chǎn)業(yè)代表與青年科研人員與會(huì)分享和討論,線(xiàn)下參會(huì)觀(guān)眾超過(guò)1000人。

極佳科技聯(lián)合創(chuàng)始人、首席科學(xué)家朱政博士受邀在大會(huì)分會(huì)場(chǎng)二上午的具身世界模型技術(shù)研討會(huì)帶來(lái)了報(bào)告,主題為《世界模型:從語(yǔ)言智能走向物理智能》。

朱政博士首先介紹了物理智能和世界模型的基本概念。他指出,物理智能注重對(duì)于4D物理世界的理解、生成、常識(shí)和推理,可能是除語(yǔ)言智能之外,通往通用智能的第二條技術(shù)路徑。

世界模型本質(zhì)上是一個(gè)預(yù)測(cè)模型,旨在預(yù)測(cè)給定動(dòng)作下事物狀態(tài)的演變。朱政博士表示,之所以給汽車(chē)、機(jī)器人等Agent建立世界模型,是受人的智能學(xué)習(xí)方式為啟發(fā)。

接著,他介紹了團(tuán)隊(duì)在自動(dòng)駕駛世界模型領(lǐng)域圍繞數(shù)據(jù)生成和閉環(huán)仿真所開(kāi)展的一些工作。朱政博士認(rèn)為,所有的通用智能問(wèn)題都正在走向端到端,而端到端的核心正是世界模型。

最后,朱政博士介紹了團(tuán)隊(duì)在具身智能世界模型上的多項(xiàng)工作,包括EMMA EgoDemoGen、MimicDreamer等,以及最新提出的由世界模型驅(qū)動(dòng)的VLA系統(tǒng)GigaBrain-0。他表示,希望VLA會(huì)融合一部分世界模型的知識(shí),變成下一代的WA (World Action Model)。

以下為朱政的報(bào)告全文:

朱政:感謝主持人的介紹,感謝智猩猩的邀請(qǐng)。今天我給大家分享的主題是《世界模型:從語(yǔ)言智能走向物理智能》

首先給大家介紹一下物理智能和世界模型的一些基本概念。然后給大家匯報(bào)一下我們?cè)谧詣?dòng)駕駛世界模型數(shù)據(jù)生成方面的一些工作。數(shù)據(jù)生成做完了,下一步自動(dòng)駕駛世界模型的主要應(yīng)用是要進(jìn)行閉環(huán)仿真來(lái)訓(xùn)練強(qiáng)化學(xué)習(xí)算法。最后給大家匯報(bào)一下,我們從自動(dòng)駕駛遷移到具身智能的場(chǎng)景,在具身智能世界模型上面也進(jìn)行了一系列探索。

一、物理智能與世界模型

首先看一下人工智能的發(fā)展歷史,其實(shí)是從封閉域走向開(kāi)放域的過(guò)程,從感知走向認(rèn)知決策的過(guò)程。如果把語(yǔ)言模型看作是一維的數(shù)據(jù),那么圖像或者視頻就可以認(rèn)為是2D、2.5D或3D的數(shù)據(jù)。3D空間再加上一維的時(shí)間,就形成了4D時(shí)間。這也是空間智能包括世界模型主要探索的對(duì)象。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

物理智能,注重對(duì)于4D物理世界的理解、生成、常識(shí)和推理。它的最終目標(biāo)就是實(shí)現(xiàn)機(jī)器人agent、自動(dòng)駕駛車(chē)輛、人形機(jī)器人在4D空間中的交互和理解。這些大家最熟悉的就是駕駛或者機(jī)器人。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

我們認(rèn)為物理智能可能是除了語(yǔ)言智能之外,通往通用智能的第二條技術(shù)路徑。大家的終極目標(biāo)都是一樣的,最后到行動(dòng),與物理世界進(jìn)行交互。但是語(yǔ)言智能更多是對(duì)內(nèi),它是從思維鏈COT出發(fā),然后到最后的交互。物理智能更多的是對(duì)外,從交互出發(fā)到最后的行動(dòng)。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

看一下世界模型的具體定義。世界模型在很多時(shí)候我們認(rèn)為它是一個(gè)預(yù)測(cè)的模型,目的就是要預(yù)測(cè)事物在給定動(dòng)作下的演變。這個(gè)“給定動(dòng)作”就是我們所說(shuō)的條件,在不同領(lǐng)域會(huì)有不同的condition。比如在Sora里邊,給定條件就是一段文本??梢宰鑫纳曨l、文+圖生視頻。在自動(dòng)駕駛里面,可以認(rèn)為是方向盤(pán)的轉(zhuǎn)角,或油門(mén)的加減速。在具身智能機(jī)器人領(lǐng)域里,可能是關(guān)節(jié)的位置或末端的位姿等。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這就是為什么我們需要給agent,包括汽車(chē)、機(jī)器人,建立世界模型,主要是因?yàn)槲覀兪艿搅艘匀藶閱l(fā)的智能學(xué)習(xí)方式。人會(huì)使用有限的感官,比如視覺(jué)、觸覺(jué)、嗅覺(jué)來(lái)感知世界,會(huì)在內(nèi)部建立一個(gè)簡(jiǎn)化的世界模型,我們的角色包括行動(dòng)都是基于這個(gè)內(nèi)部模型。

這里給大家簡(jiǎn)單介紹一下,我們?yōu)槭裁匆⒁粋€(gè)內(nèi)部模型?為什么不能靠實(shí)時(shí)感知來(lái)與世界交互。假如只靠實(shí)時(shí)感知的話(huà),是沒(méi)辦法預(yù)測(cè)世界可能出現(xiàn)的危險(xiǎn)或各種變故的。比如一個(gè)老司機(jī)在開(kāi)車(chē)的時(shí)候,他除了會(huì)實(shí)時(shí)感知外部的行人、車(chē)輛之外,還會(huì)對(duì)未來(lái)發(fā)生的危險(xiǎn)進(jìn)行預(yù)判。比如他可以通過(guò)觀(guān)測(cè)一個(gè)路口的行人,就能判斷這個(gè)行人是要停下等待車(chē)輛通行,還是穿過(guò)十字路口,這個(gè)時(shí)候司機(jī)就應(yīng)該做避讓。

再比如一個(gè)職業(yè)的棒球運(yùn)動(dòng)員,可以在0.0幾秒之內(nèi)接到一個(gè)高速飛行的棒球。但在這個(gè)時(shí)間內(nèi),其實(shí)視覺(jué)信號(hào)還沒(méi)有從視網(wǎng)膜傳到大腦皮層,實(shí)時(shí)感知系統(tǒng)還來(lái)不及處理這個(gè)信號(hào)。但是因?yàn)槿说膬?nèi)部有一套預(yù)測(cè)系統(tǒng),也就是所謂的世界模型,它可以提前對(duì)事物的未來(lái)發(fā)展?fàn)顟B(tài)進(jìn)行預(yù)測(cè)。人之所以能夠在多變的世界里邊與之交互,很大程度得益于世界模型。當(dāng)然,自動(dòng)駕駛車(chē)輛或人形機(jī)器人,更需要這樣的能力。

這張片子大家應(yīng)該在很多場(chǎng)合都看過(guò),就是Yann LeCun認(rèn)為,人類(lèi)的大腦可以分為這么幾部分:Configurator、Perception、World Model、短時(shí)記憶、Cost、Actor。其中,World Model可能是連接其他幾個(gè)部分最重要的橋梁。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

其實(shí)在很多領(lǐng)域大家都在談?wù)撌澜缒P?,包括視頻生成、自動(dòng)駕駛、agent(人形機(jī)器人)領(lǐng)域。這幾個(gè)領(lǐng)域的世界模型研究是比較廣泛的,分別有一些基本的任務(wù)和應(yīng)用場(chǎng)景。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

二、自動(dòng)駕駛世界模型-數(shù)據(jù)生成

介紹完背景之后,接下來(lái)和大家匯報(bào)一下我們?cè)谧詣?dòng)駕駛世界模型數(shù)據(jù)生成上的一些工作。

首先來(lái)看一下,我們認(rèn)為所有的通用智能問(wèn)題,比如數(shù)字世界里的語(yǔ)言模型或者視頻生成模型,物理世界的像特斯拉的FSD或者Optimus,都在走向端到端。我們認(rèn)為端到端的核心就是世界模型。這里面包括了世界模型可以提供閉環(huán)模擬器,也可以建立高質(zhì)量的4D閉環(huán)數(shù)據(jù)。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

我們可以看一下之前在沒(méi)有世界模型的時(shí)候,大家采數(shù)據(jù)是怎么采的。我們可以通過(guò)互聯(lián)網(wǎng)數(shù)據(jù)作預(yù)訓(xùn)練,通過(guò)仿真數(shù)據(jù)也做預(yù)訓(xùn)練,或通過(guò)車(chē)隊(duì)的實(shí)采數(shù)據(jù)、遙操數(shù)據(jù)做后訓(xùn)練。但是這里邊缺點(diǎn)其實(shí)是比較明顯的。比如互聯(lián)網(wǎng)數(shù)據(jù)或仿真數(shù)據(jù)缺乏真實(shí)性;實(shí)采數(shù)據(jù)、遙操作數(shù)據(jù)成本比較高,Corner case少,效率低。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

如果我們用世界模型代替?zhèn)鹘y(tǒng)的方式采集數(shù)據(jù),總結(jié)為四個(gè)字叫“多快好省”。

就是可以規(guī)?;纳?。因?yàn)镚PU可以并行化的生成。

就是不受限制。

就是可以挑選生成Corner case或者長(zhǎng)尾的分布,它的價(jià)值密度比較高。

的話(huà)就是GPU的成本相比較車(chē)隊(duì)或者本體,還是很低的。

接下來(lái)給大家匯報(bào)一下我們?cè)缧┠甑囊恍┕ぷ鳌?/p>

DriveDreamer是我們2023年做的,現(xiàn)在已經(jīng)成為常用的一個(gè)baseline。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這是我們生成多種不同的天氣、背景、時(shí)間等。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這是根據(jù)結(jié)構(gòu)化信息可以生成,根據(jù)文本的控制,像晴天、雨天、夜晚這樣一些場(chǎng)景。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

然后我們給定相同的初始值,改變模型的輸入,也可以生成不同的未來(lái)。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

其實(shí)世界模型本身就是一個(gè)VLA,因?yàn)轭A(yù)測(cè)未來(lái)和預(yù)測(cè)未來(lái)的action其實(shí)是一回事。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

在DriveDreamer里面,結(jié)構(gòu)化信息一般來(lái)自于數(shù)據(jù)集。但像nuScenes、nuPlan或Waymo,它的數(shù)據(jù)集是預(yù)先采集好的離線(xiàn)數(shù)據(jù)。所以想改變它的結(jié)構(gòu)化信息,比如人工改變不是那么方便。所以我們?cè)?span style="color: #0f59a4;">DriveDreamer-2里面引入了語(yǔ)言模型,就可以用語(yǔ)言模型去定制化的先生成結(jié)構(gòu)化信息,再根據(jù)結(jié)構(gòu)化信息去生成周視的視頻。

比如在這張圖里邊,我想生成一個(gè)雨天車(chē)輛Cut-in的場(chǎng)景。我先送給一個(gè)結(jié)構(gòu)化信息的生成器,再生成結(jié)構(gòu)化信息,進(jìn)而就可以生成周視的視頻。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

接下來(lái)看一下可視化的結(jié)果。第一行、第二行、第三行分別是白天、雨天、夜晚,車(chē)輛突然從右邊超車(chē)。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

上面是下雨天,下面是白天的一些場(chǎng)景。這些都是在nuScenes上的一些結(jié)果。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

三、自動(dòng)駕駛世界模型-閉環(huán)仿真

講完了數(shù)據(jù)生成之后,接下來(lái)講講自動(dòng)駕駛世界模型閉環(huán)仿真。

大家都知道,關(guān)于自動(dòng)駕駛車(chē)輛,像一些自動(dòng)駕駛公司或者車(chē)企,這些年積累了幾乎上億公里的數(shù)據(jù)。但為什么我們剛才還要做自動(dòng)駕駛的數(shù)據(jù)生成呢?

因?yàn)?span style="color: #0f59a4;">在這些數(shù)據(jù)里面,99%的數(shù)據(jù)可能都是晴天道路直行的數(shù)據(jù),Corner case長(zhǎng)尾分布非常少。所以這些有價(jià)值的數(shù)據(jù)常常被淹沒(méi)海量數(shù)據(jù)里邊。而用模仿學(xué)習(xí)在學(xué)習(xí)到的時(shí)候,又只能學(xué)習(xí)到數(shù)據(jù)的平均分布,很難學(xué)習(xí)到面對(duì)長(zhǎng)尾問(wèn)題應(yīng)該怎么處理。所以我們要做數(shù)據(jù)生成。

做完數(shù)據(jù)生成之后,我們訓(xùn)了BEV的算法,訓(xùn)了一些端到端的算法。接下來(lái)就是因?yàn)榇竽P偷呐d起,很多自動(dòng)駕駛公司開(kāi)始采用VLA方案。VLA方案一個(gè)很重要的問(wèn)題是需要進(jìn)行閉環(huán)仿真,而世界模型在閉環(huán)仿真領(lǐng)域也有很大用處。

接下來(lái)可以看一下我們幾個(gè)探索性的工作。

首先看一下自動(dòng)駕駛的發(fā)展歷史,以及我們?yōu)槭裁匆鲩]環(huán)仿真。自動(dòng)駕駛從2D感知,到BEV的3D感知時(shí)代,然后到端到端時(shí)代。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

當(dāng)然端到端會(huì)引入很多的優(yōu)點(diǎn),這里我就不再贅述了。同時(shí)也有一些缺點(diǎn),有兩個(gè)比較重要的缺點(diǎn):

第一個(gè)是它的可解釋性下降了,我們需要更系統(tǒng)的測(cè)試手段。

第二個(gè)是車(chē)輛的行為會(huì)影響所獲取的圖像。所以沒(méi)辦法像感知一樣進(jìn)行開(kāi)環(huán)的評(píng)測(cè),必須要進(jìn)行閉環(huán)的評(píng)測(cè)。這樣才能在車(chē)輛偏離錄制行為的時(shí)間,以初始的圖像作為condition,來(lái)生成新行為下的圖像,這就是所謂的閉環(huán)仿真。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

閉環(huán)仿真,大概有幾種做法。比如通過(guò)CARLA模擬器;一些游戲的引擎或三維重建的仿真;也可以通過(guò)我們剛才所講的2D世界模型。但是他們都有一些缺點(diǎn),大家也都比較明確了,我就不再贅述了。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

為了避免像DriveDreamer、DriveDreamer-2這些2D視頻所帶來(lái)的閉環(huán)仿真的挑戰(zhàn),我們?cè)?span style="color: #0f59a4;">DriveDreamer4D里引入了重建,它是聯(lián)合了生成+重建。通過(guò)結(jié)構(gòu)化信息生成的視頻,可以加到重建模型里,來(lái)填補(bǔ)它沒(méi)有見(jiàn)過(guò)新視角的缺陷。這樣它新老視角都見(jiàn)過(guò),會(huì)重建的更好。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

具體來(lái)說(shuō),像DriveDreamer4D里,我們會(huì)利用首幀+結(jié)構(gòu)化信息生成一些新軌跡的視頻,然后把新老軌跡混合起來(lái)訓(xùn)練4DGS??窟@么一套Pipeline下來(lái),我們?cè)诙鄠€(gè)方法里都達(dá)到SOTA的結(jié)果。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

以下是PVG的結(jié)果。左邊原始的PVG有很多偽點(diǎn)、浮影等,但右邊都比較好的被克服了。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這是Deformable-GS的結(jié)果。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這是S3Gaussian的結(jié)果。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

然后這些定量化的結(jié)果我就不再贅述了,大家有興趣的話(huà)可以看一下我們的文章。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

在做完DriveDreamer4D的時(shí)候,其實(shí)有進(jìn)一步挖掘的空間。在上一篇工作里面,我們是直接用生成的方法去生成新視角的數(shù)據(jù),加給重建模型進(jìn)行訓(xùn)練。但這種方式?jīng)]有做到生成和重建聯(lián)合優(yōu)化。

所以我們?cè)谶@ReconDreamer這篇工作里,先對(duì)場(chǎng)景進(jìn)行重建。重建完之后,可以渲染新視角的視頻。當(dāng)然這個(gè)時(shí)候因?yàn)樗鼪](méi)有見(jiàn)過(guò)新視角,所以一定會(huì)有各種偽點(diǎn)、浮影等,甚至有大量的黑塊。然后再送給視頻生成模型進(jìn)行修復(fù),修復(fù)完之后的數(shù)據(jù)再經(jīng)過(guò)一個(gè)循環(huán)提供給重建模型,這樣就可以做到兩者聯(lián)合優(yōu)化。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

左邊是直接在新視角下渲染的結(jié)果,右邊是經(jīng)過(guò)視頻生成修復(fù)模型之后修復(fù)的結(jié)果,可以發(fā)現(xiàn)效果有了非常大的提升。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這是我們?cè)诋?dāng)時(shí)第一次做到了可以偏移兩個(gè)車(chē)道,也就是偏移6米之后的結(jié)果。

相比較之前的Street Gaussians,或DriveDreamer4D,還是有非常大的提升。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

然后我們做了非常多其他數(shù)據(jù)集的一些結(jié)果,包括nuScenes數(shù)據(jù)集,定量化結(jié)果就不再贅述了。

因?yàn)槲覀儼l(fā)現(xiàn)ReconDreamer這一套工作確實(shí)比較有潛力,所以在持續(xù)挖掘。我們發(fā)現(xiàn)ReconDreamer有一個(gè)問(wèn)題:雖然新視角的渲染質(zhì)量提升很大,但在原視角是有所下降的。那么新老視角兩個(gè)能不能同時(shí)提升呢?我們發(fā)現(xiàn)在ReconDreamer++里面是可以的。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

具體來(lái)說(shuō),我們現(xiàn)在是把整個(gè)場(chǎng)景解耦為路面、背景、前景、動(dòng)態(tài)物體,來(lái)提升它的幾何一致性。另外,我們會(huì)把新軌跡的偏移作為輸入,來(lái)修正高斯球的參數(shù)。這樣可以緩解生成的新視角數(shù)據(jù)和原視角數(shù)據(jù)之間的的gap。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

我們接下來(lái)看一下實(shí)驗(yàn)的結(jié)果。這是我們?cè)赪aymo原軌跡下的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)原軌跡也沒(méi)有下降,可以保持的很好。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

然后偏移3米,就是偏移一個(gè)車(chē)道,效果也有了大幅度的提升。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

另外,我們還做了非常多跨數(shù)據(jù)集的實(shí)驗(yàn),比如Pandaset的實(shí)驗(yàn)、nuScenes的實(shí)驗(yàn)。

這是一些定量化的結(jié)果。因?yàn)闀r(shí)間關(guān)系,我就不再贅述了。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

剛才講了非常多,生成+重建的工作進(jìn)行閉環(huán)仿真。閉環(huán)仿真的一個(gè)很重要的目標(biāo)就是和強(qiáng)化學(xué)習(xí)相結(jié)合。因?yàn)閺?qiáng)化學(xué)習(xí)可以探索出更廣泛的搜索空間,是可以超越人類(lèi)水平,甚至超越老司機(jī)的絲滑程度。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

那么,如果把強(qiáng)化學(xué)習(xí)引入到剛才的ReconDreamer里會(huì)發(fā)生什么呢?可以來(lái)看一下。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

因?yàn)橹暗膹?qiáng)化學(xué)習(xí)算法都是在模擬器里訓(xùn)練的,或者像RAD是在3DGS里進(jìn)行訓(xùn)練的,所以對(duì)新視角的探索可能是不足的。為了避免這種情況出現(xiàn),用了前面生成+重建的一套pipeline。它可以同時(shí)在原軌跡和新軌跡下為強(qiáng)化學(xué)習(xí)算法提供一個(gè)高質(zhì)量的傳感器數(shù)據(jù)的反饋。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

另外,我們會(huì)采用一些動(dòng)力學(xué)的模型來(lái)確保車(chē)輛運(yùn)動(dòng)軌跡,在物理上是可行的。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

另外,在訓(xùn)練強(qiáng)化學(xué)習(xí)算法時(shí),大家都知道有一個(gè)痛點(diǎn),就是現(xiàn)在的數(shù)據(jù)集里長(zhǎng)尾分布實(shí)在是太少了。比如他車(chē)變道、自車(chē)變道,或者像一些行人鬼探頭等。所以我們對(duì)像nuScenes或nuPlan這類(lèi)數(shù)據(jù)集也做了非常多的增強(qiáng)。像DriveDreamer-2里,我們可以通過(guò)文本來(lái)生成他車(chē)變道,包括自車(chē)變道的行為,可以把nuScenes數(shù)據(jù)這樣的長(zhǎng)尾分布進(jìn)行比較明顯的改善。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

接下來(lái),看一下可視化的實(shí)驗(yàn)結(jié)果。上面是RAD,它在各種Corner case下碰撞率還是比較高的。但在下面的DriveDreamer-RL里邊,基本可以避免碰撞的發(fā)生。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

四、具身智能世界模型

最后一部分是在具身智能世界模型上。

我們發(fā)現(xiàn)appearance,就是物體的外觀(guān)對(duì)于VLA的魯棒性影響非常大。外觀(guān)形成的因素比較復(fù)雜,包括物體的顏色、材質(zhì)、光照、拍攝時(shí)間不同等,都會(huì)對(duì)VLA的魯棒性帶來(lái)比較大的挑戰(zhàn)。所以我們通過(guò)EMMA這個(gè)工作,對(duì)于柔體、流體、剛體的外觀(guān)做了非常多的增強(qiáng)。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

第一行是在真機(jī)實(shí)采下的一些白色衣服,或在仿真器里布置的一些場(chǎng)景。

第二行是condition的信息,我們用的是depth的信息,這個(gè)信息比較容易獲取,也比較快速。

第三行、第四行分別是一些其他方法,比如我們最新的一些EMMA的結(jié)果。我們現(xiàn)在可以通過(guò)控制條件對(duì)多視角一致的顏色、紋理、材質(zhì)進(jìn)行比較好的增強(qiáng)。

這里包括了兩部分:

第一部分是一個(gè)DreamTransfer的模塊,主要負(fù)責(zé)數(shù)據(jù)生成;

第二部分是生成了數(shù)據(jù)之后,怎么把生成的數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行優(yōu)雅的混合,用一種比較好的策略來(lái)訓(xùn)練VLA。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

DreamTransfer訓(xùn)完之后,它的控制條件是Prompt+Depth的信息。多視角一致,是通過(guò)聯(lián)合建模得到的。模型訓(xùn)練之后,可以通過(guò)自然語(yǔ)言指令,對(duì)真實(shí)或者仿真的數(shù)據(jù),進(jìn)行各種表觀(guān)、背景及光照條件的編輯。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這是我們一些定量的結(jié)果,就不再贅述了。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

數(shù)據(jù)生成之后,因?yàn)樯傻臄?shù)據(jù)受視頻生成模型的限制,不一定所有生成的數(shù)據(jù)質(zhì)量都是很高的,里面充斥著大量的低質(zhì)量數(shù)據(jù)。所以我們需要先根據(jù)一系列定義好的Metrics進(jìn)行篩選。篩選完之后和真實(shí)數(shù)據(jù)聯(lián)合訓(xùn)練VLA的時(shí)候,還需要對(duì)樣本進(jìn)行自動(dòng)化權(quán)重的分配,讓模型關(guān)注到這些困難的樣本,關(guān)注到Corner case,以便提升VLA的魯棒性。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這是我們定量化的實(shí)驗(yàn)結(jié)果??梢园l(fā)現(xiàn),相比較僅用真實(shí)數(shù)據(jù),在一個(gè)全新的測(cè)試機(jī)器人上,面對(duì)沒(méi)有見(jiàn)過(guò)的顏色、光照上成功率只有28%。但是加上我們的數(shù)據(jù)增強(qiáng)之后,成功率可以達(dá)到65%。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

進(jìn)一步再加上混合訓(xùn)練策略,成功率可以進(jìn)一步達(dá)到78%;并且執(zhí)行軌跡的質(zhì)量也有所提高,平均執(zhí)行時(shí)間變短了。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

接下來(lái)看一下可視化的效果。第一行是真機(jī)采集的數(shù)據(jù),第二行是我們的condition,第三行是我們生成的多視角一致增強(qiáng)之后的數(shù)據(jù)。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這是一些仿真實(shí)驗(yàn)的結(jié)果。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這里是更多的一些實(shí)驗(yàn)結(jié)果。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

接下來(lái)看一下VLA的實(shí)驗(yàn)結(jié)果。這個(gè)模型在訓(xùn)練的時(shí)候只見(jiàn)過(guò)白色或黑色的工服。但在測(cè)試時(shí)可以疊各樣顏色、款式或紋理等的衣服。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

在這個(gè)實(shí)驗(yàn)里,雖然訓(xùn)練時(shí)只見(jiàn)過(guò)白色的碗,但是inference時(shí)對(duì)不同的顏色的陶瓷碗,也可以比較好的處理。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這是一個(gè)扔瓶子的實(shí)驗(yàn),訓(xùn)練時(shí)只見(jiàn)過(guò)怡寶礦泉水瓶,但是對(duì)于碳酸飲料瓶、可樂(lè)瓶子,都可以比較好的處理。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

講完這個(gè)表觀(guān)變化之后,其實(shí)機(jī)器人在操作時(shí)還有非常多其他的挑戰(zhàn)。比如另一個(gè)挑戰(zhàn)是視角的變化,尤其是在機(jī)器人加裝了移動(dòng)底盤(pán)的時(shí)候。因?yàn)椴豢赡艽_保移動(dòng)底盤(pán)每次都恰好停在同一個(gè)位置進(jìn)行操作,它靠前、靠后、靠左、靠右都有可能的。所以VLV的策略需要對(duì)視角也做到魯棒。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這個(gè)時(shí)候,我們可以通過(guò)一系列方法對(duì)于視角也進(jìn)行增強(qiáng)。比如可以先進(jìn)行視角的變換,然后進(jìn)行一個(gè)action retargeting,最后就可以把原視角變換成新視角。當(dāng)然變換過(guò)程中也會(huì)因?yàn)橛^(guān)測(cè)不到視角,出現(xiàn)一些黑塊、變形等。所以我們會(huì)用一個(gè)視頻生成模型進(jìn)行修復(fù)。最后,這些生成的數(shù)據(jù)就可以和原來(lái)數(shù)據(jù)混合在一起,訓(xùn)練policy的策略。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

在這里可以發(fā)現(xiàn),不管是在仿真環(huán)境還是真機(jī)實(shí)驗(yàn)下,加上EgoDemoGen之后,在標(biāo)準(zhǔn)視角和隨機(jī)新視角下,成功率都有所提升。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

可以看一下一些可視化的實(shí)驗(yàn)結(jié)果。第一列是標(biāo)準(zhǔn)的視角,第二列、第三列分別是一些新視角??梢园l(fā)現(xiàn),基本上視角的變換對(duì)于policy執(zhí)行是沒(méi)有什么影響的。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

我們來(lái)可以看一下中間的一些實(shí)驗(yàn)結(jié)果。這個(gè)第一列是原視角的,最后一列是變換完新視角的。中間倒數(shù)第二列是我們加了一些機(jī)械臂的約束來(lái)保證生成質(zhì)量。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

除了表觀(guān)會(huì)變化、視角會(huì)變化之外,另一個(gè)就是前景物體本身的姿態(tài)也會(huì)變化。比如我要去拿桌子上的水杯,水杯每次可能擺在不同的位置。這時(shí)候可以通過(guò)采集一條人類(lèi)的演示,然后對(duì)前景物體進(jìn)行各種自由組合來(lái)達(dá)到這個(gè)目的。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

我們可以看到這個(gè)視頻。先采集一條這樣的數(shù)據(jù);然后通過(guò)Real2Real的方式對(duì)點(diǎn)云進(jìn)行操作,組合出各種前景不同的變化;最后,這些模型可以被混合起來(lái),去訓(xùn)練一個(gè)新的策略網(wǎng)絡(luò)。(鏈接可查看視頻:https://mp.weixin.qq.com/s/VmuUURZnwirvz1D1Lm_mpg)

我們?cè)倏匆幌逻@個(gè)視頻。加入這樣的數(shù)據(jù)之后,尤其是在機(jī)器人加上了移動(dòng)底盤(pán)的時(shí)候,它的視角,包括前景位置每次都可能發(fā)生不同的變換。但是模型也可以比較好的執(zhí)行任務(wù)。根據(jù)視頻可以發(fā)現(xiàn),香蕉雖然每次擺在不同的網(wǎng)格點(diǎn),但都可以比較好的抓取。(鏈接可查看視頻:https://mp.weixin.qq.com/s/VmuUURZnwirvz1D1Lm_mpg)

除了剛才講到的可以對(duì)真機(jī)數(shù)據(jù)進(jìn)行各種增強(qiáng)之外,還可以利用互聯(lián)網(wǎng)第一人稱(chēng)的數(shù)據(jù)。

互聯(lián)網(wǎng)第一人稱(chēng)的數(shù)據(jù)相比較真機(jī)數(shù)據(jù)有兩個(gè)優(yōu)點(diǎn):

第一個(gè)是執(zhí)行速度快,比如我們通過(guò)VR等去遙操一個(gè)臂,疊衣服大概需要花20秒到30秒。但人手疊衣服非常快,可能只需要花3秒鐘就可以疊一件衣服。

第二點(diǎn)是用第一人稱(chēng)數(shù)據(jù)其實(shí)是不需要本體的,很多時(shí)候只需要去帶一個(gè)Vision Pro,帶一個(gè)VR眼鏡來(lái)采集關(guān)節(jié)、手的位置點(diǎn)就行了。

所以在這兩個(gè)成本的加持下,我們可以獲取非常多第一人稱(chēng)的數(shù)據(jù)。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

但第一人稱(chēng)的數(shù)據(jù)很多時(shí)候在直接用的情況下是存在很多問(wèn)題的,和直接用來(lái)訓(xùn)VLV的數(shù)據(jù),還是存在的一些視角、動(dòng)作、視覺(jué)方面的差異。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

所以我們?cè)?span style="color: #0f59a4;">MimicDreamer工作里分別提出了三個(gè)模塊,把這三個(gè)差異消除掉,實(shí)現(xiàn)三者對(duì)齊。然后把第一人稱(chēng)的數(shù)據(jù)直接用于訓(xùn)練VLV模型。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

可以發(fā)現(xiàn),在一些定量的實(shí)驗(yàn)任務(wù)里,MimicDreamer生成的人機(jī)對(duì)齊數(shù)據(jù),結(jié)合少量真機(jī)數(shù)據(jù)作為示教,就可以實(shí)現(xiàn)few-shot的效果。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

接下來(lái)看一下Scaling的一些實(shí)驗(yàn)結(jié)果。這六張圖分別是6種Scaling,縱軸是成功率,橫軸是20條真機(jī)實(shí)驗(yàn)數(shù)據(jù),后面分別是加上了第一人稱(chēng)的數(shù)據(jù)。我們發(fā)現(xiàn):隨著第一人稱(chēng)的數(shù)據(jù)越加越多,整體成功率有比較大的提升的。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

這是VLA執(zhí)行的一些結(jié)果。所有的VLA執(zhí)行結(jié)果都是在第一人稱(chēng)數(shù)據(jù)下進(jìn)行訓(xùn)練,然后直接部署的。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

基于上面講的各種各樣世界模型的加持,我們也做了一款產(chǎn)品叫GigaBrain-0,這是第一個(gè)由世界模型驅(qū)動(dòng)的VLA系統(tǒng)。在這里面我們用到了真機(jī)數(shù)據(jù)、視頻生成的數(shù)據(jù)、Real2Real的數(shù)據(jù)、Sim2Real的、視角變換的數(shù)據(jù),以及第一人稱(chēng)視角的數(shù)據(jù)。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

相比較其他的一些系統(tǒng),比如π0、π0.5、GR-3、GR00T N1.5,我們GigaBrain-0數(shù)據(jù)涵蓋面應(yīng)該是最廣的。

極佳科技首席科學(xué)家朱政博士:VLA會(huì)融合世界模型知識(shí),變成下一代WA

最后看一下我們的宣傳片。這是不同視角拍的,一鏡到底的視頻:機(jī)器人把衣服從洗衣機(jī)里拿出來(lái),然后搬到桌子上,最后再把它疊好。(鏈接可查看視頻:https://mp.weixin.qq.com/s/VmuUURZnwirvz1D1Lm_mpg)

還有一些Sim2Real的實(shí)驗(yàn)數(shù)據(jù),Real2Real的數(shù)據(jù)、視角變換的數(shù)據(jù),還有根據(jù)相同的首幀給它不同的promote,生成的數(shù)據(jù),以及第一人稱(chēng)的數(shù)據(jù),轉(zhuǎn)換成機(jī)械臂的數(shù)據(jù)。

另外,還有一些機(jī)器人沖倒咖啡或飲料的數(shù)據(jù),這樣的數(shù)據(jù)在仿真引擎里是很難得到的。還有收拾桌面的一些例子,人可以隨機(jī)打斷它,然后給它布置一個(gè)新任務(wù)。

還有一個(gè)撕卷紙的例子,是我們用夾爪來(lái)完成的,還是比較困難的,因?yàn)槲覀儧](méi)有用靈巧手或觸覺(jué)傳感器。這個(gè)機(jī)器人疊衣服的例子是實(shí)際速度播放的,它會(huì)先把衣服抖平,再去疊衣服。

所以,現(xiàn)在的具身智能世界模型,我們首先進(jìn)行了第一步的探索,就是做數(shù)據(jù)的增強(qiáng),可以給VLA提供這么多的數(shù)據(jù)。第二步是現(xiàn)在我們正在探索的,用世界模型去構(gòu)建一個(gè)模擬器,然后用強(qiáng)化學(xué)習(xí)在里邊訓(xùn)練VLA模型,代替之前在模擬器里訓(xùn)練的,它會(huì)存在Sim2Real的gap。

此外,我們也可以代替π*0.6用的真機(jī)強(qiáng)化學(xué)習(xí),因?yàn)樗枰狧uman-in-the-loop。我們現(xiàn)在正在探索這件事情,大概今年年底會(huì)發(fā)布相關(guān)的一些工作。最后,我們希望VLA會(huì)融合一部分世界模型的知識(shí),變成下一代的WA (World Action Model)。

以上就是我今天的報(bào)告,謝謝大家。