機(jī)器人前瞻(公眾號:robot_pro)
作者 | 江宇
編輯 | 漠影

機(jī)器人前瞻1月14日報道,昨日,OpenAI投資的挪威人形機(jī)器人公司1X發(fā)布了一款全新世界模型“1X World Model(1XWM)”,用于賦予機(jī)器人通識行為能力,并提升其對物理世界的理解與推理能力。

1XWM是一種在推理階段可通過文字和初始畫面生成未來視頻、再從中推理出機(jī)器人動作的世界模型,訓(xùn)練時借助了網(wǎng)頁視頻和少量機(jī)器人數(shù)據(jù)。

其主要應(yīng)用對象為1X正在量產(chǎn)的人形機(jī)器人Neo,這是一款“穿著瑜伽服、表情呆萌”的陪伴型機(jī)器人,主打家庭使用場景。

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

1X創(chuàng)始人兼CEO Bernt B?rnich稱:“Neo如今能夠?qū)⑷我庵噶钷D(zhuǎn)化為新動作,即便此前從未執(zhí)行過類似任務(wù)。這標(biāo)志著其通往‘自我學(xué)習(xí)’能力的起點(diǎn),未來幾乎可以掌握人類所能想到的任何技能?!?/p>

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲1X創(chuàng)始人兼CEO Bernt B?rnich

不過,官方也澄清稱,當(dāng)前模型仍需經(jīng)過視頻與動作的雙重建模過程,尚未實(shí)現(xiàn)真正“零樣本即執(zhí)行”。

一、利用視頻推理世界,1XWM跳出“圖像到動作”的舊思路

不同于多數(shù)以圖文輸入直接預(yù)測動作的VLA(視覺語言動作)模型路線,1XWM通過“文字指導(dǎo)的視頻生成”推理機(jī)器人應(yīng)執(zhí)行的動作路徑。

其核心由兩個部分構(gòu)成:一是基于14B視頻生成模型訓(xùn)練的主干World Model(WM),用于預(yù)測場景的未來狀態(tài);二是Inverse Dynamics Model(IDM),將視頻幀序列轉(zhuǎn)化為實(shí)際可執(zhí)行的機(jī)器人動作軌跡。

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲圖源:1X World Model技術(shù)博客

這一流程可簡單概括為:接收文字指令與起始視頻幀,WM生成未來的視頻片段,IDM提取控制動作,Neo執(zhí)行任務(wù)。得益于NEO與人類動態(tài)結(jié)構(gòu)的高度擬合,模型在物理互動(如摩擦、慣性、接觸)等方面能實(shí)現(xiàn)更真實(shí)的轉(zhuǎn)譯。

整體架構(gòu)在設(shè)計上強(qiáng)調(diào)了將人形結(jié)構(gòu)視作模型泛化的前提。

該模型無需大規(guī)模真實(shí)機(jī)器人數(shù)據(jù),僅通過900小時第一視角人類視頻中訓(xùn)練出的操控直覺,結(jié)合70小時Neo特定數(shù)據(jù)進(jìn)行微調(diào),即可在視覺-空間-物理層面展現(xiàn)出較強(qiáng)泛化能力。

這一訓(xùn)練策略顯著提升了模型對“從未見過的物體與動作”的適應(yīng)力,使得Neo能完成雙手配合、與人交互等未曾直接訓(xùn)練過的復(fù)雜任務(wù)。

二、視頻質(zhì)量可預(yù)估任務(wù)成功率,模型探索“自我改進(jìn)飛輪”

為了量化1XWM在真實(shí)世界中的能力,1X進(jìn)行了多輪測試,包括廚房、衣物處理等實(shí)際任務(wù)。

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲抽紙巾

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲擺放椅子

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲比耶

測試數(shù)據(jù)顯示,該模型在大部分任務(wù)上表現(xiàn)穩(wěn)定,盡管在如“倒牛奶”和“畫笑臉”等更精細(xì)的操作中仍有挑戰(zhàn)。

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲1XWM在不同家務(wù)任務(wù)上的成功率

研究團(tuán)隊(duì)還發(fā)現(xiàn):生成視頻的物理真實(shí)性與動作成功率呈正相關(guān)。若生成的視頻動作存在物理邏輯錯誤(如物體漂浮、深度錯位),實(shí)際機(jī)器人執(zhí)行幾乎為0%成功率。

基于這一觀察,團(tuán)隊(duì)測試了“多版本生成、優(yōu)選最佳”的策略,并發(fā)現(xiàn)將單次生成擴(kuò)展為8次并挑選最優(yōu)者,可顯著提升任務(wù)成功率。

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲抽紙巾任務(wù)中,不同生成次數(shù)對執(zhí)行成功率的影響(“拉紙巾”任務(wù)成功率從30%提升至45%)

在提升視頻質(zhì)量方面,1X團(tuán)隊(duì)使用了“文字說明增強(qiáng)”策略,即用VLM模型擴(kuò)寫訓(xùn)練視頻的任務(wù)描述文字,以更好對齊視頻生成模型的文字理解能力。

另一個關(guān)鍵是加入了第一視角人類操作視頻的訓(xùn)練階段,這一做法顯著提升了模型在新任務(wù)和新環(huán)境上的泛化質(zhì)量。

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲洗碗

1XWM當(dāng)前每輪推理需約11秒,能生成5秒真實(shí)世界可執(zhí)行的動作視頻,并已與Verda團(tuán)隊(duì)合作優(yōu)化GPU推理。

下一步,1X計劃加速模型響應(yīng)速度,并探索長時任務(wù)的閉環(huán)重規(guī)劃機(jī)制,逐步邁向機(jī)器人“通識行動力”與“自我提升閉環(huán)”的目標(biāo)。

1X團(tuán)隊(duì)稱,1XWM已經(jīng)具備“由機(jī)器人自身經(jīng)驗(yàn)驅(qū)動探索、評估與策略優(yōu)化”的機(jī)制,只需保持任務(wù)覆蓋的非零成功率,就有望持續(xù)推進(jìn)性能提升與任務(wù)泛化,進(jìn)入真正意義上的“自我改進(jìn)飛輪”。

結(jié)語:生成視頻,推理動作,再到執(zhí)行

1XWM尚未實(shí)現(xiàn)真正意義上的“零樣本即執(zhí)行”,但它提供了一種新思路:機(jī)器人不再直接從數(shù)據(jù)中學(xué)動作,而是先生成一段對未來的“視頻想象”,再從中推理出可執(zhí)行的動作路徑。

在這種架構(gòu)下,視頻成為連接任務(wù)場景、推理與行動的中間環(huán)節(jié)。當(dāng)模型能夠基于當(dāng)前場景主動生成對未來的預(yù)測,并據(jù)此推理出下一步動作時,具身智能或許正邁向更高層次的泛化能力。