機(jī)器人前瞻(公眾號(hào):robot_pro)
作者?|??許麗思
編輯?|??漠影

機(jī)器人前瞻2月21日?qǐng)?bào)道,剛剛,美國(guó)人形機(jī)器人獨(dú)角獸Figure AI重磅推出了一款通用型視覺(jué)語(yǔ)言動(dòng)作(VLA)模型——Helix,能夠?qū)⒏兄?、語(yǔ)言理解與學(xué)習(xí)控制融為一體,首次實(shí)現(xiàn)了對(duì)人形機(jī)器人完整上半身高速連續(xù)控制。

只需一句自然語(yǔ)言指令、不需要任何事先演示或定制編程,人形機(jī)器人就能抓取幾乎所有家庭小物件,包括數(shù)千種訓(xùn)練時(shí)從未接觸過(guò)的物品。

一、首次實(shí)現(xiàn)人形機(jī)器人上半身高速連續(xù)控制

Figure表示,Helix模型創(chuàng)造了多項(xiàng)業(yè)界首次:

  • 全上半身靈活操控:Helix是首個(gè)能對(duì)仿人機(jī)器人完整上半身(包括手腕、軀干、頭部及每根手指)實(shí)現(xiàn)高速連續(xù)控制的VLA模型。
  • 多機(jī)器人協(xié)作:Helix首次讓雙機(jī)器人系統(tǒng)協(xié)同完成長(zhǎng)期復(fù)雜任務(wù),兩臺(tái)機(jī)器人能共同處理從未見(jiàn)過(guò)的物品,例如合作整理陌生雜貨。
  • 萬(wàn)物皆可抓取:機(jī)器人現(xiàn)在只需一句自然語(yǔ)言指令,就能抓取幾乎所有家庭小物件,包括數(shù)千種訓(xùn)練時(shí)從未接觸過(guò)的物品。
  • 單一神經(jīng)網(wǎng)絡(luò):與過(guò)往技術(shù)不同,Helix僅用一套神經(jīng)網(wǎng)絡(luò)參數(shù)就能學(xué)習(xí)所有技能——取放物品、開(kāi)關(guān)抽屜冰箱、跨機(jī)器人交互等,無(wú)需任何任務(wù)專屬微調(diào)。
  • 商用就緒:Helix是首個(gè)完全運(yùn)行在低功耗嵌入式GPU上的VLA系統(tǒng),已具備直接商業(yè)部署能力。

在測(cè)試中,機(jī)器人機(jī)器人成功地處理了數(shù)千件雜亂無(wú)章的新物品——從玻璃器皿和玩具到工具和衣服,并且無(wú)需任何事先演示或定制編程。

拋棄OpenAI,F(xiàn)igure推首個(gè)VLA模型,一句話讓機(jī)器人搭伙干家務(wù)

值得一提的是,?當(dāng)提示“撿起沙漠物品”時(shí),Helix 不僅會(huì)識(shí)別出玩具仙人掌符合這個(gè)抽象的概念,還會(huì)選擇最近的手并執(zhí)行所需的精確運(yùn)動(dòng)命令,牢牢地抓住它。

這種通用的“從語(yǔ)言到動(dòng)作”的抓取功能為在非結(jié)構(gòu)化環(huán)境中部署人形機(jī)器人提供了更大的可能性。

拋棄OpenAI,F(xiàn)igure推首個(gè)VLA模型,一句話讓機(jī)器人搭伙干家務(wù)

在一個(gè)更加復(fù)雜的應(yīng)用場(chǎng)景中,當(dāng)主人把Figure機(jī)器人從未見(jiàn)過(guò)的雜物放置在桌上時(shí),兩個(gè)機(jī)器人可以進(jìn)行相互協(xié)作,把雜物進(jìn)行歸類放置。

拋棄OpenAI,F(xiàn)igure推首個(gè)VLA模型,一句話讓機(jī)器人搭伙干家務(wù)

機(jī)器人甚至細(xì)心到,知道瓶裝的物品應(yīng)該放置在冰箱門上的置物筐中才不會(huì)容易翻倒,而不是往冰箱里隨便一塞就了事;另一個(gè)機(jī)器人,還明白餅干應(yīng)該放置到抽屜中。

拋棄OpenAI,F(xiàn)igure推首個(gè)VLA模型,一句話讓機(jī)器人搭伙干家務(wù)

收拾好后,它們還會(huì)記得貼心地把抽屜關(guān)好、關(guān)上冰箱門。

拋棄OpenAI,F(xiàn)igure推首個(gè)VLA模型,一句話讓機(jī)器人搭伙干家務(wù)

二、開(kāi)創(chuàng)性采用雙系統(tǒng)架構(gòu)

Helix的系統(tǒng)由兩個(gè)部分組成——即”系統(tǒng)1+系統(tǒng)2″架構(gòu),實(shí)現(xiàn)對(duì)仿人機(jī)器人上半身的高速精準(zhǔn)控制:

系統(tǒng)2:基于7B參數(shù)的開(kāi)源VLM,以7-9Hz頻率運(yùn)行,負(fù)責(zé)場(chǎng)景理解與語(yǔ)義解析,確保跨物體、跨場(chǎng)景的泛化能力。

系統(tǒng)1:80M參數(shù)的視覺(jué)運(yùn)動(dòng)策略模型,以200Hz頻率將S2的語(yǔ)義表征轉(zhuǎn)化為連續(xù)動(dòng)作指令,實(shí)現(xiàn)毫秒級(jí)實(shí)時(shí)響應(yīng)。

這種解耦架構(gòu)讓兩個(gè)系統(tǒng)各司其職:S2專注慢思考,負(fù)責(zé)制定戰(zhàn)略,S1負(fù)責(zé)實(shí)時(shí)執(zhí)行和調(diào)整行動(dòng)術(shù)。

和現(xiàn)有方法相比,Helix采用的這種設(shè)計(jì),使其可以兼顧速度和泛化,在保持專業(yè)單任務(wù)策略速度的同時(shí),零樣本泛化處理數(shù)千種新物品,并且可拓展性強(qiáng)、架構(gòu)極簡(jiǎn),還能允許開(kāi)發(fā)者單獨(dú)迭代每一個(gè)系統(tǒng)。

據(jù)了解,Helix僅憑借極少的資源,就實(shí)現(xiàn)了強(qiáng)大的物體泛化能力。團(tuán)隊(duì)訓(xùn)練Helix總共使用了約 500 小時(shí)的高質(zhì)量監(jiān)督數(shù)據(jù),這只占先前收集的視覺(jué)語(yǔ)言動(dòng)作(VLA)數(shù)據(jù)集規(guī)模的5%不到,而且無(wú)需依賴多機(jī)器人實(shí)體收集或多階段訓(xùn)練。

并且,盡管數(shù)據(jù)需求相對(duì)較少,但Helix依舊能夠擴(kuò)展應(yīng)用到更具挑戰(zhàn)性的全身型仿人機(jī)器人上半身控制的動(dòng)作空間,實(shí)現(xiàn)高速率、高維度的輸出。

結(jié)語(yǔ):人形機(jī)器人加入融入人類生活

與在規(guī)范化的工業(yè)環(huán)境不同,機(jī)器人如果要真正應(yīng)用到家庭環(huán)境中,就必須應(yīng)對(duì)家庭環(huán)境中各種不可控的因素,每個(gè)物品都有不可預(yù)測(cè)的形狀、大小、顏色和紋理,機(jī)器人會(huì)面對(duì)許多以前從未見(jiàn)過(guò)的物體,需要能夠按照實(shí)際情況生成智能新行為。

而作為首款能根據(jù)自然語(yǔ)言指令直接控制整個(gè)人形機(jī)器人上半身的VLA模型,Helix無(wú)需任何針對(duì)特定任務(wù)的示范、無(wú)需大量的手動(dòng)編程,就能即時(shí)生成長(zhǎng)期的、協(xié)作性的、靈巧的操作動(dòng)作,展現(xiàn)出了強(qiáng)大的物體泛化能力。

這種能力,展現(xiàn)出人形機(jī)器人實(shí)現(xiàn)近乎人類的環(huán)境適應(yīng)性的巨大潛能。而隨著模型規(guī)模的不斷擴(kuò)展,也將為人形機(jī)器人真正進(jìn)入家庭等更多負(fù)責(zé)環(huán)境、融入人類生活創(chuàng)造了更多可能性。