機(jī)器人前瞻(公眾號(hào):robot_pro)
作者?|??許麗思
編輯?|??漠影

機(jī)器人前瞻11月18日?qǐng)?bào)道,今天,Physical Intelligence(簡(jiǎn)稱PI)發(fā)布了旗下最新機(jī)器人基礎(chǔ)模型π*0.6。

PI是一家2024年成立于美國(guó)舊金山的機(jī)器人初創(chuàng)公司,團(tuán)隊(duì)堪稱全明星陣容,CEO兼聯(lián)合創(chuàng)始人Karol Hausman曾是Google DeepMind資深研究科學(xué)家;聯(lián)合創(chuàng)始人還包括強(qiáng)化學(xué)習(xí)領(lǐng)域領(lǐng)軍人物Sergey Levine、斯坦福大學(xué)教授Chelsea Finn等。

PI的融資節(jié)奏和估值增長(zhǎng)也十分迅猛:2024年3月種子輪融資中,以約4億美元估值籌集7000萬(wàn)美元;同年11月完成4億美元A輪融資,估值飆升至24億美元。今年9月,有消息稱其正討論以50億美元估值開(kāi)展新一輪融資,若落地則成立18個(gè)月內(nèi)估值將翻12倍。

Sergey Levine表示,搭載了π*0.6的機(jī)器人,已經(jīng)在舊金山辦公室里為同事們制作拿鐵、美式咖啡和意式濃縮咖啡了,能夠狂干13小時(shí),中間只有幾次中斷。

PI最新VLA模型登場(chǎng)!機(jī)器人疊衣服、做咖啡、組裝紙箱成功率翻倍

網(wǎng)友:這做咖啡的手法和效率,意大利人看了都備受震撼。

PI最新VLA模型登場(chǎng)!機(jī)器人疊衣服、做咖啡、組裝紙箱成功率翻倍

機(jī)器人還連續(xù)疊了3個(gè)小時(shí)衣服,衣服類型五花八門,疊一件衣服大概需要3分鐘。

PI最新VLA模型登場(chǎng)!機(jī)器人疊衣服、做咖啡、組裝紙箱成功率翻倍

針對(duì)組裝紙箱的任務(wù),機(jī)器人連續(xù)組裝了1個(gè)小時(shí),每個(gè)箱子大概需要兩分半鐘。

PI最新VLA模型登場(chǎng)!機(jī)器人疊衣服、做咖啡、組裝紙箱成功率翻倍

從PI發(fā)布的技術(shù)博客來(lái)看,π*0.6在多項(xiàng)任務(wù)的表現(xiàn)上,實(shí)現(xiàn)了吞吐量(每小時(shí)成功完成任務(wù)的次數(shù))和成功率較基礎(chǔ)模型翻倍,成功率超90%。

尤其是做咖啡這項(xiàng)任務(wù),π*0.6較基礎(chǔ)模型的提升幅度非常明顯。不過(guò),也有眼尖的網(wǎng)友發(fā)現(xiàn),機(jī)器人在制作拿鐵時(shí),跳過(guò)了用蒸汽處理牛奶的關(guān)鍵步驟。看來(lái)機(jī)器人離成為一個(gè)合格的咖啡店員,還得再多練練。

一、糾正式指導(dǎo)+強(qiáng)化學(xué)習(xí),破解模仿學(xué)習(xí)的累積錯(cuò)誤難題

RECAP實(shí)現(xiàn)了三個(gè)關(guān)鍵步驟:通過(guò)演示訓(xùn)練機(jī)器人、通過(guò)糾正進(jìn)行指導(dǎo),并使機(jī)器人能夠從自主經(jīng)驗(yàn)中改進(jìn)。這解決了模仿學(xué)習(xí)在機(jī)器人技術(shù)中的關(guān)鍵缺陷:小錯(cuò)誤在現(xiàn)實(shí)實(shí)踐中引發(fā)累積錯(cuò)誤,降低可靠性。

Recap能夠使研究人員通過(guò)兩種方式從“質(zhì)量較差”的經(jīng)驗(yàn)數(shù)據(jù)中獲取良好的訓(xùn)練信號(hào):

1、糾正式指導(dǎo)(coaching with corrections)

由專家展示機(jī)器人如何修復(fù)錯(cuò)誤或做得更好,從而提供修正。

想要讓糾正式指導(dǎo)真正有用,專家遠(yuǎn)程操控者需要提供的是:在真實(shí)世界里,機(jī)器人實(shí)際犯錯(cuò)之后,怎樣從這些錯(cuò)誤中恢復(fù)的糾正示范。在實(shí)踐中,這意味著運(yùn)行當(dāng)前最好的策略,當(dāng)機(jī)器人犯錯(cuò)時(shí),用人工遠(yuǎn)程操控接管它。

但是,僅僅依靠糾正式指導(dǎo)是有限的:這類監(jiān)督的質(zhì)量受制于人類是否能及時(shí)判斷應(yīng)當(dāng)介入以及是否能提供高質(zhì)量的糾正。對(duì)于那些特別明顯或嚴(yán)重的錯(cuò)誤,這種方式是有效的。

不過(guò),就像運(yùn)動(dòng)員如果不自己反復(fù)練習(xí),是不可能真正掌握一項(xiàng)運(yùn)動(dòng)一樣,研究人員需要一種辦法,讓策略可以通過(guò)通過(guò)練習(xí)和強(qiáng)化繼續(xù)學(xué)習(xí)和完善其行為的微小細(xì)節(jié)。

2、強(qiáng)化學(xué)習(xí)(reinforcement learning)

機(jī)器人依據(jù)整個(gè)任務(wù)過(guò)程的最終結(jié)果,自行判斷哪些行為更好或更差,并通過(guò)迭代學(xué)習(xí)強(qiáng)化好的行為、避免不好的行為。

通過(guò)任務(wù)結(jié)果來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)的核心難題是信用分配(credit assignment):也就是弄清楚機(jī)器人在整個(gè)過(guò)程中做的哪些動(dòng)作導(dǎo)致了好的結(jié)果,而哪些動(dòng)作導(dǎo)致了壞的結(jié)果。

比如,如果機(jī)器人用錯(cuò)誤的方式拿起意式咖啡機(jī)的手柄,那之后它在把手柄插回機(jī)器里時(shí)可能就會(huì)遇到困難。真正的錯(cuò)誤并不在“插入”這個(gè)動(dòng)作本身,而是在更早之前的抓取動(dòng)作。

PI最新VLA模型登場(chǎng)!機(jī)器人疊衣服、做咖啡、組裝紙箱成功率翻倍
▲通過(guò)模仿學(xué)習(xí)訓(xùn)練的基礎(chǔ)模型,在將手柄插入意式咖啡機(jī)時(shí)會(huì)遇到困難。

一個(gè)正確的信用分配方法應(yīng)當(dāng)能把這次失敗歸因到那次抓取上,即使失敗是在后面才表現(xiàn)出來(lái)的。

Recap 通過(guò)訓(xùn)練一個(gè)價(jià)值函數(shù)來(lái)應(yīng)對(duì)這樣的信用分配難題,價(jià)值函數(shù)是一個(gè)模型,它能夠預(yù)測(cè)特定情境相對(duì)于其他情境有多好。

舉個(gè)例子,在國(guó)際象棋這類游戲中,智能體只會(huì)在贏棋時(shí)獲得獎(jiǎng)勵(lì),那么價(jià)值函數(shù)可以根據(jù)當(dāng)前棋局來(lái)預(yù)測(cè)智能體獲勝的概率。

如果研究人員能從機(jī)器人的經(jīng)驗(yàn)中學(xué)到這樣的價(jià)值函數(shù),就可以通過(guò)價(jià)值函數(shù)的變化來(lái)判斷一個(gè)動(dòng)作是好是壞:那些讓價(jià)值函數(shù)變大的動(dòng)作,就像讓棋局更接近勝利的落子,是應(yīng)該被鼓勵(lì)的好動(dòng)作;而那些讓價(jià)值函數(shù)變小的動(dòng)作,則應(yīng)該被抑制。

二、吞吐量和成功率較基礎(chǔ)模型翻倍,任務(wù)成功率超90%

PI使用Recap來(lái)訓(xùn)練π*(0.6)模型,使其能夠執(zhí)行多項(xiàng)真實(shí)世界應(yīng)用。π*(0.6)是基于π(0.6)模型訓(xùn)練而來(lái)的,而π(0.6)是早期π(0.5)模型的改進(jìn)版本。

PI最新VLA模型登場(chǎng)!機(jī)器人疊衣服、做咖啡、組裝紙箱成功率翻倍

研究人員測(cè)試了三個(gè)應(yīng)用場(chǎng)景:制作濃縮咖啡飲品、折疊各種衣物以及組裝包裝箱,這每一項(xiàng)任務(wù)都包含許多挑戰(zhàn):

制作咖啡流程長(zhǎng),要求機(jī)器人能夠傾倒液體、把握好咖啡制作時(shí)間、制作完成后清理機(jī)器等。

疊衣物,機(jī)器人需要能夠處理高度的多樣性,對(duì)不同衣物采用不同的折疊方法。

組裝包裝箱,機(jī)器人需在保持箱體結(jié)構(gòu)的同時(shí)折疊箱蓋,還要應(yīng)對(duì)箱子粘連等特殊情況。

PI最新VLA模型登場(chǎng)!機(jī)器人疊衣服、做咖啡、組裝紙箱成功率翻倍

Recap的第一階段,是用離線強(qiáng)化學(xué)習(xí)(offline RL)對(duì)π*(0.6)模型進(jìn)行預(yù)訓(xùn)練,這一點(diǎn)與基礎(chǔ)的 π(0.6)和π(0.5)用純監(jiān)督學(xué)習(xí)訓(xùn)練的方式不同。在此基礎(chǔ)上,研究人員再用示范數(shù)據(jù)對(duì)π*(0.6)進(jìn)行按任務(wù)的微調(diào),接著再用在機(jī)器人上采集到的額外數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練:其中既包括專家提供的糾正,用來(lái)修復(fù)大的錯(cuò)誤,也包括基于獎(jiǎng)勵(lì)信號(hào)的反饋,讓模型能從自主經(jīng)驗(yàn)中學(xué)習(xí)提升。

研究人員對(duì)比了幾種模型的表現(xiàn):基礎(chǔ)π(0.6)模型(通過(guò)監(jiān)督學(xué)習(xí)訓(xùn)練)、基礎(chǔ)π*(0.6)模型(通過(guò)離線 RL訓(xùn)練,即Recap的第一階段)、經(jīng)過(guò)演示數(shù)據(jù)微調(diào)后的π*(0.6)模型,以及最終經(jīng)過(guò)機(jī)器上經(jīng)驗(yàn)微調(diào)后的 π*(0.6)模型。

從最終結(jié)果來(lái)看,對(duì)于像做咖啡這樣的頗具挑戰(zhàn)性的任務(wù),在加入機(jī)器人的真實(shí)執(zhí)行經(jīng)驗(yàn)后,吞吐量和成功率都提升了超過(guò)兩倍,均實(shí)現(xiàn)了超過(guò)90%的成功率。

PI最新VLA模型登場(chǎng)!機(jī)器人疊衣服、做咖啡、組裝紙箱成功率翻倍

結(jié)語(yǔ):從經(jīng)驗(yàn)中學(xué)習(xí),或?qū)⒊蔀楦咝阅苣P偷年P(guān)鍵一部分

目前,機(jī)器人基礎(chǔ)模型主要使用的是由人工采集的示范數(shù)據(jù)(例如遠(yuǎn)程操控)。這種方式讓訓(xùn)練流程變得簡(jiǎn)單、直接,但也帶來(lái)了一個(gè)非常嚴(yán)峻的障礙:數(shù)據(jù)采集需要大量人工投入;模型的速度和魯棒性受限于人類水平;而且機(jī)器人本身不會(huì)因?yàn)榉e累經(jīng)驗(yàn)而逐漸變得更強(qiáng)。

而像Recap這樣的方法,理論上可以通過(guò)直接從機(jī)器人自身的經(jīng)驗(yàn)中學(xué)習(xí),從而解決這些限制。

隨著機(jī)器人在真實(shí)世界中的部署越來(lái)越廣泛,來(lái)自經(jīng)驗(yàn)的學(xué)習(xí)有可能會(huì)是一個(gè)非常重要的訓(xùn)練數(shù)據(jù)來(lái)源,并成為實(shí)現(xiàn)高性能表現(xiàn)的關(guān)鍵組成部分。

就像人類是通過(guò)“講解+指導(dǎo)+練習(xí)”的組合方式來(lái)學(xué)習(xí)一樣,機(jī)器人未來(lái)也會(huì)從許多不同的數(shù)據(jù)源中學(xué)習(xí)。不過(guò),這些數(shù)據(jù)源會(huì)承擔(dān)不同的角色:專家示范,用來(lái)定義新的行為;糾正式指導(dǎo),用來(lái)打磨和優(yōu)化策略;而自主經(jīng)驗(yàn)——很可能是規(guī)模最大的數(shù)據(jù)來(lái)源——?jiǎng)t用來(lái)把這些行為打磨到極致,甚至有望最終達(dá)到超越人類的表現(xiàn)。