智東西(公眾號:zhidxcom)
編譯 | 陳佳慧
編輯 | 徐珊

智東西9月21日消息,據(jù)The Verge報道,豐田研究院(TRI)成功研發(fā)出一種突破性的生成式AI技術(shù)即機器人行為模型,在“機器人幼兒園”中教導(dǎo)機器人各種靈巧的技能。該機器人行為模型基于AI的擴散策略,可以在數(shù)十次新技能的演示后學(xué)習(xí)新技能。

運用該機器人行為模型,能讓機器人產(chǎn)出一致性強、可重復(fù)和高性能的結(jié)果。而且機器人學(xué)習(xí)和產(chǎn)出的速度極快,不再需要人工來進行編碼和修復(fù)編碼錯誤,提高了機器人的實用性,也在構(gòu)建機器人大型行為模型(LBM)方向上邁進了一步。

一、機器人也上學(xué),通過機器人行為模型掌握超60項挑戰(zhàn)性技能

據(jù)TOYOTA官網(wǎng)公告,以前,教機器人新行為的技術(shù)進展緩慢、效率較低,而且一般在執(zhí)行任務(wù)時有很多限制性條件,所執(zhí)行的任務(wù)也是非常具體和細(xì)節(jié)的。機器人專家需要花費大量時間編寫復(fù)雜的代碼,可能還要不斷修改代碼錯誤,以此為機器人添加新行為。

現(xiàn)在,有了機器人行為模型。研究員認(rèn)為,觸覺是這個機器人行為模型的關(guān)鍵要素。他們給機器人提供了一種大拇指般大小的觸覺傳感器,能夠讓機器人通過觸覺來感知和學(xué)習(xí),從而像人類一樣更輕松地執(zhí)行各種復(fù)雜任務(wù)。據(jù)The Verge報道,研究人員就曾在“機器人幼兒園”教機器人如何做早餐。

“機器人幼兒園”的運作方式是,首先由一位“老師”展示一套技能,然后機器人的模型在后臺學(xué)習(xí)幾個小時,最后機器人成功形成新的工作行為。豐田研究院的靈巧操縱實驗室經(jīng)理Ben Burchfiel說,他們經(jīng)常是在下午教機器人,讓它學(xué)習(xí)一晚上,第二天早上就可以來看到它的新行為了。

到目前為止,研究人員已經(jīng)使用機器人行為模型,成功培訓(xùn)機器人獲得了超過60項具有挑戰(zhàn)性的技能,例如倒液體、使用工具以及操控可變形物體等。并且他們希望在2024年底前將這個數(shù)字增加到1000項。

豐田研究院亮出機器人AI大招,無須人工編碼,利用觸覺高效學(xué)習(xí)新技能

▲機器人攪拌液體(圖源:TOYOTA官網(wǎng))

二、自主觀察學(xué)習(xí)新技能,機器人大型行為模型正在創(chuàng)建

豐田研究院的研究人員在研發(fā)出現(xiàn)在的機器人行為模型后,還試圖為機器人創(chuàng)建大型行為模型。豐田研究院機器人研究副總裁Russ Tedrake說,大型行為模型與大語言模型類似,是通過觀察來學(xué)習(xí),然后能夠執(zhí)行從沒有教過的新技能。

谷歌在其AI學(xué)習(xí)模型機器人變壓器RT-2的研發(fā)中,其實也在研究類似的技術(shù)。與豐田研究人員的方法類似,他們的機器人利用自己獲得的經(jīng)驗來推斷如何執(zhí)行任務(wù)。從理論上講,經(jīng)過AI訓(xùn)練的機器人最終可以實現(xiàn),只給出一個大致方向,而不需要任何具體的行動指令就可以完成任務(wù),例如“清理那個溢出的東西”。

不過,根據(jù)紐約時報報道,谷歌的機器人研發(fā)還有很長的路要走。同時,泰晤士報也稱,研究工作通常是“緩慢而費力的”,提供足夠的訓(xùn)練數(shù)據(jù)比向AI模型提供從互聯(lián)網(wǎng)下載的數(shù)據(jù)要難得多。

結(jié)語:機器人獲得觸覺提升技能學(xué)習(xí)速度,未來或能實現(xiàn)機器人自主拓展新技能

豐田研究院的機器人行為模型讓機器人獲得了觸覺,相比于從前訓(xùn)練機器人的人工編碼和錯誤查找,新模型不僅減少了人力付出,也提高了機器人學(xué)習(xí)新技能的速度,讓機器人能夠幫助人們更快、更好地完成更多任務(wù)。

而豐田研究院研究人員稱,他們正在構(gòu)建機器人大型行為模型,谷歌也在不斷嘗試開發(fā)類似技術(shù)。有了現(xiàn)在的機器人行為模型的出現(xiàn),在研究院與科技公司的探索下,未來機器人大型行為模型或許也有可能成為現(xiàn)實,機器人通過觀察自主拓展新技能也有可能實現(xiàn)。

來源:The Verge