EAIRCon 2025中國具身智能機器人大會是由智猩猩面向具身智能與機器人領域發(fā)起主辦的大型會議,由主論壇+專題論壇+研討會+展覽區(qū)四大板塊組成,近40位產(chǎn)業(yè)代表與青年科研人員與會分享和討論,線下參會觀眾超過1000人。

浙江大學求是特聘教授、浙江人形機器人創(chuàng)新中心首席科學家熊蓉受邀在大會主論壇帶來了開場報告,主題為《具身智能作業(yè)人形機器人發(fā)展挑戰(zhàn)與進展》。

在具身智能領域,模型的泛化性至關重要,目前已有諸多研究致力于提升模型的泛化性。對此,浙大熊蓉教授指出,但對機器人來講,不光是泛化的問題,還要關注其行為能力的問題,我們叫多技能。它不僅包括基礎的抓取、放置和移動,更涵蓋旋轉、擰緊,以及使用各類工具進行粘貼等技能。同時,還必須確保機器人在執(zhí)行任務時兼具魯棒性與精準性。

人形機器人本質(zhì)上屬于動態(tài)不穩(wěn)定系統(tǒng)。在為手臂增加負載、賦予作業(yè)功能時,會影響整體穩(wěn)定性;而在利用下半身進行平衡控制時,又會反過來影響末端操作的精度。因此,必須解決人形機器人如何兼顧平衡控制與精準作業(yè)這一難題。

數(shù)據(jù)同樣是具身智能領域關注的焦點。熊蓉教授表示:若想要推動未來發(fā)展,需要實現(xiàn)低成本、高效率、大規(guī)模且高質(zhì)量的數(shù)據(jù)生成。我們認為還是應該在仿真環(huán)境中構建出接近真實的場景,產(chǎn)生大量數(shù)據(jù)。這也是許多團隊專注于“世界模型”的原因。

在機器人本體方面,當前普遍強調(diào)低成本,但現(xiàn)有機器人性能還不足以支撐多樣化的實際作業(yè)需求。熊蓉教授表示,應該在低成本同時,實現(xiàn)高可靠、高性能以及安全性,這就對核心零部件性能提升提出了要求。

此外,熊蓉教授還從機器人本體、任務導向的通用控制“小腦”、場景適應的感知決策“大腦”,以及多元化數(shù)據(jù)獲取/生成與便捷應用開發(fā)工具鏈等方面,介紹了浙江人形機器人創(chuàng)新中心當前主要技術進展。

以下為熊蓉教授的報告全文:

熊蓉:大家上午好,非常高興來參加本次的活動。具身智能人形機器人代表了通用的作業(yè)形態(tài),還代表著通用的行為智能。它會對我們這個行業(yè)的應用起到非常大的促進作用,降低對專家的依賴,推動各行各業(yè)機器人的應用拓展。同時從技術上面來講,它也是在采用各類學習的方法,包括與大模型的融合;通過大規(guī)模的數(shù)據(jù)和并行的訓練推動我們的發(fā)展。

我們現(xiàn)在也看到,各家在人形機器人的運動:雙臂手協(xié)同操作各種物體,疊衣服,在環(huán)境里語義導航等方面,都取得了非常亮眼的成果。同時一些團隊像PI、波士頓動力,都展示出來了把移動和作業(yè)結合,或者運動、移動和作業(yè)結合所取得的進展。但總體來說,我們還處于產(chǎn)業(yè)的早期,依然面臨著數(shù)據(jù)、模型、本體三方面的挑戰(zhàn)。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

一、具身智能人形機器人在數(shù)據(jù)、模型、本體上的挑戰(zhàn)

1、數(shù)據(jù):應在仿真中構建接近真實的場景,產(chǎn)生大量數(shù)據(jù)

數(shù)據(jù),也是大家現(xiàn)在非常關注的。理想的話應該是用低成本、高效率的方式,去獲得大規(guī)模高質(zhì)量的數(shù)據(jù)。我們之前的主要的兩種數(shù)據(jù)采集或生成方式:一個是仿真合成數(shù)據(jù),另一個是遙操作的真機采集。最近也有一些像特斯拉提出的采集真人的數(shù)據(jù)。這幾種方法都各有優(yōu)缺點。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

1)仿真生成是一種低成本高效率的方式。但由于現(xiàn)在的空間推理的技術還不夠好,使它在生成新數(shù)據(jù)方面還存在問題;以及物理引擎,導致物理交互和仿真與實際還有比較大的差異。

2)遙操作能夠得到真實視-力-觸的數(shù)據(jù)。但是涉及到采集人員、設備數(shù)據(jù)的清洗標注等,導致這種方式成本高,但效率和質(zhì)量都偏低,也存在遷移難的問題。

3)真人數(shù)據(jù)采集,能夠比較高效率的做數(shù)據(jù)采集,但是還需要我們?nèi)巳ヅ宕髟O備,以及需要對采集到的圖像進行標注、處理、解析等。而且只能夠得到人處理的視覺數(shù)據(jù),沒辦法得到力觸的數(shù)據(jù)。對于視覺數(shù)據(jù),由于現(xiàn)在的傳感器空間感知能力還是質(zhì)量比較差,所以也有一定的影響。

若想要推動未來發(fā)展,需要實現(xiàn)低成本、高效率、大規(guī)模且高質(zhì)量的數(shù)據(jù)生成。我們認為還是應該在仿真環(huán)境中構建出接近真實的場景,產(chǎn)生大量數(shù)據(jù)。這也是許多團隊專注于“世界模型”的原因。

李飛飛最近發(fā)布的Marble AI 3D生成模型也得到了大家的關注,可以生成三維的空間,對提升仿真空間構建效率和分辨率,減少變形和不一致性問題上取得了進展。但對于力觸的交互仿真來講,目前還沒有涉及。

對于機器人具身智能的發(fā)展來講,世界模型除了有空間的語義信息,最關鍵的還是要去建立準確的時空模型推理,以及一定要有高保真的物理交互模擬,才能真正在仿真里實現(xiàn)大規(guī)模的訓練。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

2、模型:不光是可泛化,還要關注機器人行為能力的構建

第二個就是模型。

模型現(xiàn)在大家都在關注可泛化,要跨場景,跨任務,以及要跨本體。但對機器人來講,不光是泛化的問題,還要關注其行為能力的問題,我們叫多技能。它不僅包括基礎的抓取、放置和移動,更涵蓋旋轉、擰緊,以及使用各類工具進行粘貼等技能。同時,還必須確保機器人在執(zhí)行任務時兼具魯棒性與精準性。

目前的進展是我們通過VLM等模型,已經(jīng)能夠實現(xiàn)在物品上面的泛化,并自動生成一定的規(guī)劃與決策。在下層控制方面,借助擴散策略、流匹配等方法,也提升了行為的適應性與抗擾動能力,也解決了需要專家定義規(guī)則,解決轉階段狀態(tài)-控制決策的問題。

對于我們未來的發(fā)展來講,有兩個問題需要去關注:

第一個是VLM模型雖然現(xiàn)在已經(jīng)有了一定的通用性,但在很多的場景下面會是出現(xiàn)思不準,看不清等一系列問題。我們當然會持續(xù)推動VLM的發(fā)展,但也不能完全依賴其發(fā)展。因此在開放混雜的環(huán)境中,必須考慮在VLM不可靠的情況下,要保證行為的準確性,能夠生成滿足最后實現(xiàn)這個任務的收斂性行為,這是要同時去推動的。

第二個就是在機器人行為學習方面,當前流匹配等方法,實際上是構建了從感知到控制的映射。然而,我們有那么多的行為、場景,不同的空間,還有力觸等多方面的信息,構成一個非常高維度的、大規(guī)模的問題。在這種情況下,此類映射學習方法是否真的適合?我們傳統(tǒng)專家建模與機理的控制方法,實際上是具有良好的通用性,但在適應變化方面是不夠的。我們能否將二者結合,實現(xiàn)技能的知識性學習和應用的遷移?

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

此外,對人形機器人而言,其本質(zhì)上是一個動態(tài)不穩(wěn)定系統(tǒng)。目前雖然已經(jīng)能跑能跳了,但如果為手臂增加負載、賦予作業(yè)功能,尤其是在速度提升時,會很快觀察到其對整體穩(wěn)定性的影響。當我們用下半身進行平衡控制時,又會反過來影響末端的操作精度。因此,這個時候需要解決平衡控制與精準作業(yè)二者如何兼顧的問題。我們也看到宇樹最近推出了一個輪臂機器人,如果是兩條腿的話,對于它采集的數(shù)據(jù)穩(wěn)定性和作業(yè)數(shù)據(jù)的質(zhì)量都有影響的。

但從長遠發(fā)展來看,對于家庭環(huán)境,最適合的形態(tài)可能仍是雙足。它能夠適應狹窄空間中的行走,并實現(xiàn)從室內(nèi)到室外的通用行走。因此,我們必須致力于解決雙足機器人在快速穩(wěn)定與精準作業(yè)方面的問題。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

3、本體:應在低成本的同時,做到高可靠、高性能、高安全

第三個就是本體。

目前都在講價格也要降低,但其實現(xiàn)在的機器人性能還不足以支撐各種各樣的作業(yè)。實際上,應該在低成本同時,做到高可靠、高性能以及具有本質(zhì)的安全性,這就對零部件性能提升提出了要求。

對于整機、部組件來講,在提升高自由度的時候,還要注重負載自重比的提升。從外觀、結構、驅動,到材料等,一體化的設計。從軟件層面來講,我們要考慮端邊云計算的協(xié)同等一系列問題。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

我是從2000年開始從事智能機器人方向的研究,原來背景是計算機的,所以也一直致力于把人工智能技術與機器人結合,讓機器人能夠在開放動態(tài)環(huán)境中智能移動和操作。從2006年開始做人形機器人,11年我們做了一個能和人或雙機器人乒乓球對打的人形機器人,在國際上也產(chǎn)生了很大的影響。之后在和業(yè)界討論其中的一些技術,像動態(tài)伺服技術用到工業(yè)界的時候發(fā)現(xiàn):機械臂的操作非常依賴專家的經(jīng)驗。所以提出了如何通過機器人自主學習或模仿人類來生成程序,提升其應用性,降低對專家的依賴。我們在這一領域取得的成果處于國際前沿,正好也是和這一輪的發(fā)展方向相匹配。在這個過程中和行業(yè)應用去結合落地,同時也培育了一些企業(yè),包括現(xiàn)在非常有名的杭州六小龍之一云深處,以及我自己創(chuàng)辦的迦智科技,解決了制造業(yè)物流自動化的問題。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

二、浙江人形在本體、具身大小腦和工具方面的進展

目前,我?guī)ьI著學生創(chuàng)辦了浙江人形機器人創(chuàng)新中心有限公司,目標是面向行業(yè)應用。我們現(xiàn)在的應用的需求是很大的,同時也呈現(xiàn)出多樣化和碎片化的特征。因此,我們希望打造基礎模型和軟硬件工具,與行業(yè)專家結合,推動行業(yè)應用的發(fā)展。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

在本體方面,我們會重點關注精度、實時性和可靠性。在工具方面,重點關注讓合作伙伴能夠容易開發(fā)和快速部署,并對數(shù)據(jù)機器人的狀態(tài)等實現(xiàn)全鏈路的管控。當然,我們還關注具身智能的大小腦

目前我們針對重點關注的這幾個方面也取得了一定的進展。

第一個就是如何在視-力-觸的感知下,提升它的技能作業(yè)能力,做到可范化、高精度、高可靠。目前已經(jīng)形成了一個任務導向的、通用控制小腦。

第二個就是剛才講到的,在VLA上面臨的VLM不可靠的問題。那么,需要提升它的可靠性、適應性,去做大腦上的一些工作。

同時,為了推動這兩方面的工作,我們也構建了多元的數(shù)據(jù)獲取與生成工具鏈,以及面向行業(yè)應用開發(fā)的軟件。在硬件的方面,我們也是形成了多個泛人形機器人,我們會更關注它們的精度。目前手臂作業(yè)的重復定位精度已經(jīng)達到了0.03毫米,負載自重比達到了0.7。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

1、任務導向的通用控制小腦

先來講第一個,也是我們具有很強優(yōu)勢的通用控制小腦。傳統(tǒng)的控制,主要是軌跡跟蹤和平衡控制,也起到了很好的作用。但是它依賴于專家調(diào)參,可泛化性是不夠的。因此,我們構建了一個能夠智能作業(yè)的控制小腦,是以任務為導向、能夠適應各種變化的。

具體如何做呢?我們要去降低數(shù)據(jù)采集的成本,盡量在仿真里去做基礎模型的訓練。然后到實際的應用中能夠快速適配。我們旨在構建一種通用的表征,這一表征可以是傳統(tǒng)專家知識的機理模型,也可以是網(wǎng)絡的學習模型。關鍵是能夠表征這種跨模態(tài)、泛任務的表達形式。在構建了基礎的網(wǎng)絡模型之后,我們再去做學習優(yōu)化。

在這一方面,如果我們采用專家建模方法作為通用表征,主要是解決模型中存在的誤差和難以準確建模的問題。針對黑箱,主要解決的是實際應用中的數(shù)據(jù)長尾問題。通過這種方法,我們已經(jīng)驗證了它能夠有效解決力觸感知的Sim2Real問題。相當于在仿真中已經(jīng)訓練出一個具有通用知識的控制模型,應用到實物上時,也能實現(xiàn)快速適配。通過將知識方法合學習方法相結合,形成了一種更有效的感知控制模型。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

例如,對于裝配類的,我們有大量高精度、高可靠性的要求。我們形成了視-力-觸的模型。如果是純視覺的話,只需要一次示教;涉及到力覺,特別是高精度的情況,可以通過一次示教加少量的自主學習來適應。它能夠適應各種誤差,包括相機隨便安裝導致的無標定誤差,物體擺放誤差等都可以適應;還能夠適應各種有紋理的、無紋理的物體。視覺可以達到1毫米的精度;在力覺控制下,精度可進一步提升至0.1毫米,最高可達0.03毫米。而且在工業(yè)上面已驗證能夠達到99.99%的成功率。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

我們也完成了鉸接類物體的操作,不需要在實物中間進行數(shù)據(jù)采集,而是在仿真里訓練后,零樣本部署到實物上。這也驗證了在多階段從接觸,到開合,到松開中對各種擾動的抵抗能力以及快速適應不同物體的能力。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

這種旋擰類的控制,它是多指的,有的是小瓶蓋,有的是大瓶蓋,需要準確決策是用兩個手指還是三個手指?是用指尖力還是腕部的力?還涉及到和瓶蓋有重接觸、到旋擰、到松開、再接觸這種多階段自適應的問題,這也可以從仿真到實物上。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

還有柔性布料的操作,能夠去實現(xiàn)搓片和兩手交接。

我們在這里也嘗試了結合視覺語言大模型,進行知識的引導,發(fā)現(xiàn)能夠構建一種通用的模型,來完成長序列學習,目前成功率接近90%。有了這樣的安全軌跡生成,我們還把全局引導和空間預測結合起來,能夠有效解決很大人流量情況下機器人的流暢性。當然我們還有底層的保障,保障它100%安全。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

以及我們的運動生成。這一過程無需對人采集的數(shù)據(jù)進行工程優(yōu)化處理,而是可以直接映射。目前,我們在新推出的機器人上面也發(fā)現(xiàn),它的自由度雖然變化了,URDF也變化了,但也能夠實現(xiàn)快速適配。而且兩個機器人都能夠適應多種地形,目前最快速度可以達到9公里每小時。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

2、場景適應的感知決策大腦

第二個就是我們在大腦方面也做了一些的工作。我們主要是針對長序列的任務,去適應場景的多樣性變化,解決VLM不完善;以及在端側算力有限的問題。我們是從人類身上來獲得長序列的復雜任務,加上強化學習和反思探索,來適應場景的變化,解決VLM的不完善;以及從表征稀疏性上去降低端側算力有限的問題,實現(xiàn)兩者的協(xié)同。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

從2012年起,我們就開始研究從人類中學習,解決人的動作解析、手與物體的接觸關系,以及最終形成效果的推理。這一裝配作業(yè)的研究成果已經(jīng)應用在了ABB。相似性的裝配,可以直接自主推理生成。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

在2022年的時候,我們關注到了VLM的發(fā)展,在嘗試將VLM結合使用時,發(fā)現(xiàn)了其不可靠性的問題。所以,我們當時提出了一個以結果為導向的,把語言、視覺、行為對齊的方法,來解決VLM看不清、思不準的問題;以及機器人執(zhí)行時,比如當機器人要拿一個香蕉卻拿不了時,先把旁邊的東西清走,解決這種拿不了、放不下的問題;生成自收斂的行為,來保證最后任務的生成。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

最近,我們也把反思和探索結合進去了。比如要把香蕉放到裝有水果的盒子里,但根據(jù)當前的觀測是形不成完整序列的,需要根據(jù)在執(zhí)行過程中所看到的進行動態(tài)調(diào)整;并且如果行為失敗,要去動態(tài)校正。通過引入反思和探索,我們在原本低成功率的情況下實現(xiàn)了高成功率,部分達到了100%。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

在VLN里面,我們主要解決了依賴稠密信息、計算效率低、魯棒性差的問題,能夠根據(jù)語義或一張圖片完成對環(huán)境的探索,以及在環(huán)境中的語義導航。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

把VLN和底層的控制相結合,能夠實現(xiàn)自然語言的長語言序列或含糊的語言導航,實現(xiàn)對一個人的跟隨,要進行場景適應下的VLN的驗證。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

3、多元化數(shù)據(jù)獲取/生成及便捷應用開發(fā)工具鏈

在數(shù)據(jù)獲取方面,我們采用了一套高保真重構和新數(shù)據(jù)生成技術該技術能夠將真實場景中的大量環(huán)境物體映射到仿真環(huán)境中,構建數(shù)據(jù)集來進行數(shù)據(jù)生成。其中包括動態(tài)移動的人等,來支持我們的訓練;也有人行為的采集、真機遙操作以及仿真行為生成和數(shù)據(jù)增廣等一系列的技術。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

我們也為這個行業(yè)應用合作伙伴提供了豐富的SDK和各種數(shù)據(jù)采集、狀態(tài)監(jiān)控、作業(yè)調(diào)度等管控軟件和便捷的二次開發(fā)。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

三、應用驗證案例簡述:Peg-in-Hole作業(yè)明年批量化應用

目前,我們已經(jīng)有一些應用驗證。像去年5月份,已經(jīng)在華為的產(chǎn)線上面實現(xiàn)各種Peg-in-Hole的作業(yè)。通過一次示教和一定時間的訓練,達到了99.99%的成功率。近期,我們進一步將工具操作和柔性布料操作實現(xiàn)分片、移片對準到2毫米。這些預計明年會形成批量化的應用。

浙江人形熊蓉教授:模型不光是泛化問題,還要關注機器人行為能力構建 | EAIRCon 2025

這是實驗室的一項作業(yè),能夠完成料瓶的掃碼,并與自動化設備對接,能夠進行分液,精度可達10毫米。我們的合作伙伴用我們的機器人在電網(wǎng)中實現(xiàn)了這一應用,也驗證了所提供的SDK和工具包的應用性。

我們完成了海外客戶的交付,最近也跟做汽車裝配自動化的企業(yè)對接,完成了汽車里的多個零部件的裝配。時間效率方面,達到了企業(yè)要求的效率。此外,還在做一些家庭環(huán)境的驗證。

未來,我們也希望能和更多的上下游合作伙伴,共同推動具身智能人形機器人的發(fā)展,謝謝。