機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影

機器人前瞻1月28日報道,今天,螞蟻集團旗下靈波科技宣布全面開源具身大模型LingBot-VLA。這是螞蟻開源的第一款具身智能基座模型,實現(xiàn)了跨本體、跨任務泛化能力,并大幅降低后訓練成本。

靈波科技成立于2024年,由螞蟻集團全資持股,是螞蟻集團在具身智能領域的重要布局。去年9月,靈波科技推出首款單場景服務機器人Robbyant-R1,具備長序列任務能力,可完成從取菜、烹飪到清潔的全流程自動化。

昨天,靈波科技開源高精度空間感知模型LingBot-Depth,搭載LingBot-Depth模型的奧比中光Gemini 330系列相機在深度精度和像素覆蓋率方面,均優(yōu)于頂級深度相機。

此次LingBot-VLA的開源,不僅提供了模型權重,還同步開放了包含數(shù)據(jù)處理、高效微調及自動化評估在內的全套代碼庫。

一、基于2萬+小時真機數(shù)據(jù)進行預訓練,覆蓋9種主流雙臂機器人構型

長期以來,由于本體差異、任務差異、環(huán)境差異等,具身智能模型落地面臨嚴重的泛化性挑戰(zhàn)。開發(fā)者往往需要針對不同硬件和不同任務重復采集大量數(shù)據(jù)進行后訓練,直接抬高了落地成本,也使行業(yè)難以形成可規(guī)?;瘡椭频慕桓堵窂健?/p>

針對上述問題,LingBot-VLA基于20000+小時大規(guī)模真機數(shù)據(jù)進行預訓練,覆蓋了9種主流雙臂機器人構型(包括 AgileX,Galaxea R1Pro、R1Lite 、AgiBot G1等),從而讓同一個“大腦”可以無縫遷移至不同構型的機器人,并在任務變化、環(huán)境變化時保持可用的成功率與魯棒性。

與高精度空間感知模型LingBot-Depth配合,LingBot-VLA能獲得更高質量的深度信息表征,通過“視力”的升級,真正做到“看得更清楚、做的更明白”。

二、跨本體泛化平均成功率超越Pi0.5,空間感知能力明顯增強

在上海交通大學開源的具身評測基準GM-100(包含100項真實操作任務)測試中,LingBot-VLA在3個不同的真實機器人平臺上,跨本體泛化平均成功率相較于Pi0.5的13.0%提升至15.7%(w/o Depth)。引入深度信息(w/Depth)后,空間感知能力增強,平均成功率提升至17.3%。

螞蟻開源首款具身基座模型!后訓練代碼全開放▲在 GM-100 真機評測中,LingBot-VLA 跨本體泛化性能超越 Pi0.5

在RoboTwin2.0仿真基準(包含50項任務)評測中,面對高強度的環(huán)境隨機化干擾(如光照、雜物、高度擾動),LingBot-VLA憑借可學習查詢對齊機制,高度融合深度信息,操作成功率比Pi0.5提升了9.92%。

螞蟻開源首款具身基座模型!后訓練代碼全開放▲在 RoboTwin 2.0 仿真評測中,LingBot-VLA 跨任務泛化性能超越 Pi0.5

據(jù)了解,在數(shù)據(jù)采集階段,LingBot-VLA使用了星海圖、松靈的硬件平臺,樂聚、庫帕思、國家地方共建人形機器人創(chuàng)新中心、北京人形機器人創(chuàng)新中心有限公司、博登智能、睿爾曼也在模型預訓練階段提供了高質量數(shù)據(jù)支持。

目前,LingBot-VLA已與星海圖、松靈、樂聚等廠商完成適配,驗證了模型在不同構型機器人上的跨本體遷移能力。

結語:具身基座模型決定了具身智能是否實現(xiàn)規(guī)?;瘧?/h2>

螞蟻靈波科技CEO朱興稱,具身智能要想大規(guī)模應用,依賴高效的具身基座模型,這直接決定了是否可用以及能否用得起。

通過LingBot-VLA的開源,螞蟻靈波希望積極探索具身智能上限,推進具身智能研發(fā)早日進入可復用、可驗證、可規(guī)模化落地的新階段,構建涵蓋基礎模型、多模態(tài)、推理、新型架構及具身智能的完整技術體系與開源生態(tài),讓AI加速在物理世界滲透普及。