機(jī)器人前瞻(公眾號(hào):robot_pro)
作者 | 程茜
編輯 | 漠影

機(jī)器人前瞻2月12日?qǐng)?bào)道,近日,阿里巴巴旗下高德正式發(fā)布首個(gè)具身智能成果ABot系列具身基座模型。

該系列模型包含具身操作基座模型ABot-M0具身導(dǎo)航基座模型ABot-N0,根據(jù)其技術(shù)報(bào)告,這兩大模型刷新了全球十項(xiàng)權(quán)威評(píng)測紀(jì)錄,在具身導(dǎo)航與具身操作上均達(dá)到SOTA。

高德確認(rèn)入局具身智能,首個(gè)成果發(fā)布!

▲ABot-M0在Libero-Plus上的評(píng)測結(jié)果(上)、ABot-N0在Point-Goal上的評(píng)測結(jié)果(下)

其中,ABot-M0要解決的難題是機(jī)器人操作通用性,提升模型在多樣化機(jī)器人形態(tài)和任務(wù)場景下的泛化能力;ABot-N0要提升機(jī)器人在動(dòng)態(tài)、多干擾環(huán)境中的通用行動(dòng)能力。

根據(jù)技術(shù)報(bào)告,搭載ABot-N0的機(jī)器狗可以完成“帶我們?nèi)プ罱墓珗@放松一下”的復(fù)雜任務(wù)。該模型會(huì)首先解讀用戶的意圖,并查詢地形記憶庫以獲取目標(biāo)坐標(biāo),隨后分解為一系列中間子目標(biāo)最終成功引導(dǎo)機(jī)器人到達(dá)最終目的地。

高德確認(rèn)入局具身智能,首個(gè)成果發(fā)布!

此外,為解決機(jī)器人在執(zhí)行長程復(fù)雜任務(wù)時(shí)的任務(wù)拆解與容錯(cuò)問題,高德還提出了Agentic Navigation System具身導(dǎo)航系統(tǒng)框架,支持機(jī)器人在執(zhí)行過程中持續(xù)感知、記憶、決策與糾錯(cuò)。該系統(tǒng)已部署于真實(shí)四足機(jī)器人平臺(tái)。

今年1月,新浪科技曾援引知情人士報(bào)道,高德內(nèi)部已組建具身業(yè)務(wù)部,并在全球范圍內(nèi)招攬具身智能產(chǎn)品專家及算法工程師。高德計(jì)劃將世界模型作為底層大腦,探索包括人形機(jī)器人、機(jī)器狗在內(nèi)的多元化產(chǎn)品形態(tài),實(shí)現(xiàn)從數(shù)字導(dǎo)航到實(shí)體行動(dòng)的跨越。

ABot-M0項(xiàng)目主頁:https://amap-cvlab.github.io/ABot-Manipulation/

ABot-N0項(xiàng)目主頁:https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/

一、ABot-M0:主攻機(jī)器人泛化性難題,三大主流基準(zhǔn)測試拿下SOTA

機(jī)器人技術(shù)的規(guī)模化應(yīng)用關(guān)鍵挑戰(zhàn)之一在于數(shù)據(jù)的割裂、動(dòng)作表示的不統(tǒng)一以及空間理解能力的不足。不同廠商、不同形態(tài)的機(jī)器人往往使用各自獨(dú)立的數(shù)據(jù)體系,導(dǎo)致模型難以跨平臺(tái)復(fù)用,訓(xùn)練效率受限,部署成本高。

高德推出的通用具身操作基礎(chǔ)模型ABot-M0,從數(shù)據(jù)統(tǒng)一、算法革新、空間感知三個(gè)方面進(jìn)行了系統(tǒng)性重構(gòu),可提升模型在多樣化機(jī)器人形態(tài)和任務(wù)場景下的泛化能力。

高德確認(rèn)入局具身智能,首個(gè)成果發(fā)布!

在具身智能領(lǐng)域主流三大開源仿真評(píng)測基準(zhǔn)Libero、Libero-Plus、RoboCasa測試中,該模型在包含復(fù)雜任務(wù)組合與動(dòng)態(tài)場景擾動(dòng)的設(shè)定下,平均任務(wù)成功率均達(dá)到SOTA。

在考驗(yàn)VLA模型在真實(shí)擾動(dòng)下的脆弱性的Libero-Plus基準(zhǔn)上,該模型得分達(dá)到80.5%,較Pi0提升近30%,展現(xiàn)了其在高擾動(dòng)高難度具身操作任務(wù)中的優(yōu)勢(shì)。

高德確認(rèn)入局具身智能,首個(gè)成果發(fā)布!

▲ABot-M0在Libero-Plus上的評(píng)測結(jié)果

根據(jù)其技術(shù)報(bào)告,在訓(xùn)練數(shù)據(jù)方面,研究人員整合了整合超過600萬條真實(shí)操作軌跡,涵蓋9500多個(gè)小時(shí)的訓(xùn)練數(shù)據(jù)和20多個(gè)不同的機(jī)器人模型,為ABot-M0構(gòu)建了目前規(guī)模最大的通用機(jī)器人數(shù)據(jù)集UniACT。

高德確認(rèn)入局具身智能,首個(gè)成果發(fā)布!

▲UniACT數(shù)據(jù)集概覽

該數(shù)據(jù)集通過統(tǒng)一動(dòng)作表示、坐標(biāo)系與控制頻率,并采用增量式動(dòng)作建模,實(shí)現(xiàn)跨平臺(tái)數(shù)據(jù)融合,可支撐完全基于公開數(shù)據(jù)的模型預(yù)訓(xùn)練。

訓(xùn)練策略上,研究人員采用了兩階段訓(xùn)練模式,第一階段為大規(guī)模預(yù)訓(xùn)練,用于構(gòu)建可泛化的動(dòng)作先驗(yàn),第二階段為基于知識(shí)注入的空間感知監(jiān)督微調(diào)。

第一階段訓(xùn)練中,ABot-M0提出了全球首個(gè)動(dòng)作流形學(xué)習(xí),具體為有效的機(jī)器人動(dòng)作受限于物理規(guī)律、任務(wù)目標(biāo)與環(huán)境約束,集中分布在低維結(jié)構(gòu)化的流形上。然后,研究人員通過AML(Action Manifold Learning)算法,使模型能夠直接預(yù)測結(jié)構(gòu)合理、物理可行的動(dòng)作序列,以提升策略的穩(wěn)定性與解碼效率。

高德確認(rèn)入局具身智能,首個(gè)成果發(fā)布!

為增強(qiáng)機(jī)器人的空間感知能力,ABot-M0還引入了3D感知模塊,可增強(qiáng)模型對(duì)前后、遠(yuǎn)近、遮擋等空間語義的理解。

高德確認(rèn)入局具身智能,首個(gè)成果發(fā)布!

▲三維信息注入流程

二、ABot-N0:集成五大導(dǎo)航任務(wù),全球首個(gè)!

在實(shí)際場景中,機(jī)器人需要在動(dòng)態(tài)且存在干擾的環(huán)境里展現(xiàn)出通用的行動(dòng)能力,如跨場景送物或跟隨服務(wù)。但當(dāng)前的機(jī)器人會(huì)受困于環(huán)境看不懂、動(dòng)作做不準(zhǔn),無法執(zhí)行“去門口幫我看看快遞”等復(fù)雜指令。

基于此,高德推出了具身導(dǎo)航基座模型ABot-N0。

該模型在七大具身智能領(lǐng)域的基準(zhǔn)測試CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench中刷新了世界紀(jì)錄。

其中在考驗(yàn)機(jī)器人在人群中社交導(dǎo)航能力的SocNav閉環(huán)仿真中,ABot-N0成功率(SR)提升至40.5%,在HM3D-OVON評(píng)測中成功率(SR)提升8.8%,表現(xiàn)優(yōu)于此前的SOTA模型。

高德確認(rèn)入局具身智能,首個(gè)成果發(fā)布!

▲ABot-N0在多個(gè)數(shù)據(jù)集上的評(píng)測結(jié)果

根據(jù)技術(shù)報(bào)告,該模型以“全任務(wù)一統(tǒng)”為核心目標(biāo),全球首次在單一模型中完整集成Point-Goal(點(diǎn)位導(dǎo)航)、Object-Goal(目標(biāo)導(dǎo)航)、Instruction-Following(指令跟隨)、POI-Goal(興趣點(diǎn)導(dǎo)航)與Person-Following(人物跟隨)五大導(dǎo)航任務(wù)。

點(diǎn)位導(dǎo)航:機(jī)器人必須達(dá)到在局部坐標(biāo)系中定義的精確度量坐標(biāo),作為穩(wěn)健運(yùn)動(dòng)和避障的基礎(chǔ);

目標(biāo)導(dǎo)航:機(jī)器人在未見過的環(huán)境中主動(dòng)搜索并導(dǎo)航到特定對(duì)象類別,需要復(fù)雜的語義推理和多模態(tài)集成;

指令跟隨:機(jī)器人必須執(zhí)行長遠(yuǎn)、復(fù)雜的自然語言路徑,重點(diǎn)在于語言輸入與順序動(dòng)作執(zhí)行之間的嚴(yán)格對(duì)齊

興趣點(diǎn)導(dǎo)航:要求機(jī)器人識(shí)別特定的興趣點(diǎn)并精確導(dǎo)航到其物理入口,連接室外和室內(nèi)環(huán)境,同時(shí)解決最后幾米的導(dǎo)航挑戰(zhàn);

人物跟隨:涉及對(duì)動(dòng)態(tài)人類目標(biāo)的實(shí)時(shí)跟蹤,代表了人機(jī)交互的一項(xiàng)關(guān)鍵社交能力。

這使得搭載ABot-N0的機(jī)器人可以完成“帶我去奶茶店買一杯奶茶,再幫我占個(gè)座”的復(fù)雜指令。面對(duì)該需求,系統(tǒng)會(huì)分解導(dǎo)航任務(wù):根據(jù)地圖記憶接近奶茶店區(qū)域完成點(diǎn)位導(dǎo)航,切換至目標(biāo)導(dǎo)航鎖定店鋪入口并靠近,觸發(fā)指令跟隨進(jìn)入店鋪并導(dǎo)航至柜臺(tái);最后執(zhí)行目標(biāo)導(dǎo)航,在店內(nèi)尋找空沙發(fā)并??俊?/p>

高德確認(rèn)入局具身智能,首個(gè)成果發(fā)布!

集成了五大導(dǎo)航的ABot-N0,能讓機(jī)器人成功執(zhí)行長程復(fù)雜任務(wù)。

高德確認(rèn)入局具身智能,首個(gè)成果發(fā)布!

▲ABot-N0架構(gòu)圖

高德在模型架構(gòu)方面采用了層次化的“大腦?動(dòng)作”設(shè)計(jì),并構(gòu)建了業(yè)內(nèi)最大規(guī)模具身導(dǎo)航數(shù)據(jù)引擎。

具體來看,“大腦?動(dòng)作”設(shè)計(jì)由“認(rèn)知大腦”理解指令并做推理,由基于流匹配(Flow Matching)的“動(dòng)作專家”生成精確且多峰分布的連續(xù)軌跡。訓(xùn)練層面,研究人員會(huì)先讓模型做認(rèn)知訓(xùn)練,再用部分認(rèn)知數(shù)據(jù)和海量導(dǎo)航動(dòng)作進(jìn)行聯(lián)合監(jiān)督微調(diào),最后用強(qiáng)化學(xué)習(xí)把導(dǎo)航?jīng)Q策對(duì)齊到人類偏好的行為價(jià)值,最終打造出真實(shí)環(huán)境中更通用的VLA基座模型。

其構(gòu)建的具身導(dǎo)航數(shù)據(jù)集涵蓋約8000個(gè)高保真3D場景等海量時(shí)空數(shù)據(jù)與近1700萬條專家示例,包含7802個(gè)高保真三維場景,覆蓋6.25公里的室內(nèi)環(huán)境和4.42公里的室外環(huán)境。

高德確認(rèn)入局具身智能,首個(gè)成果發(fā)布!

▲ABot-N0的數(shù)據(jù)集

結(jié)語:憑海量空間認(rèn)知數(shù)據(jù),地圖廠商切入具身智能賽道

作為地圖導(dǎo)航領(lǐng)域的頭部大廠,高德此前積累了大量的時(shí)空數(shù)據(jù)、環(huán)境理解與動(dòng)態(tài)規(guī)劃能力,此次其推出的兩大模型分別聚焦機(jī)器人通用操作泛化與復(fù)雜環(huán)境魯棒行動(dòng),或進(jìn)一步將地圖平臺(tái)的空間智能優(yōu)勢(shì)轉(zhuǎn)化為機(jī)器人在真實(shí)世界的感知、決策與執(zhí)行能力。

高德切入具身智能賽道,其具備天然的海量空間認(rèn)知數(shù)據(jù),或成為具身智能賽道中不可忽視的重要力量,加速機(jī)器人實(shí)現(xiàn)自主決策與執(zhí)行。