機(jī)器人前瞻(公眾號(hào):robot_pro)
作者?|??許麗思
編輯?|??漠影

機(jī)器人前瞻11月5日?qǐng)?bào)道,今天,銀河通用聯(lián)合北京大學(xué)、阿德萊德大學(xué)、浙江大學(xué)等團(tuán)隊(duì),推出了全球首個(gè)跨本體全域環(huán)視的導(dǎo)航基座大模型——NavFoM(Navigation Foundation Model)。

在今年6月,銀河通用發(fā)布端到端導(dǎo)航大模型TrackVLA,讓機(jī)器狗在未訓(xùn)練過的真實(shí)場(chǎng)景跟隨用戶,完成自主移動(dòng)、避障、轉(zhuǎn)向,并能聽懂語音語音指令。 而這次發(fā)布的NavFoM則是讓機(jī)器人具備了更強(qiáng)的自主性,在完全未知的環(huán)境中自己決定去哪、怎么走。

全球首個(gè)!機(jī)器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)
比如,在執(zhí)行送甜點(diǎn)的任務(wù)時(shí),NavFoM能夠讓機(jī)器狗跟隨用戶行動(dòng),遇到人流密集的情況,自主避開;而當(dāng)跟隨的人員從視線消失后,它可以自主分析尋找。

全球首個(gè)!機(jī)器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

機(jī)器狗支持從跟隨模式切換至導(dǎo)航模式,自主規(guī)劃路線,知道過馬路要走斑馬線,避開可移動(dòng)物體,遵守交規(guī);導(dǎo)航讓走過街天橋,機(jī)器狗也是說一不二,穩(wěn)妥地完成上樓梯、下樓梯,最終將物品送抵目的地。

全球首個(gè)!機(jī)器人也有“高德”了,銀河通用聯(lián)合北大研發(fā) 全球首個(gè)!機(jī)器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

一、模型支持適配多種不同本體,讓機(jī)器人學(xué)會(huì)自己找路,

NavFoM作為基座大模型,具有以下三大亮點(diǎn):

全場(chǎng)景:同時(shí)支持室內(nèi)和室外場(chǎng)景,未見過的場(chǎng)景 Zero-Shot 運(yùn)行,無需建圖和額外采集訓(xùn)練數(shù)據(jù);

多任務(wù):支持自然語言指令驅(qū)動(dòng)的目標(biāo)跟隨和自主導(dǎo)航等不同細(xì)分導(dǎo)航任務(wù);

跨本體:可快速低成本適配機(jī)器狗、輪式人形、腿式人形、無人機(jī)、甚至汽車等不同尺寸的異構(gòu)本體。

除此之外,該模型允許開發(fā)人員以之為基座,通過后訓(xùn)練,進(jìn)一步進(jìn)化成滿足特定導(dǎo)航要求的應(yīng)用模型。

而這背后,是NavFoM重新定義了機(jī)器人導(dǎo)航的底層邏輯。過去,導(dǎo)航任務(wù)往往被拆分成識(shí)別、定位、規(guī)劃等獨(dú)立模塊,模型之間缺乏統(tǒng)一語言。

NavFoM則建立了一個(gè)新的通用范式:“視頻流 + 文本指令 → 動(dòng)作軌跡”。無論是“跟著那個(gè)人走”,還是“找到門口的紅車”,在 NavFoM 里都是同一種輸入輸出形式。模型不再依賴模塊化拼接,而是端到端地完成“看到—理解—行動(dòng)”的全過程。

全球首個(gè)!機(jī)器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

NavFoM通過兩項(xiàng)關(guān)鍵技術(shù)創(chuàng)新構(gòu)建統(tǒng)一學(xué)習(xí)范式,讓機(jī)器人不僅看得懂、記得住、學(xué)得會(huì),還能聯(lián)合利用不同本體、不同任務(wù)和不同場(chǎng)景的數(shù)據(jù)實(shí)現(xiàn)知識(shí)共享:

1、TVI Tokens(Temporal-Viewpoint-Indexed Tokens)——讓模型理解時(shí)間與方向

不同相機(jī)、不同角度、不同時(shí)間拍到的畫面,常常讓模型“迷失”。TVI Tokens 就像時(shí)間軸與方向羅盤,給每一幀畫面加上時(shí)間和視角的標(biāo)記,讓模型知道這幅圖像來自哪個(gè)角度、哪個(gè)時(shí)刻,從而理解空間的連續(xù)變化。它讓模型同時(shí)兼容單目、環(huán)視、無人機(jī)等多種視覺輸入方式,具備“世界在變化”的時(shí)空理解能力。

全球首個(gè)!機(jī)器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

2、BATS 策略(Budget-Aware Token Sampling)——讓模型在算力受限下依然聰明

導(dǎo)航時(shí)的視頻數(shù)據(jù)極其龐大,不可能每一幀都處理。BATS 策略像人類的注意力系統(tǒng),會(huì)動(dòng)態(tài)判斷哪些畫面是“關(guān)鍵幀”,哪些可以略過。越靠近當(dāng)前時(shí)刻、越重要的場(chǎng)景,采樣概率越高,從而節(jié)省算力又不損失判斷準(zhǔn)確性。這一機(jī)制讓 NavFoM,這一7B參數(shù)級(jí)別的基座模型也能在真實(shí)機(jī)器人上毫秒級(jí)響應(yīng),兼顧實(shí)時(shí)性與精度。

全球首個(gè)!機(jī)器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

▲左為給定 Token 上限,在不同幀數(shù)下的采樣分布;右為給定視頻幀數(shù),在不同Token上限下的采樣分布

二、以千萬級(jí)高質(zhì)量數(shù)據(jù)為基礎(chǔ),一個(gè)模型驅(qū)動(dòng)所有形態(tài)

銀河通用構(gòu)建了一個(gè)跨任務(wù)數(shù)據(jù)集:包含八百萬條跨任務(wù)、跨本體導(dǎo)航數(shù)據(jù),覆蓋視覺語言導(dǎo)航,目標(biāo)導(dǎo)航,目標(biāo)跟蹤,自動(dòng)駕駛,網(wǎng)絡(luò)導(dǎo)航數(shù)據(jù)等多種任務(wù);以及四百萬條開放問答數(shù)據(jù),讓模型具備語言與空間之間的語義理解能力,這一訓(xùn)練量約為以往工作的兩倍左右。

全球首個(gè)!機(jī)器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

▲訓(xùn)練數(shù)據(jù)量對(duì)比

為降低訓(xùn)練對(duì)硬件的需求并支持更大規(guī)模訓(xùn)練,團(tuán)隊(duì)還對(duì)圖像數(shù)據(jù)采用了視覺特征緩存(cache)機(jī)制,從而減少在線計(jì)算開銷、提升訓(xùn)練效率,這些數(shù)據(jù)覆蓋了四足、人形、輪式、無人機(jī)等多種機(jī)器人形態(tài)。

全球首個(gè)!機(jī)器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

▲數(shù)據(jù)預(yù)處理

NavFoM?在多個(gè)國(guó)際公開基準(zhǔn)上均達(dá)到或刷新?SOTA?水平:在?VLN-CE、HM3D-OVON、NavSim?等任務(wù)中表現(xiàn)領(lǐng)先;在目標(biāo)搜索、視覺語言導(dǎo)航、自動(dòng)駕駛等任務(wù)上均展現(xiàn)強(qiáng)大的跨任務(wù)泛化能力。更重要的是,它能在真實(shí)機(jī)器人上直接部署,無需針對(duì)任務(wù)微調(diào),只需修改自然語言指令或相機(jī)配置即可。

在實(shí)測(cè)中,NavFoM?能夠驅(qū)動(dòng)多種形態(tài)機(jī)器人執(zhí)行復(fù)雜任務(wù):四足機(jī)器人長(zhǎng)程自主跟隨、輪式機(jī)器人室內(nèi)外混合導(dǎo)航、無人機(jī)復(fù)雜地形規(guī)劃飛行、自動(dòng)駕駛系統(tǒng)的路徑推理與避障決策。

三、針對(duì)不同場(chǎng)景需求,已發(fā)布三個(gè)應(yīng)用模型

以 NavFoM 的統(tǒng)一架構(gòu)為基石,銀河通用針對(duì)不同的落地需求,訓(xùn)練并發(fā)布了三個(gè)的應(yīng)用模型:

TrackVLA++?:其能力相對(duì)于TrackVLA顯著升級(jí),能實(shí)現(xiàn) 30 分鐘以上穩(wěn)定的長(zhǎng)程自主跟隨,室內(nèi)和室外均不在話下、并能適應(yīng)多種更復(fù)雜路況和地形。

全球首個(gè)!機(jī)器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

UrbanVLA:針對(duì)室外場(chǎng)景應(yīng)用需求,和 第三方地圖軟件打通,可根據(jù)地圖指引,自主規(guī)劃最優(yōu)路線并行至目的地,在街道、天橋、單元樓等各種環(huán)境中穿梭自如。

全球首個(gè)!機(jī)器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

MM-Nav:?支持 360° 無死角厘米級(jí)純視覺避障,解決了躲避玻璃、細(xì)線等難題。

全球首個(gè)!機(jī)器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

結(jié)語:機(jī)器人具有方向感,是未來具身智能大規(guī)模落地的關(guān)鍵

像 NavFoM 這樣的基座模型的出現(xiàn),讓機(jī)器人具備理解空間、適應(yīng)變化、自主行走的能力,是未來具身智能大規(guī)模落地的關(guān)鍵。

當(dāng)機(jī)器人能夠在陌生街區(qū)中找路、在人群中穿行、在復(fù)雜空間中預(yù)測(cè)障礙,擁有了像人類一樣的方向感時(shí),就能進(jìn)一步突破固定場(chǎng)景作業(yè)的限制,融入更多核心應(yīng)用領(lǐng)域,加速人機(jī)協(xié)同時(shí)代的到來。