機(jī)器人前瞻(公眾號(hào):robot_pro)
作者?|? 程茜
編輯?|??漠影

機(jī)器人前瞻1月27日?qǐng)?bào)道,昨日晚間,智源研究院正式發(fā)布新一代具身智能大腦基礎(chǔ)模型RoboBrain 2.5,該模型在空間推理與時(shí)序價(jià)值估計(jì)的多項(xiàng)基準(zhǔn)測(cè)試中取得SOTA。這一模型的兩大升級(jí)點(diǎn)為,空間定位更精準(zhǔn),以及執(zhí)行過(guò)程實(shí)時(shí)反饋以強(qiáng)化操作穩(wěn)定性。

對(duì)應(yīng)到技術(shù)細(xì)節(jié)就是精確3D空間推理(Precise 3D Spatial Reasoning)與稠密時(shí)序價(jià)值預(yù)測(cè)(Dense Temporal Value Estimation)。

可以看到在下面的空間關(guān)系推理案例中,搭載RoboBrain 2.5模型的機(jī)械臂準(zhǔn)確判斷了離相機(jī)最近的盤(pán)子、左邊的蘋(píng)果是哪個(gè),然后對(duì)運(yùn)動(dòng)路徑進(jìn)行規(guī)劃完成操作。

具體來(lái)看,RoboBrain 2.5在空間感知和推理能力,以及稠密時(shí)序價(jià)值方面分別實(shí)現(xiàn)了三大升級(jí):

1、空間維度升級(jí):從預(yù)測(cè)2D圖像上的坐標(biāo)點(diǎn)升級(jí)為預(yù)測(cè)3D空間中帶有深度信息的坐標(biāo)點(diǎn)。

2、度量精度升級(jí):從理解相對(duì)空間關(guān)系到測(cè)量絕對(duì)3D空間度量信息,模型能夠精確理解“懸停在上方1~5厘米處等物理約束指令;

3、操作規(guī)劃升級(jí):從預(yù)測(cè)拾取和放置的單個(gè)目標(biāo)點(diǎn)升級(jí)為預(yù)測(cè)描述完整操作過(guò)程的系列關(guān)鍵點(diǎn),具備帶有3D絕對(duì)度量的空間規(guī)劃能力。

4、密集進(jìn)度預(yù)測(cè):能夠在不同任務(wù)、視角和形態(tài)之間進(jìn)行多粒度任務(wù)進(jìn)度預(yù)測(cè)。

5、執(zhí)行狀態(tài)估計(jì):理解任務(wù)目標(biāo),并在執(zhí)行過(guò)程中估計(jì)各種狀態(tài)(例如,成功、失敗、錯(cuò)誤發(fā)生)。

6、賦能VLA強(qiáng)化學(xué)習(xí):為VLA強(qiáng)化學(xué)習(xí)提供實(shí)時(shí)、密集的反饋信號(hào)和獎(jiǎng)勵(lì)。僅通過(guò)一次演示,在復(fù)雜、細(xì)粒度的操作中即可實(shí)現(xiàn)95%以上的任務(wù)成功率。

值得一提的是,RoboBrain 2.5已經(jīng)在摩爾線(xiàn)程等多種AI芯片集群上,完成了完整的端到端訓(xùn)練與對(duì)齊驗(yàn)證。智源研究院在Hugging Face上發(fā)布了RoboBrain 2.5-8B檢查點(diǎn):RoboBrain 2.5-8B-NV和RoboBrain 2.5-8B-MT,這兩個(gè)變體具有相同的架構(gòu)和訓(xùn)練數(shù)據(jù)、性能相似,不同之處在于NV在NVIDIA GPU集群上訓(xùn)練,MT在摩爾線(xiàn)程GPU集群上訓(xùn)練。

GitHub地址:https://github.com/FlagOpen/RoboBrain2.5

Hugging Face地址:https://huggingface.co/collections/BAAI/robobrain25

一、雜亂房間準(zhǔn)確規(guī)劃運(yùn)動(dòng)路徑,長(zhǎng)時(shí)跟蹤參考信號(hào)不偏移

智源研究院放出了不少RoboBrain 2.5的實(shí)測(cè)演示。

在3D空間推理上,下面展示了RoboBrain 2.5在面向機(jī)器人空間軌跡推理的專(zhuān)用評(píng)測(cè)基準(zhǔn)TraceSpatial-Bench的表現(xiàn),其中黃色遮罩標(biāo)記了目標(biāo)物體,粉色3D框標(biāo)記了正確的末端區(qū)域。可以看出,RoboBrain 2.5產(chǎn)生的空間軌跡比通用VLM更準(zhǔn)確。

二、兩大技術(shù)升級(jí),讓機(jī)器人在三維空間里精準(zhǔn)定位

當(dāng)前通用模型有兩個(gè)局限性。在空間維度上,模型存在度量盲區(qū),其雖能理解2D圖像中的目標(biāo)與關(guān)系,卻缺乏將其轉(zhuǎn)化為真實(shí)尺度下可執(zhí)行3D軌跡的能力;在時(shí)間維度上,多數(shù)模型仍將動(dòng)作生成簡(jiǎn)化為靜態(tài)序列預(yù)測(cè),無(wú)法對(duì)操作過(guò)程中出現(xiàn)的打滑、偏移等動(dòng)態(tài)變化做出實(shí)時(shí)評(píng)估與調(diào)整,致使長(zhǎng)任務(wù)難以穩(wěn)定完成。

為了彌合這一差距,具身智能基礎(chǔ)模型需要將空間感知能力從“2D指點(diǎn)”升級(jí)為“精確3D規(guī)劃”,簡(jiǎn)言之就是,之前的空間感知能力是在平面圖片上指點(diǎn),需要升級(jí)為在真實(shí)三維空間里精準(zhǔn)判斷位置、距離、規(guī)劃操作路徑。

基于此,智源研究院提出RoboBrain 2.5,引入兩項(xiàng)增強(qiáng)功能。

給機(jī)器人裝上“3D大腦外掛”!智源新具身智能大腦來(lái)了,跨英偉達(dá)、摩爾線(xiàn)程GPU訓(xùn)練

首先,研究人員引入了精確3D空間推理(Precise 3D Spatial Reasoning)框架。

機(jī)器人通常需要根據(jù)日益復(fù)雜且空間受限的指令執(zhí)行動(dòng)作,如讓機(jī)器人“用噴壺從左到右給花朵澆水,在每朵花上方1~5厘米處懸?!保壳癡LA模型難以勝任此類(lèi)任務(wù)。

因此需要為其生成3D位置序列,來(lái)指導(dǎo)機(jī)器人生成實(shí)際動(dòng)作軌跡,每個(gè)推理步驟需要兩個(gè)關(guān)鍵組成部分,一是3D空間參照,用于解析空間關(guān)系并精確定位軌跡生成過(guò)程中涉及的物體,如識(shí)別花朵及其從左到右的順序并確定它們的位置;二是3D空間測(cè)量,用于理解與所捕獲場(chǎng)景中軌跡相關(guān)的絕對(duì)真實(shí)世界度量量,如量化每朵花的實(shí)際高度以及其上方1~5厘米的高度。

給機(jī)器人裝上“3D大腦外掛”!智源新具身智能大腦來(lái)了,跨英偉達(dá)、摩爾線(xiàn)程GPU訓(xùn)練

接著需要進(jìn)行3D任務(wù)制定,其將三維空間追蹤形式化為,通過(guò)視覺(jué)語(yǔ)言模型,根據(jù)RGB圖像等視覺(jué)輸入和文本指令,預(yù)測(cè)一個(gè)有序的三維點(diǎn)序列。然后讓其輸出“符合碰撞約束的可執(zhí)行關(guān)鍵點(diǎn)軌跡”,讓機(jī)器人具備更強(qiáng)的幾何可行性與動(dòng)作連貫性。

給機(jī)器人裝上“3D大腦外掛”!智源新具身智能大腦來(lái)了,跨英偉達(dá)、摩爾線(xiàn)程GPU訓(xùn)練

第二大升級(jí)是稠密時(shí)序價(jià)值預(yù)測(cè)(Dense Temporal Value Estimation),可以提供實(shí)時(shí)、步進(jìn)感知的進(jìn)度評(píng)估作為時(shí)間值反饋,為機(jī)器人提供過(guò)程監(jiān)督,如當(dāng)前執(zhí)行在哪一步?任務(wù)在有效推進(jìn)還是發(fā)生偏離、已經(jīng)失???

為降低長(zhǎng)軌跡執(zhí)行中的誤差累積、提升多視角魯棒性,RoboBrain 2.5從三個(gè)互補(bǔ)視角生成并融合進(jìn)度估計(jì)信號(hào):增量式(Incremental)精細(xì)捕捉局部動(dòng)態(tài),但易累積漂移;前向錨定(Forward-anchored)以初始狀態(tài)為全局參照,更穩(wěn)定;后向錨定(Backward-anchored)以目標(biāo)狀態(tài)為參照,對(duì)接近完成階段更敏感。

這三個(gè)環(huán)節(jié)的融合,可以讓模型得到更具抗漂移能力的價(jià)值信號(hào),用于支持長(zhǎng)時(shí)閉環(huán)執(zhí)行。

與此同時(shí),RoboBrain 2.5還保留了2.0版本的三大核心能力,包括支持具有長(zhǎng)時(shí)規(guī)劃與閉環(huán)反饋的交互推理、從復(fù)雜指令中進(jìn)行精確點(diǎn)與 bbox 預(yù)測(cè)的空間感知、用于未來(lái)軌跡估計(jì)的時(shí)間感知,以及通過(guò)實(shí)時(shí)結(jié)構(gòu)化記憶構(gòu)建和更新進(jìn)行場(chǎng)景推理。

三、在英偉達(dá)、摩爾線(xiàn)程平臺(tái)上訓(xùn)練,多個(gè)測(cè)試基準(zhǔn)達(dá)到SOTA

從基準(zhǔn)測(cè)試的評(píng)估結(jié)果來(lái)看,在多項(xiàng)空間推理與時(shí)序價(jià)值估計(jì)基準(zhǔn)任務(wù)上,RoboBrain 2.5取得了新的SOTA表現(xiàn)。

2D空間推理基準(zhǔn)測(cè)試的評(píng)估結(jié)果顯示,在NVIDIA GPU平臺(tái)和摩爾線(xiàn)程MTT GPU平臺(tái)上訓(xùn)練的RoboBrain-2.5模型變體均取得了75.82的平均分,相比通用基線(xiàn)和具身基線(xiàn)有提升。

給機(jī)器人裝上“3D大腦外掛”!智源新具身智能大腦來(lái)了,跨英偉達(dá)、摩爾線(xiàn)程GPU訓(xùn)練

▲RoboBrain 2.5各訓(xùn)練階段的詳細(xì)配置

與通用基線(xiàn)相比,RoboBrain-2.52D空間推理平均分高于Gemini-3-Pro-PreviewQwen3-VL-8B-InstGPT-5.2

給機(jī)器人裝上“3D大腦外掛”!智源新具身智能大腦來(lái)了,跨英偉達(dá)、摩爾線(xiàn)程GPU訓(xùn)練

在更強(qiáng)調(diào)可執(zhí)行性的3D任務(wù)上,RoboBrain 2.5在評(píng)估雜亂3D場(chǎng)景中基于度量的多步空間追蹤測(cè)試集TraceSpatial上,表現(xiàn)優(yōu)于Gemini-3-Pro-Preview、Qwen3-VL-8B-Inst、GPT-5.2。

給機(jī)器人裝上“3D大腦外掛”!智源新具身智能大腦來(lái)了,跨英偉達(dá)、摩爾線(xiàn)程GPU訓(xùn)練

此外評(píng)估操作進(jìn)展的精細(xì)時(shí)間價(jià)值估計(jì)上,RoboBrain 2.5在多個(gè)數(shù)據(jù)測(cè)試中,對(duì)操作對(duì)錯(cuò)的判斷能力更均衡、更一致,能讓模型更好地邊做邊學(xué),還能實(shí)時(shí)發(fā)現(xiàn)并糾正操作中的錯(cuò)誤。

給機(jī)器人裝上“3D大腦外掛”!智源新具身智能大腦來(lái)了,跨英偉達(dá)、摩爾線(xiàn)程GPU訓(xùn)練

在工程可擴(kuò)展性方面,智源研究院基于其眾智FlagOS多芯片統(tǒng)一AI系統(tǒng)軟件棧,推出了面向具身智能的訓(xùn)推一體化多芯片框架FlagOS-Robo。

基于智源研究院推出的面向具身智能的訓(xùn)推一體化多芯片框架FlagOS-RoboRoboBrain2.5在摩爾線(xiàn)程等多個(gè)AI芯片集群上,完成了完整的端到端訓(xùn)練與對(duì)齊驗(yàn)證。

實(shí)驗(yàn)結(jié)果表明,其訓(xùn)練損失值(loss)對(duì)齊,訓(xùn)練趨勢(shì)一致,最終loss差異為0.62%。

借助FlagOS-Robo,開(kāi)發(fā)者可以將基于摩爾線(xiàn)程、華為昇騰等各類(lèi)AI芯片平臺(tái)的訓(xùn)練成果,無(wú)縫遷移至天數(shù)智芯、英偉達(dá)等多種端側(cè)AI芯片平臺(tái)進(jìn)行推理驗(yàn)證。

四、超千萬(wàn)高質(zhì)量樣本訓(xùn)練,雙階段漸進(jìn)訓(xùn)練策略

在訓(xùn)練數(shù)據(jù)上,研究人員為RoboBrain 2.5的訓(xùn)練構(gòu)建了包含約1240萬(wàn)個(gè)高質(zhì)量樣本的統(tǒng)一語(yǔ)料庫(kù),并將其分為三個(gè)核心領(lǐng)域:用于魯棒語(yǔ)義感知的通用MLLM數(shù)據(jù),涵蓋從二維感知到度量感知三維追蹤的空間推理數(shù)據(jù),用于分層規(guī)劃和密集值估計(jì)的時(shí)間預(yù)測(cè)數(shù)據(jù)。

給機(jī)器人裝上“3D大腦外掛”!智源新具身智能大腦來(lái)了,跨英偉達(dá)、摩爾線(xiàn)程GPU訓(xùn)練

▲訓(xùn)練數(shù)據(jù)分布圖

在訓(xùn)練策略方面,與RoboBrain 2.0類(lèi)似,RoboBrain 2.5通過(guò)漸進(jìn)式的雙階段訓(xùn)練策略實(shí)現(xiàn)了具身認(rèn)知能力提升。

訓(xùn)練流程分為兩個(gè)不同的階段:通用時(shí)空基礎(chǔ)階段建立廣泛的視覺(jué)語(yǔ)義、二維空間基礎(chǔ)和開(kāi)環(huán)規(guī)劃能力;特定時(shí)空增強(qiáng)階段,在定量三維空間推理和密集時(shí)間值估計(jì)方面對(duì)模型進(jìn)行微調(diào),以確保精確的、度量感知的物理交互。

RoboBrain 2.5先通過(guò)大規(guī)模通用時(shí)空學(xué)習(xí)搭建“Generalist Brain(通用大腦)”,使其能夠理解多模態(tài)指令、將物體定位在二維空間中,并掌握高級(jí)規(guī)劃邏輯。

這一階段的作用是提供一個(gè)強(qiáng)魯棒、強(qiáng)泛化的初始化,讓模型先“看得懂、想得通”,為后續(xù)引入更嚴(yán)格的物理約束與精確監(jiān)督打下可遷移的通用底座。

第二階段是特定時(shí)空增強(qiáng),重點(diǎn)在于精確的定量推理。

研究人員通過(guò)兩條強(qiáng)化路徑把語(yǔ)義推理落到真實(shí)動(dòng)作層面:一方面引入面向度量的3D軌跡學(xué)習(xí)(Metric-Aware 3D Tracing),讓模型從定性空間關(guān)系邁向定量幾何約束,能夠?qū)W習(xí)絕對(duì)3D坐標(biāo)、深度軌跡以及可度量距離,從而輸出在真實(shí)尺度下可執(zhí)行的操作關(guān)鍵點(diǎn)與軌跡;另一方面升級(jí)時(shí)序建模為稠密價(jià)值估計(jì)(Dense Value Estimation),把原先的兩兩比較式時(shí)間價(jià)值學(xué)習(xí)推進(jìn)為顯式的Hop/進(jìn)度預(yù)測(cè),使模型具備可直接用作價(jià)值函數(shù)(critic)的在線(xiàn)反饋能力,進(jìn)而支持策略排序、過(guò)程監(jiān)控與錯(cuò)誤恢復(fù)等閉環(huán)需求。

結(jié)語(yǔ):四大升級(jí)重點(diǎn),要讓具身智能具備可持續(xù)優(yōu)化能力

在未來(lái)的研究中,智源研究院計(jì)劃從以下四個(gè)主要方向擴(kuò)展RoboBrain模型系列的功能和效率:

統(tǒng)一生成與理解范式:其目標(biāo)是將RoboBrain打造為融合時(shí)空理解與生成能力的統(tǒng)一架構(gòu),整合圖像、視頻的下一階段預(yù)測(cè)能力,使其成為具身世界模型,支撐智能體動(dòng)作預(yù)模擬,提升復(fù)雜環(huán)境下規(guī)劃的安全性與魯棒性。

在移動(dòng)操作和人形機(jī)器人上的部署:其將廣泛驗(yàn)證模型,并在各種真實(shí)世界平臺(tái)上部署模型。研究人員的重點(diǎn)是利用精確的3D空間推理來(lái)實(shí)現(xiàn)無(wú)需訓(xùn)練的操作泛化,同時(shí)利用密集時(shí)間值估計(jì)作為高保真獎(jiǎng)勵(lì)信號(hào),以在物理世界中驅(qū)動(dòng)高效的強(qiáng)化學(xué)習(xí)。

可擴(kuò)展模型系列和專(zhuān)用變體:為了適應(yīng)不同的計(jì)算約束和延遲要求,智源研究院計(jì)劃發(fā)布一系列具有不同參數(shù)規(guī)模的綜合模型,包括針對(duì)邊緣設(shè)備部署和高頻推理優(yōu)化的輕量級(jí)版本,以及將架構(gòu)解耦為不同的“指令”(快速執(zhí)行)和“思考”(慢速推理)版本,以平衡響應(yīng)速度和推理深度。

自演化數(shù)據(jù)引擎:其計(jì)劃構(gòu)建一個(gè)閉環(huán)數(shù)據(jù)引擎,通過(guò)利用密集值估計(jì)器自動(dòng)過(guò)濾和標(biāo)注大規(guī)模未經(jīng)整理的視頻,使得該模型可以通過(guò)自監(jiān)督學(xué)習(xí)迭代改進(jìn)自身,從而形成持續(xù)提升能力的飛輪效應(yīng)。

與此同時(shí),RoboBrain2.5的技術(shù)突破也揭示了,具身智能規(guī)?;l(fā)展的核心,不僅在于強(qiáng)化推理能力,更關(guān)鍵是實(shí)現(xiàn)與物理世界的對(duì)齊,以及具備可持續(xù)的閉環(huán)優(yōu)化能力。