機(jī)器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影

機(jī)器人前瞻2月10日報(bào)道,今天,阿里巴巴達(dá)摩院發(fā)布具身智能大腦基礎(chǔ)模型RynnBrain。全系列共計(jì)7個模型,其中包括 RynnBrain-30B-A3B。

RynnBrain全系列共計(jì)7個模型,包含2B、8B、30B三種參數(shù)規(guī)模的RynnBrain基礎(chǔ)模型,以及針對特定場景的后訓(xùn)練專有模型RynnBrain-Nav(導(dǎo)航)與RynnBrain-Plan-30B(規(guī)劃)等共計(jì)7個。
其中,RynnBrain-30B-A3B是業(yè)界首個MoE具身基礎(chǔ)模型,其只需要3B的推理激活參數(shù)就全面超越了當(dāng)前規(guī)模最大的具身基礎(chǔ)模型Palican-VL-72B,讓機(jī)器人動作更快、更絲滑。
機(jī)器人的健忘癥有救了!阿里達(dá)摩院一口氣開源7個具身模型

RynnBrain是業(yè)內(nèi)首個擁有時空記憶的具身大腦基礎(chǔ)模型,引入了時空記憶物理世界推理,讓機(jī)器人具有理解“時”與“空”的能力。

簡單來說,就是機(jī)器人可以記得過去的軌跡,看懂現(xiàn)在的畫面,還能預(yù)判未來的動作,具有了全局時空回溯能力,減少了幻覺問題。

比如,在雜亂的桌子面前,機(jī)器人正忙著給桌上的食物分類。

機(jī)器人的健忘癥有救了!阿里達(dá)摩院一口氣開源7個具身模型

突然,它收到了“請幫我拿一個面包”的指令,選擇先停下手里的動作,把面包遞給人類。

機(jī)器人的健忘癥有救了!阿里達(dá)摩院一口氣開源7個具身模型

然后,它再繼續(xù)轉(zhuǎn)頭處理剛剛的未完成的分類整理工作。

機(jī)器人的健忘癥有救了!阿里達(dá)摩院一口氣開源7個具身模型

在16項(xiàng)具身開源評測榜單上,RynnBrain刷新了紀(jì)錄(SOTA),超越谷歌Gemini Robotics ER 1.5等行業(yè)頂尖模型。

GitHub:https://github.com/alibaba-damo-academy/RynnBrain

項(xiàng)目主頁:https://alibaba-damo-academy.github.io/RynnBrain.github.io/

hugging face:https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

一、訓(xùn)練速度提升兩倍,讓機(jī)器人擁有全局時空回溯能力

RynnBrain在Qwen3-VL的基礎(chǔ)上訓(xùn)練,還使用了自研的RynnScale架構(gòu)對Dense模型和MOE模型進(jìn)行訓(xùn)練優(yōu)化,能夠在同等資源下,訓(xùn)練速度提升兩倍。同時,訓(xùn)練數(shù)據(jù)超過2000萬對。

機(jī)器人的健忘癥有救了!阿里達(dá)摩院一口氣開源7個具身模型

▲RynnBrain模型架構(gòu)

RynnBrain能夠讓機(jī)器人實(shí)現(xiàn)堪比人類的全局時空回溯能力,關(guān)鍵在于做到了涵蓋空間、位置、事件、軌跡等多維度信息的統(tǒng)一表征。其所構(gòu)建的統(tǒng)一框架,能夠把機(jī)器人所接觸到的各種各樣的信息統(tǒng)一映射到模型的輸出空間里,將時間維度、空間坐標(biāo)與語義理解融為一體。

RynnBrain具有物理空間推理的能力,采用了一種全新的“文本與空間定位交錯”的推理策略,使得模型在推理時,不僅生成語言判斷,還會同步給出對應(yīng)的空間指向信息。

RynnBrain還擁有良好的可拓展性,能夠快速后訓(xùn)練出導(dǎo)航、規(guī)劃、動作等多種具身模型。以具身規(guī)劃模型為例,其需要強(qiáng)大預(yù)測能力和場景解析能力,但基于RynnBrain為基礎(chǔ),只需幾百條數(shù)據(jù)微調(diào),效果就能超越Gemini 3 Pro,輕松實(shí)現(xiàn)SOTA。

機(jī)器人的健忘癥有救了!阿里達(dá)摩院一口氣開源7個具身模型

▲RynnBrain具有認(rèn)知、定位、推理、規(guī)劃等多重能力

達(dá)摩院這次不僅開源了RynnBrain模型,而且配套開放了完整的推理訓(xùn)練代碼。

另外,達(dá)摩院還開源了全新評測基準(zhǔn)RynnBrain-Bench。這是一個用于評估具身理解能力的高維基準(zhǔn)測試,從物體認(rèn)知、空間認(rèn)知、語義定位和指向交互四個核心維度全面評估模型性能,重點(diǎn)關(guān)注模型在連續(xù)視頻序列中對細(xì)粒度信息的理解能力與時空定位精度。

二、實(shí)現(xiàn)了16個SOTA,超越谷歌、英偉達(dá)的具身頂尖模型

結(jié)果顯示,RynnBrain,在16項(xiàng)具身開源評測榜單上刷新紀(jì)錄(SOTA),包括環(huán)境感知與對象推理、第一人稱視覺問答、空間推理、軌跡預(yù)測等,超越了谷歌Gemini Robotics ER 1.5、英偉達(dá) Cosmos Reason 2等具身頂尖模型。

來看看模型在宇樹G1上的部署情況:

在執(zhí)行“把盤子放回原位”的任務(wù)時候,G1能夠準(zhǔn)確識別盤子,并在盤子不停移動的情況下保持對其空間位置的記憶,具有物體記憶與空間記憶能力。

機(jī)器人的健忘癥有救了!阿里達(dá)摩院一口氣開源7個具身模型

面臨三個面包分兩個盤子的難題時,機(jī)器人的空間規(guī)劃與長程規(guī)劃能力使它能找到合適的分配方法,把多出的一個面包疊在中間。

機(jī)器人的健忘癥有救了!阿里達(dá)摩院一口氣開源7個具身模型

物體記憶能力與復(fù)雜視頻理解能力,使機(jī)器人能夠認(rèn)出之前被喝過的礦泉水,并在復(fù)雜的變換中始終保持對物體的記憶。

機(jī)器人的健忘癥有救了!阿里達(dá)摩院一口氣開源7個具身模型 機(jī)器人的健忘癥有救了!阿里達(dá)摩院一口氣開源7個具身模型

常識理解與中文OCR能力,讓機(jī)器人能夠根據(jù)用戶“尋找低卡低糖的飲料”的需求,觀察瓶身的文字標(biāo)簽,選擇出合適的飲料。

機(jī)器人的健忘癥有救了!阿里達(dá)摩院一口氣開源7個具身模型

結(jié)語:具身模型智能水平,已成為業(yè)內(nèi)亟需解決的關(guān)鍵瓶頸

目前,具身模型的智能水平成了行業(yè)發(fā)展的關(guān)鍵瓶頸,泛化能力亟待提升。業(yè)內(nèi)主要探索兩條技術(shù)路線:一條是動作模型,以VLA模型為代表,能直接操控物理世界,但因數(shù)據(jù)稀缺,泛化能力不足;另一條是大腦模型,比如VLM模型,本身有一定泛化能力,卻缺少記憶、動態(tài)認(rèn)知有限,還會出現(xiàn)物理認(rèn)知偏差,無法支撐人形機(jī)器人完成復(fù)雜的移動與操作任務(wù)。

RynnBrain的出現(xiàn),在一定程度上解決了具身模型在時空記憶與物理空間推理的短板。達(dá)摩院不僅開源了RynnBrain模型,還配套開放了完整的推理訓(xùn)練代碼、全新評測基準(zhǔn)RynnBrain-Bench,為產(chǎn)業(yè)帶來了統(tǒng)一的基礎(chǔ)設(shè)施和評估標(biāo)準(zhǔn),推動降低了具身智能領(lǐng)域的研發(fā)門檻。