智東西(公眾號(hào):zhidxcom)
作者 | 李水青
編輯 | 云鵬

智東西8月11日?qǐng)?bào)道,在世界機(jī)器人大會(huì)上,阿里達(dá)摩院宣布開(kāi)源其自研的 VLA(視覺(jué)-語(yǔ)言-動(dòng)作) 模型RynnVLA-001-7B、世界理解模型RynnEC、以及機(jī)器人上下文協(xié)議RynnRCP,推動(dòng)數(shù)據(jù)、模型和機(jī)器人的兼容適配,打通具身智能開(kāi)發(fā)全流程。

達(dá)摩院將MCP(模型上下文協(xié)議)理念引入具身智能,首次提出并開(kāi)源RCP(Robotics Context Protocol)協(xié)議,推出一套完整的機(jī)器人服務(wù)協(xié)議和框架RynnRCP。它類(lèi)似于一個(gè)“萬(wàn)能連接器”,能夠打通從傳感器數(shù)據(jù)采集、模型推理到機(jī)器人動(dòng)作執(zhí)行的完整工作流,目前已支持Pi0、GR00T N1.5等多款熱門(mén)模型以及SO-100、SO-101等多種機(jī)械臂。

RynnRCP是一套完整的機(jī)器人服務(wù)協(xié)議和框架,主要由兩個(gè)模塊組成:RCP框架和RobotMotion。

RCP目前實(shí)現(xiàn)的主要功能包括:提供機(jī)器人本體及相關(guān)傳感器能力的抽象,對(duì)外提供各種功能,并通過(guò)標(biāo)準(zhǔn)協(xié)議、不同的傳輸層和模型服務(wù)進(jìn)行交互;RobotMotion作為云端推理與機(jī)器人本體控制之間的橋梁,將離散的低頻推理命令實(shí)時(shí)轉(zhuǎn)換為高頻的連續(xù)控制信號(hào),驅(qū)動(dòng)機(jī)器人完成運(yùn)動(dòng)任務(wù)。此外,它還配備了運(yùn)動(dòng)規(guī)劃與控制所需的工具包,助力具身智能融入物理世界。

阿里達(dá)摩院開(kāi)源具身智能三件套!RCP協(xié)議首解機(jī)器人開(kāi)發(fā)碎片化難題

▲機(jī)器人上下文協(xié)議RynnRCP開(kāi)源頁(yè)面截圖

開(kāi)源地址:
https://github.com/alibaba-damo-academy/RynnRCP

RynnVLA-001是達(dá)摩院自研的基于視頻生成和人體軌跡預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言-動(dòng)作模型,能夠從第一人稱(chēng)視角的視頻中學(xué)習(xí)人類(lèi)的操作技能,隱式遷移到機(jī)器人手臂的操控上。

如下面動(dòng)圖所示,當(dāng)研發(fā)人員告訴機(jī)械臂把草莓放到手掌上,機(jī)械臂能夠理解語(yǔ)言的意思,隨后在一些物品中識(shí)別出草莓,拿起并放到正確的位置。

阿里達(dá)摩院開(kāi)源具身智能三件套!RCP協(xié)議首解機(jī)器人開(kāi)發(fā)碎片化難題

▲RynnVLA-001演示

研發(fā)人員在同一數(shù)據(jù)集上對(duì)基線進(jìn)行了微調(diào),以評(píng)估其性能。對(duì)比結(jié)果如下圖所示,RynnVLA-001在多項(xiàng)具體的撿拾物品放置測(cè)評(píng)中都取得了最高分成績(jī)。

阿里達(dá)摩院開(kāi)源具身智能三件套!RCP協(xié)議首解機(jī)器人開(kāi)發(fā)碎片化難題

▲RynnVLA-001測(cè)評(píng)結(jié)果

研發(fā)團(tuán)隊(duì)提供了如何使用開(kāi)發(fā)者自己的LeRobot數(shù)據(jù)(第 2 階段和第 3 階段)對(duì)模型進(jìn)行微調(diào)的說(shuō)明,后續(xù)還將發(fā)布如何從零開(kāi)始訓(xùn)練模型的說(shuō)明。

阿里達(dá)摩院開(kāi)源具身智能三件套!RCP協(xié)議首解機(jī)器人開(kāi)發(fā)碎片化難題

▲VLA模型RynnVLA-001開(kāi)源頁(yè)面截圖

開(kāi)源地址:
https://github.com/alibaba-damo-academy/RynnVLA-001

世界理解模型RynnEC將多模態(tài)大語(yǔ)言模型引入具身世界,賦予了大模型理解物理世界的能力。該模型能夠從位置、功能、數(shù)量等11個(gè)維度全面解析場(chǎng)景中的物體,并在復(fù)雜的室內(nèi)環(huán)境中精準(zhǔn)定位和分割目標(biāo)物體,建立連續(xù)的空間感知并支持靈活交互。

RynnEC是一種專(zhuān)為具身認(rèn)知任務(wù)設(shè)計(jì)的視頻多模態(tài)大型語(yǔ)言模型(MLLM),如下圖所示,能夠?qū)ΜF(xiàn)實(shí)世界中幾乎無(wú)限的事物進(jìn)行識(shí)別和認(rèn)知分析。本次,達(dá)摩院推出了RynnEC-2B 模型、RynnEC-Bench和訓(xùn)練代碼。

阿里達(dá)摩院開(kāi)源具身智能三件套!RCP協(xié)議首解機(jī)器人開(kāi)發(fā)碎片化難題

▲RynnEC演示

如下圖所示,RynnEC-2B在Direct Seg(直接分割)、Situational Seg(情境分割)、Material(材料)、State(狀態(tài))、Surface(表面)等對(duì)象認(rèn)知測(cè)試中超越了Gemini-2.5-Pro、Qwen2.5-VL-72B等頂尖模型,并在空間認(rèn)知測(cè)試中大幅超越了這些模型。

阿里達(dá)摩院開(kāi)源具身智能三件套!RCP協(xié)議首解機(jī)器人開(kāi)發(fā)碎片化難題

▲RynnEC-2B測(cè)評(píng)結(jié)果

聚焦RynnEC-Bench基準(zhǔn),其在兩個(gè)關(guān)鍵領(lǐng)域?qū)δP瓦M(jìn)行評(píng)估:object cognition(對(duì)象認(rèn)知)和spatial cognition(空間認(rèn)知),評(píng)估總體22體現(xiàn)的認(rèn)知能力。

阿里達(dá)摩院開(kāi)源具身智能三件套!RCP協(xié)議首解機(jī)器人開(kāi)發(fā)碎片化難題

▲世界理解模型RynnEC開(kāi)源頁(yè)面截圖

開(kāi)源地址:
https://github.com/alibaba-damo-academy/RynnEC

結(jié)語(yǔ):打通機(jī)器人從感知到執(zhí)行的完整鏈路

達(dá)摩院此次開(kāi)源的“三件套”——貫通硬件的RynnRCP協(xié)議、擬人化操控的RynnVLA模型與理解物理世界的RynnEC模型,如同為具身智能開(kāi)發(fā)者提供了一套“樂(lè)高式工具包”。

它們通過(guò)標(biāo)準(zhǔn)化連接、擬人化控制與空間認(rèn)知三大突破,打通了機(jī)器人從感知到執(zhí)行的完整鏈路,有望在之后迭代的過(guò)程中大幅降低開(kāi)發(fā)門(mén)檻,加速具身智能在工業(yè)、家庭等場(chǎng)景的規(guī)模化落地,讓機(jī)器人真正“看得懂世界,動(dòng)得像人類(lèi)”。