機(jī)器人前瞻(公眾號(hào):robot_pro)
作者 | 李水青
編輯 | 漠影

機(jī)器人前瞻2月12日?qǐng)?bào)道,今天,小米開(kāi)源其首代機(jī)器人VLA(視覺(jué)-語(yǔ)言-動(dòng)作)大模型——Xiaomi-Robotics-0。

該模型擁有4.7B參數(shù),采用MoT混合架構(gòu)實(shí)現(xiàn)“大腦小腦”協(xié)同,在LIBERO、SimplerEnv、CALVIN三大主流仿真基準(zhǔn)測(cè)試中,包攬所有細(xì)分項(xiàng)SOTA(行業(yè)最佳)。

在真機(jī)評(píng)估中,Xiaomi-Robotics-0在疊毛巾、拆樂(lè)高等任務(wù)中動(dòng)作連貫、反應(yīng)靈敏。并且,該模型能在消費(fèi)級(jí)顯卡上實(shí)現(xiàn)實(shí)時(shí)推理。

小米首代機(jī)器人VLA模型開(kāi)源,雷軍把門(mén)檻打下來(lái)了,消費(fèi)級(jí)顯卡可跑

▲將毛巾攤平-疊好

為了訓(xùn)練模型Xiaomi-Robotics-0,小米利用了一個(gè)龐大的數(shù)據(jù)集,包含2億級(jí)機(jī)器人軌跡數(shù)據(jù)與超過(guò)8000萬(wàn)個(gè)通用視覺(jué)-語(yǔ)言數(shù)據(jù)樣本,其中包括338小時(shí)樂(lè)高拆卸、400小時(shí)毛巾折疊的數(shù)據(jù)。

目前,小米已開(kāi)源了Xiaomi-Robotics-0的模型權(quán)重和完整代碼,包括技術(shù)報(bào)告也可以在下面地址中查看。

技術(shù)主頁(yè):
https://xiaomi-robotics-0.github.io
開(kāi)源代碼:
https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
模型權(quán)重:
https://huggingface.co/XiaomiRobotics

一、拿下三大主流仿真測(cè)試SOTA,拆樂(lè)高、疊毛巾都勝任

Xiaomi-Robotics-0在三項(xiàng)仿真基準(zhǔn)測(cè)試的所有Benchmark、30種模型對(duì)比中,均取得了SOTA性能。

具體而言,它在LIBERO上的平均成功率達(dá)到98.7%。在SimplerEnv上,其在視覺(jué)匹配(85.5%)、視覺(jué)聚合(74.7%)和WidowX(79.2%)方面均表現(xiàn)出色。在CALVIN上,它在ABC-D和ABCD-D分割上的平均長(zhǎng)度分別達(dá)到4.75和4.80。

在VLM基準(zhǔn)測(cè)試中,其預(yù)訓(xùn)練模型與基礎(chǔ)預(yù)訓(xùn)練VLM的性能相當(dāng)。Xiaomi-Robotics-0保留了VLM本身的多模態(tài)理解能力,尤其是在具身更相關(guān)的Benchmark中表現(xiàn)較好,這是之前的很多VLA模型所不具備的。

小米首代機(jī)器人VLA模型開(kāi)源,雷軍把門(mén)檻打下來(lái)了,消費(fèi)級(jí)顯卡可跑

▲該模型在VLA、VLM的Benchmark以及真實(shí)機(jī)器人的效果指標(biāo)

在真實(shí)機(jī)器人評(píng)估中,Xiaomi-Robotics-0在兩項(xiàng)具有挑戰(zhàn)性的雙手機(jī)器人操作任務(wù)——樂(lè)高拆卸和毛巾折疊中,實(shí)現(xiàn)了高成功率和強(qiáng)大的吞吐量,手眼協(xié)調(diào)表現(xiàn)較好。

以下是部分真機(jī)運(yùn)行片段:

小米首代機(jī)器人VLA模型開(kāi)源,雷軍把門(mén)檻打下來(lái)了,消費(fèi)級(jí)顯卡可跑

▲將大塊積木逐步拆成小塊

小米首代機(jī)器人VLA模型開(kāi)源,雷軍把門(mén)檻打下來(lái)了,消費(fèi)級(jí)顯卡可跑

▲主動(dòng)將多余毛巾放回以進(jìn)行疊放

二、采用MoT混合架構(gòu),大小腦聯(lián)動(dòng)實(shí)現(xiàn)精準(zhǔn)手眼協(xié)同

為了兼顧通用理解與精細(xì)控制,Xiaomi-Robotics-0采用了主流的MoT (Mixture-of-Transformers)架構(gòu)。

該架構(gòu)包括一個(gè)視覺(jué)語(yǔ)言大腦(VLM)和一個(gè)動(dòng)作執(zhí)行小腦(Action Expert)。

視覺(jué)語(yǔ)言大腦:團(tuán)隊(duì)采用了多模態(tài)VLM大模型作為底座,它負(fù)責(zé)理解人類(lèi)的模糊指令,如“請(qǐng)把毛巾疊好”,并從高清視覺(jué)輸入中捕捉空間關(guān)系。

動(dòng)作執(zhí)行小腦:為了生成高頻、平滑的動(dòng)作,團(tuán)隊(duì)嵌入了多層的 Diffusion Transformer (DiT)。它不直接輸出單一動(dòng)作,而是生成一個(gè)“動(dòng)作塊”(Action Chunk),并通過(guò)流匹配(Flow-matching)技術(shù)確保動(dòng)作的精準(zhǔn)度。

小米首代機(jī)器人VLA模型開(kāi)源,雷軍把門(mén)檻打下來(lái)了,消費(fèi)級(jí)顯卡可跑

▲模型架構(gòu)及訓(xùn)練方法

這種“大腦+小腦”的組合,讓模型既能聽(tīng)懂指令,又能像人類(lèi)一樣,在動(dòng)作執(zhí)行時(shí)保持極高的物理靈活性。

小米首代機(jī)器人VLA模型開(kāi)源,雷軍把門(mén)檻打下來(lái)了,消費(fèi)級(jí)顯卡可跑

▲主動(dòng)靈活調(diào)整自身動(dòng)作

三、基于2億級(jí)數(shù)據(jù)訓(xùn)練,分兩階段進(jìn)化

如何讓模型既不丟失常識(shí),又精通“體力活”?

團(tuán)隊(duì)的訓(xùn)練利用了一個(gè)龐大的數(shù)據(jù)集,其中包含約2億個(gè)機(jī)器人軌跡時(shí)間步長(zhǎng),和超過(guò)8000萬(wàn)個(gè)通用視覺(jué)-語(yǔ)言數(shù)據(jù)樣本。機(jī)器人數(shù)據(jù)來(lái)源于開(kāi)源數(shù)據(jù)集和通過(guò)遠(yuǎn)程操作收集的內(nèi)部數(shù)據(jù),包括338小時(shí)的樂(lè)高拆卸數(shù)據(jù)、400小時(shí)的毛巾折疊數(shù)據(jù)。

與此同時(shí),團(tuán)隊(duì)還設(shè)計(jì)了一套訓(xùn)練配方,包括跨模態(tài)預(yù)訓(xùn)練和后訓(xùn)練兩個(gè)階段。

1、跨模態(tài)預(yù)訓(xùn)練:提高模型動(dòng)作分布預(yù)測(cè)能力

大部分VLA模型在學(xué)動(dòng)作時(shí)往往會(huì)“變笨”,失去本身的理解能力。團(tuán)隊(duì)通過(guò)多模態(tài)與動(dòng)作數(shù)據(jù)的混合訓(xùn)練,讓模型在學(xué)會(huì)操作的同時(shí),依然保持較強(qiáng)的物體檢測(cè)、視覺(jué)問(wèn)答和邏輯推理能力。

VLM協(xié)同訓(xùn)練:團(tuán)隊(duì)首先引入了Action Proposal機(jī)制,強(qiáng)迫VLM模型在理解圖像的同時(shí)預(yù)測(cè)多種動(dòng)作分布。這一步是為了讓VLM的特征空間與動(dòng)作空間對(duì)齊,不再僅僅是“紙上談兵”。

DiT專(zhuān)項(xiàng)訓(xùn)練:隨后,團(tuán)隊(duì)凍結(jié)VLM,專(zhuān)注于訓(xùn)練DiT, 學(xué)習(xí)如何從噪聲中恢復(fù)出精準(zhǔn)的動(dòng)作序列。這一階段,團(tuán)隊(duì)去除了VLM的離散Token,完全依賴(lài)KV特征進(jìn)行條件生成。通過(guò)DiT專(zhuān)項(xiàng)訓(xùn)練,模型可以生成高度平滑、精準(zhǔn)的的動(dòng)作序列。

小米首代機(jī)器人VLA模型開(kāi)源,雷軍把門(mén)檻打下來(lái)了,消費(fèi)級(jí)顯卡可跑

▲多模態(tài)數(shù)據(jù)與跨本體機(jī)器人數(shù)據(jù)的分布

2、后訓(xùn)練:保障動(dòng)作連貫流暢

這是解鎖物理智能的核心路徑。針對(duì)推理延遲引發(fā)的真機(jī)“動(dòng)作斷層”問(wèn)題,團(tuán)隊(duì)采用異步推理模式——讓模型推理與機(jī)器人運(yùn)行脫離同步約束、異步執(zhí)行,從機(jī)制上保障動(dòng)作連貫流暢。

小米首代機(jī)器人VLA模型開(kāi)源,雷軍把門(mén)檻打下來(lái)了,消費(fèi)級(jí)顯卡可跑

▲異步推理示意圖,模型推理延遲不影響真機(jī)連續(xù)性運(yùn)行

為進(jìn)一步強(qiáng)化模型對(duì)環(huán)境變化的響應(yīng)敏捷性與運(yùn)行穩(wěn)定性,團(tuán)隊(duì)引入了:

Clean Action Prefix:將前一時(shí)刻預(yù)測(cè)的動(dòng)作作為輸入,確保動(dòng)作軌跡在時(shí)間維度上是連續(xù)的、不抖動(dòng)的,進(jìn)一步增加流暢性。

Λ-shape Attention Mask:通過(guò)特殊的注意力掩碼,強(qiáng)制模型更關(guān)注當(dāng)前的視覺(jué)反饋,而不是沉溺于歷史慣性。這讓機(jī)器人在面對(duì)環(huán)境突發(fā)變化時(shí),能夠展現(xiàn)出極強(qiáng)的反應(yīng)性物理智能。

小米首代機(jī)器人VLA模型開(kāi)源,雷軍把門(mén)檻打下來(lái)了,消費(fèi)級(jí)顯卡可跑

▲團(tuán)隊(duì)采用特殊的注意力掩碼機(jī)制,有效緩解動(dòng)作慣性

結(jié)語(yǔ):VLA模型加速走向消費(fèi)級(jí)部署

小米此次開(kāi)源的Xiaomi-Robotics-0采用大小腦分工的MoT混合架構(gòu),既保留了VLM的多模態(tài)知識(shí)儲(chǔ)備,又解決了傳統(tǒng)VLA模型“學(xué)動(dòng)作、忘視覺(jué)”的災(zāi)難性遺忘問(wèn)題。

值得關(guān)注的是,該模型能在消費(fèi)級(jí)顯卡上實(shí)現(xiàn)實(shí)時(shí)推理,具身智能模型的部署門(mén)檻正下沉到普通開(kāi)發(fā)者桌面,機(jī)器人軟件棧的平民化正在加速到來(lái)。