機(jī)器人前瞻(公眾號(hào):robot_pro)
作者?|??許麗思
編輯?|??漠影

機(jī)器人前瞻12月25日?qǐng)?bào)道,近日,Dexmal 原力靈機(jī)作者團(tuán)隊(duì)提出一種全新的 VLA 框架 GeoVLA,它在保留現(xiàn)有視覺(jué)-語(yǔ)言模型(VLM)的預(yù)訓(xùn)練能力的同時(shí),采用了一種雙流架構(gòu)(Dual-path Architecture)。

機(jī)器人不抓瞎了!清華系創(chuàng)企提出全新VLA框架,讓模型看懂三維世界

在具身智能的浪潮中,VLA 模型被視為通往通用機(jī)器人的快車道。然而,隨著研究深入到非結(jié)構(gòu)化環(huán)境,現(xiàn)有 VLA 模型面臨著一個(gè)嚴(yán)重的維度缺陷:空間失明。

目前,大多數(shù) VLA 模型(比如 OpenVLA、RT-2、Pi0、Pi05)單純依賴 2D RGB 圖像作為視覺(jué)輸入,導(dǎo)致模型眼中的世界“紙片化”,嚴(yán)重缺乏深度信息和幾何先驗(yàn);由此帶來(lái)的后果是:

  • 深度感知缺失:面對(duì)需要精確距離判斷的任務(wù),比如精準(zhǔn)投籃、掛扣環(huán),2D 模型往往“抓瞎”,無(wú)法準(zhǔn)確預(yù)測(cè) Z 軸的動(dòng)作。
  • 空間適應(yīng)性差:一旦物體尺寸發(fā)生變化(Scale Variance)或相機(jī)視角發(fā)生偏移(Viewpoint Shift),便無(wú)法理解物體在空間中的本質(zhì)位置,導(dǎo)致任務(wù)失敗。

而GeoVLA 在保留 VLM 強(qiáng)大的語(yǔ)義理解能力的同時(shí),引入專用的點(diǎn)云嵌入網(wǎng)絡(luò) PEN 和空間感知?jiǎng)幼鲗<?3DAE,直接利用深度圖生成的點(diǎn)云數(shù)據(jù),賦予機(jī)器人真正的三維幾何感知能力。

這一設(shè)計(jì)不僅在仿真環(huán)境中取得 SOTA,更在真實(shí)世界的魯棒性測(cè)試中,特別是在視角改變和物體尺度變化的極端條件下,展現(xiàn)出較強(qiáng)適應(yīng)力。

  • 論文名稱: GeoVLA: Empowering 3D Representation in Vision-Language-Action Models
  • 論文鏈接: https://arxiv.org/html/2508.09071v2
  • 項(xiàng)目主頁(yè): https://linsun449.github.io/GeoVLA/

一、將任務(wù)解耦,打造全新的端到端框架

常見(jiàn)的做法試圖讓一個(gè) VLM 既懂語(yǔ)義又懂幾何,這往往顧此失彼;GeoVLA 的核心邏輯是選擇把任務(wù)解耦:讓 VLM 負(fù)責(zé)“看懂是什么”,讓點(diǎn)云網(wǎng)絡(luò)負(fù)責(zé)“看清在哪里”。

機(jī)器人不抓瞎了!清華系創(chuàng)企提出全新VLA框架,讓模型看懂三維世界

▲GeoVLA 框架圖

GeoVLA 是一個(gè)全新的端到端框架,其流程包含三個(gè)關(guān)鍵組件的協(xié)同工作:

  • 語(yǔ)義理解流:利用預(yù)訓(xùn)練的 VLM(如 Prismatic-7B)處理 RGB 圖像和語(yǔ)言指令,提取融合后的視覺(jué)-語(yǔ)言特征。
  • 幾何感知流:利用點(diǎn)云嵌入網(wǎng)絡(luò) PEN 處理由深度圖轉(zhuǎn)換而來(lái)的點(diǎn)云,獨(dú)立提取高精度的 3D 幾何特征。
  • 動(dòng)作生成流:通過(guò)3D 增強(qiáng)動(dòng)作專家 3DAE 融合上述兩種特征,生成精確的動(dòng)作序列。

二、點(diǎn)云嵌入網(wǎng)絡(luò) PEN ,專為機(jī)器人操作設(shè)計(jì)

原始深度圖往往包含大量噪聲,且數(shù)據(jù)稀疏,直接作為輸入效果不佳。點(diǎn)云嵌入網(wǎng)絡(luò) PEN 專為機(jī)器人操作設(shè)計(jì),采用雙路徑架構(gòu)來(lái)提取干凈且緊湊的幾何特征:

  • 幾何特征提?。?/span>使用大核卷積和局部池化的輕量級(jí) CNN,將非結(jié)構(gòu)化的點(diǎn)云編碼為 Patch 級(jí)別的幾何 Token。
  • 空間位置編碼:引入在大語(yǔ)言模型中常見(jiàn)的旋轉(zhuǎn)位置編碼 RoPE,它能極好地保留 3D 空間中的相對(duì)位置信息,這對(duì)于操作任務(wù)至關(guān)重要。

機(jī)器人不抓瞎了!清華系創(chuàng)企提出全新VLA框架,讓模型看懂三維世界

▲雙路徑點(diǎn)云嵌入網(wǎng)絡(luò)細(xì)節(jié)圖

空間錨點(diǎn)(Spatial Anchor)設(shè)計(jì)是 PEN 的一大亮點(diǎn)。作者團(tuán)隊(duì)并沒(méi)有簡(jiǎn)單地對(duì)所有點(diǎn)云特征進(jìn)行平均池化,而是選擇對(duì)應(yīng)于末端執(zhí)行器坐標(biāo)原點(diǎn)的 Token 作為“錨點(diǎn)”。這種以“手”為中心的視角設(shè)計(jì),讓模型能夠顯式地建?!笆帧迸c“物體”之間的幾何關(guān)系,大幅提升操作精度。

三、3D 增強(qiáng)動(dòng)作專家 3DAE

特征提取只是第一步,如何有效融合 RGB 的語(yǔ)義信息和點(diǎn)云的幾何信息,實(shí)現(xiàn)1+1>2的效果,是多模態(tài)研究當(dāng)中的難點(diǎn)。作者團(tuán)隊(duì)在動(dòng)作生成端采用基于擴(kuò)散 Transformer (DiTs) 的架構(gòu),并創(chuàng)新性地引入混合專家 (MoE) 機(jī)制。

  • 靜態(tài)路由策略 (Static Routing):這是一個(gè)直覺(jué)且有效的策略。在訓(xùn)練過(guò)程中,由于 VLM 分支是預(yù)訓(xùn)練的,而點(diǎn)云分支是從頭開(kāi)始學(xué),如果使用常規(guī)的動(dòng)態(tài)路由,模型會(huì)傾向于走捷徑,只依賴 VLM 分支,忽略點(diǎn)云信息。
  • 強(qiáng)制解耦:作者團(tuán)隊(duì)采用了靜態(tài)路由,隨機(jī)丟棄某種模態(tài),逼迫模型必須學(xué)會(huì)獨(dú)立利用幾何信息來(lái)解決問(wèn)題,從而確保了雙流信息的有效融合。

四、實(shí)驗(yàn)結(jié)果相對(duì)傳統(tǒng) 2D VLA 模型的壓倒性優(yōu)勢(shì)

GeoVLA 在仿真和真機(jī)實(shí)驗(yàn)中均展現(xiàn)出對(duì)傳統(tǒng) 2D VLA 模型的壓倒性優(yōu)勢(shì),證明顯式 3D 表征在復(fù)雜操作中的不可替代性。

仿真環(huán)境測(cè)試結(jié)果

機(jī)器人不抓瞎了!清華系創(chuàng)企提出全新VLA框架,讓模型看懂三維世界▲LIBERO 評(píng)測(cè)結(jié)果

在 LIBERO 基準(zhǔn)測(cè)試中,GeoVLA 超越所有任務(wù)套件。在最具挑戰(zhàn)性的 LIBERO-90(長(zhǎng)程多任務(wù))中,GeoVLA 達(dá)到 97.7% 的成功率,超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。

機(jī)器人不抓瞎了!清華系創(chuàng)企提出全新VLA框架,讓模型看懂三維世界▲ManiSkill2 評(píng)測(cè)結(jié)果

在物理仿真更為逼真的 ManiSkill2 中,GeoVLA 優(yōu)勢(shì)更加明顯,平均成功率達(dá)到 77%,大幅領(lǐng)先 Dita (66%) 和 CogACT (69%);特別是在 PickClutterYCB 這種物體堆疊雜亂、遮擋嚴(yán)重的任務(wù)中,GeoVLA 憑借點(diǎn)云帶來(lái)的幾何理解,保持了極高的操作精度。

真機(jī)環(huán)境與魯棒性測(cè)試

機(jī)器人不抓瞎了!清華系創(chuàng)企提出全新VLA框架,讓模型看懂三維世界▲真機(jī)實(shí)驗(yàn)任務(wù)的變體展示

作者團(tuán)隊(duì)使用 WidowX-250s 機(jī)械臂進(jìn)行了廣泛的真機(jī)測(cè)試;實(shí)驗(yàn)被分為“基礎(chǔ)任務(wù)”和“3D 感知任務(wù)”。在域內(nèi)任務(wù)中,GeoVLA 在基礎(chǔ)任務(wù)上平均成功率 95.0%,在 3D 感知任務(wù)上為 77.5%,總體平均 86.3%,大幅領(lǐng)先 Pi0 (57.5%) 和 CogACT (76.3%)。特別是在 Put Basketball 和 Put Hairclip 等需要精確空間理解的任務(wù)中,GeoVLA 表現(xiàn)出更好的魯棒性。

機(jī)器人不抓瞎了!清華系創(chuàng)企提出全新VLA框架,讓模型看懂三維世界

▲真機(jī)任務(wù)評(píng)測(cè)結(jié)果

更令人印象深刻的是 GeoVLA 在分布外(OOD)場(chǎng)景下的魯棒性,這也是 GeoVLA 最核心的突破點(diǎn):

機(jī)器人不抓瞎了!清華系創(chuàng)企提出全新VLA框架,讓模型看懂三維世界

▲左:投籃任務(wù)變體的評(píng)測(cè)結(jié)果;右:套娃任務(wù)變體的評(píng)測(cè)結(jié)果

  • 投籃任務(wù)變體(高度變化):當(dāng)籃筐高度被調(diào)整到訓(xùn)練數(shù)據(jù)未覆蓋的最高位置 (H1) 時(shí),依賴 2D 視覺(jué)的 CogACT 和 Pi0 徹底失效,成功率降至 20%;而 GeoVLA 憑借點(diǎn)云信息,依然保持 60% 的成功率。
  • 套娃任務(wù)變體(尺寸變化):面對(duì)比訓(xùn)練時(shí)大一號(hào)的套娃,2D 模型往往因?yàn)橄袼靥卣鞑黄ヅ涠鵁o(wú)法識(shí)別;GeoVLA 則通過(guò)幾何形狀匹配,保持了 80% 的高成功率。
  • 堆疊積木任務(wù)變體(視角變化):堆疊積木時(shí),當(dāng)相機(jī)視角偏移 45°,CogACT 成功率直接歸零,說(shuō)明 2D 模型極度依賴特定視角的像素記憶;而 GeoVLA 依然穩(wěn)健,保持 70% 的成功率,證明其學(xué)到了真正的 3D 空間結(jié)構(gòu)。
  • 胡蘿卜任務(wù)變體(移除海綿墊):訓(xùn)練時(shí)使用的海綿墊在推理階段被移除,胡蘿卜位置被降低,導(dǎo)致大多數(shù)方法抓取胡蘿卜失?。籊eoVLA 則能更穩(wěn)定且成功抓取,展現(xiàn)出更強(qiáng)的泛化能力。

五、結(jié)語(yǔ):?VLA 模型從“看圖說(shuō)話”向“空間智能跨越

GeoVLA通過(guò)引入點(diǎn)云嵌入網(wǎng)絡(luò) PEN 和 3D 增強(qiáng)動(dòng)作專家 3DAE,成功打破 VLA 模型在 3D 物理世界中的“感知壁壘”。

這項(xiàng)工作證明了,在端到端的機(jī)器人學(xué)習(xí)中,顯式引入 3D 幾何表征是提升模型泛化能力和魯棒性的關(guān)鍵。GeoVLA 不僅解決了傳統(tǒng) VLA 模型“看得見(jiàn)但摸不準(zhǔn)”的難題,更為未來(lái)具身智能邁向更復(fù)雜、更開(kāi)放的非結(jié)構(gòu)化環(huán)境提供了一種高效解決方案。

特別是其雙路徑并行設(shè)計(jì)和靜態(tài)路由策略,為多模態(tài)融合提供了一個(gè)極具參考價(jià)值的范式:既保留了大模型的通用語(yǔ)義知識(shí),又補(bǔ)齊了物理世界的幾何常識(shí)。對(duì)于追求精確操控的具身智能領(lǐng)域而言,GeoVLA 可能是一個(gè)重要的里程碑,標(biāo)志著 VLA 模型從“看圖說(shuō)話”向“空間智能”的實(shí)質(zhì)性跨越。