視覺(jué)導(dǎo)航是具身智能體的基礎(chǔ)技能,可以極大拓寬智能體的行動(dòng)邊界和任務(wù)邊界。其中,基于開放域語(yǔ)言指令的視覺(jué)語(yǔ)言導(dǎo)航是目前最具挑戰(zhàn)及應(yīng)用價(jià)值,也是最難以進(jìn)行現(xiàn)實(shí)部署的具身導(dǎo)航任務(wù)之一。

導(dǎo)航智能體需要理解從單個(gè)物體、到物體間關(guān)系、再到不同房間的空間布局,并借由開放域指令進(jìn)行導(dǎo)航規(guī)劃。這要求環(huán)境表征能從不同粒度上與語(yǔ)言語(yǔ)義對(duì)齊;且在未知場(chǎng)景的導(dǎo)航需要實(shí)時(shí)動(dòng)態(tài)地更新環(huán)境表征,傳統(tǒng)的基于低噪聲點(diǎn)云的3D Visual Grounding等方法難以奏效,而2D基礎(chǔ)模型難以理解大范圍的三維環(huán)境布局。

為此,中科院計(jì)算所和新加坡國(guó)立大學(xué)等研究人員提出了基于網(wǎng)格記憶地圖和三維特征場(chǎng)等一系列方法,包括動(dòng)態(tài)構(gòu)建地圖表征方法GridMM,基于特征場(chǎng)的導(dǎo)航前瞻探索策略HNR,高性能單目視覺(jué)語(yǔ)言導(dǎo)航Sim-to-Real方案以及三維基礎(chǔ)模型3D-Language特征場(chǎng)。通過(guò)這些方法來(lái)解決視覺(jué)語(yǔ)言導(dǎo)航等具身任務(wù)中的三維環(huán)境表征和理解問(wèn)題。

GridMM是動(dòng)態(tài)構(gòu)建與語(yǔ)言指令細(xì)粒度對(duì)齊的環(huán)境網(wǎng)格地圖的方法。該方法通過(guò)映射智能體水平觀察的細(xì)粒度視覺(jué)特征到俯視角網(wǎng)格地圖,并在每個(gè)網(wǎng)格區(qū)域內(nèi)與導(dǎo)航指令做語(yǔ)義關(guān)聯(lián)聚合。與GridMM相關(guān)的論文成果收錄于ICCV 2023,并成為CVPR 2023 Embodied AI 視覺(jué)語(yǔ)言導(dǎo)航RxR競(jìng)賽冠軍方案。

CVPR具身智能視覺(jué)語(yǔ)言導(dǎo)航RxR競(jìng)賽冠軍方案一作開講!主講具身導(dǎo)航中的三維場(chǎng)景理解 | 講座預(yù)告

通過(guò)GridMM能夠?qū)崿F(xiàn)網(wǎng)格記憶地圖的動(dòng)態(tài)增長(zhǎng),并隨導(dǎo)航過(guò)程同步更新,以支持全局的導(dǎo)航規(guī)劃。接著,相關(guān)團(tuán)隊(duì)又提出了第一個(gè)可用于視覺(jué)語(yǔ)言導(dǎo)航的可泛化特征場(chǎng)HNR。與HNR相關(guān)的論文成果收錄于CVPR 2024 Highlight。

CVPR具身智能視覺(jué)語(yǔ)言導(dǎo)航RxR競(jìng)賽冠軍方案一作開講!主講具身導(dǎo)航中的三維場(chǎng)景理解 | 講座預(yù)告

HNR通過(guò)將智能體歷史觀察的視覺(jué)特征映射進(jìn)三維空間,并利用體積渲染來(lái)解碼與CLIP語(yǔ)義空間對(duì)齊的新視角表征。HNR對(duì)若干可導(dǎo)航的候選點(diǎn)預(yù)測(cè)其周圍的新視角表征,構(gòu)建導(dǎo)航的未來(lái)路徑樹以支持其前瞻探索。這一策略大幅提升了智能體的導(dǎo)航規(guī)劃表現(xiàn)。

CVPR具身智能視覺(jué)語(yǔ)言導(dǎo)航RxR競(jìng)賽冠軍方案一作開講!主講具身導(dǎo)航中的三維場(chǎng)景理解 | 講座預(yù)告

如何將仿真環(huán)境中的訓(xùn)練成果遷移到真實(shí)環(huán)境也是具身導(dǎo)航領(lǐng)域一項(xiàng)重要的研究。不同于仿真環(huán)境中慣用的全景RGB-D設(shè)置,現(xiàn)實(shí)環(huán)境中的絕大多數(shù)機(jī)器人僅配備單目相機(jī),這極大限制了視覺(jué)語(yǔ)言導(dǎo)航模型的實(shí)機(jī)部署。因而VLN-3DFF提出使用3D特征場(chǎng)構(gòu)建的高性能單目視覺(jué)語(yǔ)言導(dǎo)航Sim-to-Real方案,賦予單目機(jī)器人全景感知能力,即用語(yǔ)義地圖預(yù)測(cè)全景范圍的可導(dǎo)航候選點(diǎn)。該方案將單目視覺(jué)語(yǔ)言導(dǎo)航模型的最佳導(dǎo)航成功率提升了6%以上。與VLN-3DFF相關(guān)的論文成果收錄于CoRL 2024。

CVPR具身智能視覺(jué)語(yǔ)言導(dǎo)航RxR競(jìng)賽冠軍方案一作開講!主講具身導(dǎo)航中的三維場(chǎng)景理解 | 講座預(yù)告

此外,先前的可泛化特征場(chǎng)通常僅由2D基礎(chǔ)模型進(jìn)行語(yǔ)義對(duì)齊,或僅使用有限的物體類別標(biāo)注做語(yǔ)義分割監(jiān)督。這極大限制了特征場(chǎng)模型的大范圍物體關(guān)系和空間布局理解。3D-LF是第一個(gè)通過(guò)大規(guī)模3D-Language數(shù)據(jù)訓(xùn)練層次化特征場(chǎng)的方法,實(shí)現(xiàn)了特征場(chǎng)模型從物體、關(guān)系、到環(huán)境布局的多層級(jí)語(yǔ)義表征和理解。該方法能大幅提升視覺(jué)語(yǔ)言導(dǎo)航和零樣本物體導(dǎo)航等任務(wù)的性能表現(xiàn),驗(yàn)證了3D語(yǔ)言特征場(chǎng)在具身任務(wù)的應(yīng)用價(jià)值。

CVPR具身智能視覺(jué)語(yǔ)言導(dǎo)航RxR競(jìng)賽冠軍方案一作開講!主講具身導(dǎo)航中的三維場(chǎng)景理解 | 講座預(yù)告

11月21日晚7點(diǎn),智猩猩邀請(qǐng)到上述四篇成果的論文一作、新加坡國(guó)立大學(xué)計(jì)算機(jī)學(xué)院博士生王子涵參與「智猩猩具身智能前沿講座」第15講,以《具身導(dǎo)航中的三維場(chǎng)景理解》為主題帶來(lái)直播講解。

講者

王子涵
新加坡國(guó)立大學(xué)計(jì)算機(jī)學(xué)院博士生

新加坡國(guó)立大學(xué)計(jì)算機(jī)學(xué)院博士生,導(dǎo)師為Gim Hee Lee教授。碩士師從中科院計(jì)算所蔣樹強(qiáng)研究員。研究領(lǐng)域?yàn)榫呱韺?dǎo)航與用于具身智能的三維基礎(chǔ)模型,相關(guān)研究發(fā)表于CVPR,ICCV,CoRL等計(jì)算機(jī)視覺(jué)與機(jī)器人頂會(huì)。曾獲CVPR 2023 Embodied AI 視覺(jué)語(yǔ)言導(dǎo)航RxR競(jìng)賽冠軍。

第 15 講?

主 題?

《具身導(dǎo)航中的三維場(chǎng)景理解》

?提 綱?

1、具身導(dǎo)航的核心難點(diǎn)與基礎(chǔ)方法介紹
2、具身導(dǎo)航中的動(dòng)態(tài)構(gòu)建地圖表征方法GridMM
3、基于特征場(chǎng)的導(dǎo)航前瞻探索策略HNR
4、視覺(jué)語(yǔ)言導(dǎo)航的Sim-to-Real部署
5、利用3D語(yǔ)言數(shù)據(jù)訓(xùn)練層次化特征場(chǎng)提升機(jī)器人導(dǎo)航能力

?直 播 信 息?

直播時(shí)間:11月21日19:00

成果

論文成果1

標(biāo)題:《GridMM: Grid Memory Map for Vision-and-Language Navigation》

鏈接:https://arxiv.org/abs/2307.12907

收錄情況:ICCV 2023,CVPR 2023 Embodied AI 視覺(jué)語(yǔ)言導(dǎo)航RxR競(jìng)賽冠軍方案

論文成果2

標(biāo)題:《Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation》

鏈接:https://arxiv.org/abs/2307.12907

收錄情況:CVPR 2024 Highlight

論文成果3

標(biāo)題:《Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation》

鏈接:https://arxiv.org/abs/2406.09798

收錄情況:CoRL 2024

論文成果4

標(biāo)題:《Generalizable 3D-Language Feature Fields for Embodied Tasks》

如何報(bào)名

有講座直播觀看需求的朋友,可以添加小助手“莓莓”進(jìn)行報(bào)名。已添加過(guò)“莓莓”的老朋友,可以給“莓莓”私信,發(fā)送“具身智能15”進(jìn)行報(bào)名。對(duì)于通過(guò)報(bào)名的朋友,之后將邀請(qǐng)入群進(jìn)行觀看和交流。

CVPR具身智能視覺(jué)語(yǔ)言導(dǎo)航RxR競(jìng)賽冠軍方案一作開講!主講具身導(dǎo)航中的三維場(chǎng)景理解 | 講座預(yù)告