機(jī)器人前瞻(公眾號(hào):robot_pro)
作者?|? 程茜
編輯?|??漠影

機(jī)器人前瞻1月27日?qǐng)?bào)道,今日,螞蟻集團(tuán)旗下具身智能公司靈波科技正式開源高精度空間感知模型LingBot-Depth,搭載LingBot-Depth模型的奧比中光Gemini 330系列相機(jī)在深度精度和像素覆蓋率方面,均優(yōu)于頂級(jí)深度相機(jī)。

螞蟻靈波公布的一系列下游任務(wù)實(shí)驗(yàn)結(jié)果進(jìn)一步表明,LingBot-Depth可在RGB與深度模態(tài)間,輸出精準(zhǔn)對(duì)齊的潛在特征表示,讓靈巧手在抓取高度透明和反光物體時(shí)的成功率大大提升。

螞蟻靈波開源高精度空間感知模型!機(jī)器人在透明、反光場(chǎng)景不掉鏈子

當(dāng)下關(guān)于機(jī)器人落地應(yīng)用的美好構(gòu)想層出不窮,但要讓這些設(shè)想照進(jìn)現(xiàn)實(shí),有一個(gè)核心前提繞不開:機(jī)器人必須能與物理世界順暢交互。小到抬手從桌上取一杯水,大到完成各類復(fù)雜的實(shí)景作業(yè),所有操作的第一步,都得讓機(jī)器人先明確一個(gè)關(guān)鍵問題:“我在哪?”

但當(dāng)下常見的空間定位感知方式,會(huì)因鏡面反射、無(wú)紋理表面等情況產(chǎn)生深度誤差,就意味著機(jī)器人獲取的環(huán)境幾何信息是模糊、失真的。機(jī)器人連基礎(chǔ)的“我在哪”都無(wú)法明確,更無(wú)從談起后續(xù)的精準(zhǔn)操作與交互,這正是LingBot-Depth模型要解決的痛點(diǎn)。

從行業(yè)價(jià)值來看,該模型的核心突破在于用算法創(chuàng)新彌補(bǔ)了硬件短板,無(wú)需更換高端傳感器,就能讓消費(fèi)級(jí)RGB-D相機(jī)實(shí)現(xiàn)超高性能,這恰好契合了當(dāng)前工業(yè)、服務(wù)機(jī)器人領(lǐng)域?qū)Ω呔取⒌统杀靖兄桨傅钠惹行枨?,也為具身智能三維空間感知能力從基礎(chǔ)層避障導(dǎo)航,向更高級(jí)別的復(fù)雜場(chǎng)景建模、人類級(jí)空間理解邁進(jìn)提供了關(guān)鍵技術(shù)支撐。

在NYUv2、ETH3D等主流3D視覺基準(zhǔn)評(píng)測(cè)中,相較于PromptDA、PriorDA等業(yè)界主流深度補(bǔ)全模型,LingBot-Depth在室內(nèi)場(chǎng)景下相對(duì)誤差(REL)降幅超70%,在高挑戰(zhàn)性的稀疏SfM任務(wù)中,均方根誤差(RMSE)也降低約47%。

目前,螞蟻靈波已經(jīng)開源了代碼、檢查點(diǎn),并計(jì)劃于近期開源300萬(wàn)個(gè)RGB深度對(duì),包括200萬(wàn)個(gè)真實(shí)數(shù)據(jù)和100萬(wàn)個(gè)合成數(shù)據(jù)。該公司此次將模型代碼與數(shù)據(jù)全鏈路開源,或倒逼RGB-D相機(jī)硬件的優(yōu)化升級(jí),進(jìn)一步提升模型在真實(shí)長(zhǎng)尾場(chǎng)景中的魯棒性,讓機(jī)器人、自動(dòng)駕駛汽車等產(chǎn)品加速走進(jìn)現(xiàn)實(shí)場(chǎng)景。

螞蟻靈波開源高精度空間感知模型!機(jī)器人在透明、反光場(chǎng)景不掉鏈子

▲GitHub開源主頁(yè)

一、解鎖機(jī)器人高精度空間感知,實(shí)測(cè)性能超越主流模型

一句話總結(jié),LingBot-Depth模型解決的是讓機(jī)器人具有精確地空間視覺感知能力,也就是看清楚、知道自己在哪里。

先來看下這一模型的性能表現(xiàn)。根據(jù)螞蟻靈波公開的技術(shù)報(bào)告,其實(shí)驗(yàn)結(jié)果表明,LingBot-Depth模型在深度精度與像素覆蓋率兩項(xiàng)核心指標(biāo)上均超越業(yè)界頂級(jí)深度相機(jī)。

對(duì)于機(jī)器人而言,其在抓取透明、反光物體時(shí)時(shí)常會(huì)出現(xiàn)判斷失誤的情況。測(cè)試結(jié)果顯示,LingBot-Depth模型透明收納箱抓取成功率從0%提升至50%,同時(shí)在多種反光和透明物體上提升了30%~78%的抓取成功率。

具體來看,在深度補(bǔ)全任務(wù)上,該模型與主流的深度補(bǔ)全模型OMNI-DC、PromptDA、PriorDA相比,基于分塊深度掩碼法和稀疏攝影測(cè)量(SfM)深度輸入法進(jìn)行了效果對(duì)比。LingBot-Depth模型在室內(nèi)、室外場(chǎng)景下的預(yù)測(cè)深度與真實(shí)深度的偏差都相對(duì)更小,顯著優(yōu)于當(dāng)前主流的基線方法。

螞蟻靈波開源高精度空間感知模型!機(jī)器人在透明、反光場(chǎng)景不掉鏈子

▲LingBot-Depth模型與主流模型相比的效果

在分塊深度掩碼法的評(píng)測(cè)設(shè)置下,LingBot-Depth模型在不同難度等級(jí)中性能均持續(xù)優(yōu)于其他模型,證明了該模型面對(duì)重度掩碼和噪聲干擾時(shí)具備較優(yōu)抗干擾能力。

在稀疏攝影測(cè)量(SfM)深度輸入法設(shè)置下,LingBot-Depth模型生成的深度圖具備更清晰的深度邊界和更連貫的結(jié)構(gòu)特征,并且在遮擋嚴(yán)重或觀測(cè)信息稀疏的區(qū)域優(yōu)勢(shì)更為明顯。

螞蟻靈波開源高精度空間感知模型!機(jī)器人在透明、反光場(chǎng)景不掉鏈子

▲兩種協(xié)議下的模型對(duì)比效果

如下圖所示,LingBot-Depth模型生成的圖像包含更清晰的邊界和更完整的結(jié)構(gòu)。

螞蟻靈波開源高精度空間感知模型!機(jī)器人在透明、反光場(chǎng)景不掉鏈子

單目深度估計(jì)能力上,LingBot-Depth模型在10項(xiàng)基準(zhǔn)上的表現(xiàn)均優(yōu)于視覺模型DINOv2,其測(cè)試結(jié)果顯示,LingBot-Depth模型的預(yù)訓(xùn)練范式可以有效地將3D幾何知識(shí)提煉到編碼器中,提高其從單目圖像推斷深度結(jié)構(gòu)的能力。

螞蟻靈波開源高精度空間感知模型!機(jī)器人在透明、反光場(chǎng)景不掉鏈子

研究人員還將LingBot-Depth模型,作為強(qiáng)單目深度先驗(yàn)融入FoundationStereo模型中,結(jié)果顯示加速雙目匹配模型訓(xùn)練后,F(xiàn)oundationStereo收斂更快。

從性能表現(xiàn)來看,LingBot-Depth 模型不僅驗(yàn)證了其技術(shù)路徑的有效性,更凸顯了其背后深刻的行業(yè)價(jià)值。

最直觀的就是,LingBot-Depth模型有效攻克了機(jī)器人空間感知的核心痛點(diǎn),即便是傳統(tǒng)相機(jī)難以捕捉的低紋理、遮擋或弱光區(qū)域,機(jī)器人也能通過該模型實(shí)現(xiàn)清晰感知。同時(shí),它顯著縮小了普通消費(fèi)級(jí)RGB-D相機(jī)與高端深度相機(jī)之間的性能差距,讓低成本設(shè)備也能輸出接近專業(yè)級(jí)的深度數(shù)據(jù),為機(jī)器人等各類智能設(shè)備的空間感知能力筑牢了技術(shù)根基。

二、LingBot-Depth要讓機(jī)器人看清路、定準(zhǔn)位

就像人類出行需要通過視覺清晰感知路況、判斷距離、定位自身位置一樣,機(jī)器人執(zhí)行任務(wù)時(shí)也依賴精準(zhǔn)的空間視覺感知能力,既需要看懂周圍的三維布局,還要準(zhǔn)確定位自己的坐標(biāo)。

這種能力是機(jī)器人實(shí)現(xiàn)自主導(dǎo)航、避障和復(fù)雜操作的底層基礎(chǔ),而追求精確的三維感知已成為基于物理的AI研究的核心支柱,其重要性不言而喻。

從行業(yè)落地視角來看,讓機(jī)器人實(shí)現(xiàn)穩(wěn)定、有效的空間感知,需滿足三大核心標(biāo)準(zhǔn):具備絕對(duì)度量尺度、能輸出像素級(jí)對(duì)齊的稠密幾何信息、支持無(wú)需高算力后處理的實(shí)時(shí)采集。而目前業(yè)內(nèi)唯一能同時(shí)滿足這些實(shí)時(shí)性要求的成像方案,唯有RGB-D相機(jī)。

然而,RGB-D相機(jī)的硬件短板卻成為技術(shù)規(guī)?;瘧?yīng)用的關(guān)鍵掣肘之一。受固有的硬件局限影響,基于雙目的深度相機(jī)方式,會(huì)通過兩個(gè)鏡頭從略有差異的視角同時(shí)拍攝場(chǎng)景,系統(tǒng)通過匹配兩幅圖像中的對(duì)應(yīng)點(diǎn)來計(jì)算深度。

但該相機(jī)在面對(duì)光滑、鏡面反射、反光等復(fù)雜光照條件,其依靠像素級(jí)局部紋理進(jìn)行推理、猜測(cè)補(bǔ)全缺失圖像的策略就會(huì)失效,而這些復(fù)雜場(chǎng)景在真實(shí)的工廠、家庭等環(huán)境很常見。

LingBot-Depth模型的出現(xiàn),正是為破解這一行業(yè)核心痛點(diǎn)提供了切實(shí)可行的技術(shù)路徑,其背后的殺手锏就是MDM(掩碼深度建模)

MDM相對(duì)應(yīng)的就是此前主流MAE(掩碼自編碼器)方法的局限性,MAE在訓(xùn)練過程中無(wú)法學(xué)習(xí)和理解真實(shí)物理世界的空間幾何規(guī)律。

而MDM在訓(xùn)練時(shí)將RGB-D傳感器的天然深度缺失作為“原生掩碼”,將傳感器失效區(qū)域視為可學(xué)習(xí)的結(jié)構(gòu)線索而非簡(jiǎn)單噪聲,通過掩碼深度建模(Masked Depth Modeling, MDM)機(jī)制充分利用 RGB 圖像中的視覺上下文信息,對(duì)缺失深度區(qū)域進(jìn)行智能推斷與補(bǔ)全。模型在補(bǔ)全真實(shí)深度缺失的過程中,可以學(xué)出貼合物理世界的度量級(jí)、高精度完整深度表示

簡(jiǎn)單說,MDM就是將傳感器的缺陷變成了訓(xùn)練AI的素材,讓AI學(xué)習(xí)真實(shí)世界的物理規(guī)則,而不是人工編的假規(guī)則,這使得最后練出的AI能精準(zhǔn)測(cè)出真實(shí)的3D距離。

螞蟻靈波開源高精度空間感知模型!機(jī)器人在透明、反光場(chǎng)景不掉鏈子

如此一來,模型便能逐步習(xí)得這類空間感知規(guī)律:當(dāng)識(shí)別到玻璃類的視覺外觀與反射特征時(shí),就能精準(zhǔn)推斷出其對(duì)應(yīng)的深度范圍。

在此之上,基于統(tǒng)一單目深度估計(jì)和深度補(bǔ)全的目標(biāo),MDM框架可以作為通用的多功能模型,從任意RGB-D輸入生成度量尺度、像素對(duì)齊的密集深度圖。

機(jī)器人行業(yè)正邁向規(guī)?;瘧?yīng)用落地的關(guān)鍵階段,螞蟻靈波在MDM機(jī)制上的探索在攻克精準(zhǔn)空間感知這一核心難題上提出了新解法,或加速機(jī)器人真正邁入自主感知、自主決策、自主執(zhí)行的智能新階段。

三、千萬(wàn)級(jí)樣本煉就機(jī)器人“火眼金睛”,讓機(jī)器人靈巧操作落地可期

找對(duì)可行路徑,下一步要做的就是落地實(shí)現(xiàn)。

為支持大規(guī)模MDM訓(xùn)練,研究人員首先搭建了一套可擴(kuò)展的數(shù)據(jù)整理流程,實(shí)現(xiàn)原始傳感器數(shù)據(jù)與可靠監(jiān)督信息的高效對(duì)接。該流程設(shè)計(jì)兩大并行數(shù)據(jù)分支,分別是基于自托管的3D資產(chǎn)生成合成數(shù)據(jù),以及通過模塊化3D打印采集裝置完成實(shí)景數(shù)據(jù)采集,這一裝置兼容主動(dòng)立體相機(jī)(Intel RealSense、奧比中光Gemini)和被動(dòng)立體相機(jī)(ZED)等多款消費(fèi)級(jí)RGB-D相機(jī)。

螞蟻靈波開源高精度空間感知模型!機(jī)器人在透明、反光場(chǎng)景不掉鏈子

基于這一套設(shè)計(jì),其累計(jì)獲取了100萬(wàn)個(gè)合成樣本、200萬(wàn)個(gè)真實(shí)世界樣本,所有樣本均包含同步的RGB圖像、原始傳感器深度數(shù)據(jù)及立體圖像對(duì)。

螞蟻靈波開源高精度空間感知模型!機(jī)器人在透明、反光場(chǎng)景不掉鏈子

其中立體圖像對(duì)的偽深度監(jiān)督,由基于FoundationStereo、經(jīng)合成數(shù)據(jù)訓(xùn)練的自定義立體匹配網(wǎng)絡(luò)實(shí)現(xiàn)。研究人員還融合多個(gè)公開RGB-D數(shù)據(jù)集豐富了數(shù)據(jù)語(yǔ)料庫(kù),最終構(gòu)建出包含1000萬(wàn)條樣本的多樣化高質(zhì)量訓(xùn)練集。

結(jié)合該RGB-D語(yǔ)料庫(kù),研究人員采用掩碼深度建模方式對(duì)ViT-Large模型進(jìn)行預(yù)訓(xùn)練,通過注意力機(jī)制將度量幾何信息融入語(yǔ)義標(biāo)記,可有效提升RGB-D相機(jī)的空間感知質(zhì)量。

在可擴(kuò)展雙支數(shù)據(jù)整理流程、超大規(guī)模高質(zhì)量訓(xùn)練集、針對(duì)性預(yù)訓(xùn)練優(yōu)化感知這樣的全棧技術(shù)創(chuàng)新下,LingBot-Depth模型已經(jīng)有了落地到實(shí)際應(yīng)用的潛力。

因此,研究人員基于LingBot-Depth模型開展了多組實(shí)驗(yàn)驗(yàn)證,選用Orbbec Gemini-335相機(jī)作為RGB-D輸入設(shè)備,完成了3D點(diǎn)跟蹤、靈巧手抓取等典型任務(wù)的實(shí)測(cè)驗(yàn)證。

可以看到在3D點(diǎn)跟蹤案例中,當(dāng)場(chǎng)景包含大面積的玻璃時(shí),原始深度傳感器會(huì)嚴(yán)重失效,經(jīng)LingBot-Depth模型優(yōu)化后的深度數(shù)據(jù),能夠生成更加平滑和精確的相機(jī)軌跡。

螞蟻靈波開源高精度空間感知模型!機(jī)器人在透明、反光場(chǎng)景不掉鏈子

▲原始相機(jī)和基于LingBot-Depth模型優(yōu)化的3D跟蹤效果對(duì)比

還有真實(shí)世界的靈巧手抓取,其采用了配備X Hand-1靈巧手的Rokae XMate-SR5機(jī)械臂、用于感知的Orbbec Gemini 335 RGB-D相機(jī)。LingBot-Depth模型在抓取高度透明物體時(shí)的成功率達(dá)到50%,但原始方法完全無(wú)法抓取。

螞蟻靈波開源高精度空間感知模型!機(jī)器人在透明、反光場(chǎng)景不掉鏈子

▲靈巧手抓取成功率對(duì)比

雖然這些只是在實(shí)驗(yàn)室的測(cè)試,但這些測(cè)試場(chǎng)景均對(duì)標(biāo)了機(jī)器人落地應(yīng)用中的高頻實(shí)際場(chǎng)景,已充分展現(xiàn)出該技術(shù)方案的高實(shí)用性與落地潛力。

結(jié)語(yǔ):讓機(jī)器人看懂物理世界的關(guān)鍵一步

整體而言,LingBot-Depth模型在解決機(jī)器人空間感知能力核心痛點(diǎn)上更進(jìn)一步,既實(shí)現(xiàn)了感知性能的提升,又大幅降低了技術(shù)落地成本,為各類智能應(yīng)用的開發(fā)筑牢了技術(shù)基礎(chǔ),是推動(dòng)機(jī)器人真正“看懂”物理世界的關(guān)鍵突破。

對(duì)于開發(fā)者而言,其無(wú)需再?gòu)牧汩_展空間感知的基礎(chǔ)研究,可直接基于該模型快速搭建各類應(yīng)用,這將大幅加速一眾智能設(shè)備的研發(fā)與落地進(jìn)程,讓機(jī)器人、自動(dòng)駕駛汽車等產(chǎn)品更快從技術(shù)概念走進(jìn)現(xiàn)實(shí)場(chǎng)景。