自動(dòng)駕駛新青年講座」由智東西公開課企劃,致力于邀請(qǐng)全球知名高校、頂尖研究機(jī)構(gòu)以及優(yōu)秀企業(yè)的新青年,主講在環(huán)境感知、精準(zhǔn)定位、決策規(guī)劃、控制執(zhí)行等自動(dòng)駕駛關(guān)鍵技術(shù)上的最新研究成果和開發(fā)實(shí)踐。
「自動(dòng)駕駛新青年講座」目前已完結(jié)20講,錯(cuò)過往期講座直播的朋友,可以點(diǎn)擊文章底部“閱讀原文”進(jìn)行回看!
有興趣分享的朋友,可以與智東西公開課教研團(tuán)隊(duì)進(jìn)行郵件(class@zhidx.com)聯(lián)系。
在自動(dòng)駕駛領(lǐng)域,由于單模態(tài)數(shù)據(jù)的感知存在固有缺陷,基于多模態(tài)的融合感知技術(shù)已成為了眾多自動(dòng)駕駛企業(yè)及團(tuán)隊(duì)研究的核心之一。但由于LiDAR容易受極端天氣的影響,且與相機(jī)相比價(jià)格昂貴,因此沒有被廣泛采用。然而,相機(jī)捕捉的2D圖像和LiDAR 3D點(diǎn)云特征之間仍存在較大差異,基于多視角相機(jī)的3D目標(biāo)檢測(cè)依然是一個(gè)具有挑戰(zhàn)性的問題。
基于自監(jiān)督、多模態(tài)數(shù)據(jù)的通用預(yù)訓(xùn)練方法能夠盡可能多的學(xué)習(xí)到通用先驗(yàn)知識(shí),通過微調(diào)實(shí)現(xiàn)知識(shí)遷移。它能夠顯著降低下游任務(wù)對(duì)標(biāo)注數(shù)據(jù)的依賴,提高模型在小數(shù)據(jù)集上的泛化能力。這類方法在2D感知任務(wù)上取得了顯著進(jìn)展,但在基于視覺的BEV感知模型方面還尚未獲得更多關(guān)注。
針對(duì)這一問題,香港中文大學(xué)多媒體實(shí)驗(yàn)室(MMLab)在讀博士劉吉豪等研究人員詳細(xì)對(duì)比了現(xiàn)有的預(yù)訓(xùn)練算法在基于視覺的BEV感知模型上的表現(xiàn),提出了一種基于幾何增強(qiáng)的圖像掩碼預(yù)測(cè)算法GeoMIM,來增強(qiáng)視覺模型的BEV感知和幾何理解能力。通過掩碼預(yù)測(cè)將LiDAR所蘊(yùn)含的豐富幾何表征遷移到視覺模型中。經(jīng)過預(yù)訓(xùn)練的視覺模型可廣泛應(yīng)用于各種3D檢測(cè)、分割等下游任務(wù),并且在不同的數(shù)據(jù)集間具有可遷移性。GeoMIM算法相關(guān)成果的論文收錄在?ICCV 2023上。
8月25日10點(diǎn),「自動(dòng)駕駛新青年講座」第21講邀請(qǐng)到論文一作、香港中文大學(xué)在讀博士劉吉豪參與,主講《面向BEV感知與幾何理解的視覺骨架預(yù)訓(xùn)練》。
講者
劉吉豪,香港中文大學(xué)電子工程系,多媒體實(shí)驗(yàn)室(MMLab)在讀博士,師從李鴻升教授。主要研究方向?yàn)榛谧员O(jiān)督、多模態(tài)的視覺基礎(chǔ)模型預(yù)訓(xùn)練。在ICCV、CVPR、ECCV等會(huì)議上發(fā)表多篇論文,曾獲得LFR Challenge第一名,NIST FRVT第一名。
第21講
主 題
《面向BEV感知與幾何理解的視覺骨架預(yù)訓(xùn)練》
提 綱
1、2D感知模型預(yù)訓(xùn)練算法及其在BEV感知上的應(yīng)用
2、利用激光雷達(dá)網(wǎng)絡(luò)的BEV知識(shí)蒸餾算法研究
3、面向幾何理解下游任務(wù)的表征預(yù)訓(xùn)練算法GeoMIM
4、結(jié)合GeoMIM預(yù)訓(xùn)練模型的下游應(yīng)用
直 播 信 息
直播時(shí)間:8月25日10:00
直播地點(diǎn):智東西公開課知識(shí)店鋪
成果
論文標(biāo)題
《Towards Better 3D Knowledge Transfer via Masked Image Modeling forMulti-view 3D Understanding》
論文鏈接
https://arxiv.org/abs/2303.11325