「AI新青年講座」將邀請世界頂尖AI研究機構(gòu)和大學(xué)的科研新青年,主講他們在計算機視覺、機器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。

有興趣分享學(xué)術(shù)成果的朋友,可以與智東西公開課教研團隊進行郵件(class@zhidx.com)聯(lián)系。

相比于單模態(tài)檢測,而使用多模態(tài)傳感器(如LiDAR 和相機)的3D檢測,可以通過不同模態(tài)的數(shù)據(jù)來補充先驗知識。例如來自點云的準(zhǔn)確位置和來自圖像的豐富上下文。但相機缺乏準(zhǔn)確的深度,圖像則不能像點云那樣在體素空間中自然地表示。因此,對于多模態(tài)3D檢測而言,統(tǒng)一的表示方法對于促進跨模式的知識轉(zhuǎn)移和特征融合至關(guān)重要。

為了有效的表示多模態(tài)3D檢測,在CVPR 2022上,香港中文大學(xué)在讀博士李彥瑋等人提出了一個概念簡單但有效的跨模態(tài)三維目標(biāo)檢測框架VFF(Voxel Field Fusion)。該方法旨在通過在Voxel field中將增強圖像特征表示為ray并進行融合來保持跨模態(tài)一致性。在各種基準(zhǔn)測試中,VFF取得了一致的收益,并且優(yōu)于以前基于KITTI和nuScenes數(shù)據(jù)集的融合方法。

同時,為了在統(tǒng)一體素空間中的進行多模態(tài)表示,以實現(xiàn)準(zhǔn)確和魯棒的單模態(tài)或跨模態(tài)3D檢測,李彥瑋博士基于Transformer最新提出了一個用于多模態(tài) 3D 對象檢測的統(tǒng)一框架UVTR。UVTR在沒有高度壓縮的情況下保留了體素空間,以減輕語義歧義并實現(xiàn)空間交互。并且通過跨模態(tài)交互的方式,充分利用不同傳感器的固有屬性,包括知識傳遞和模態(tài)融合。

通過這種方式,點云中的幾何感知表達(dá)式和圖像中的上下文豐富的特征得到了很好的利用,以提高性能和魯棒性。最后的實驗證明,UVTR超越了以前在單模態(tài)和多模態(tài)輸入方面的工作,并在 nuScenetest 數(shù)據(jù)集中取得了領(lǐng)先的性能,激光雷達(dá)、相機和多模態(tài)輸入的 NDS 分別為 69.7%、55.1% 和 71.1%。

8月11日晚6點,「AI新青年講座」第145講,邀請到香港中文大學(xué)在讀博士李彥瑋參與,主講《基于Transformer的多模態(tài)3D檢測表示》。

講? 者

李彥瑋,香港中文大學(xué)在讀博士,師從賈佳亞教授;主要研究方向主要集中于2D和3D的場景感知,曾在CVPR、NeurIPS、TPAMI等會議和期刊上發(fā)表多篇學(xué)術(shù)論文。

主? 題

基于Transformer的多模態(tài)3D檢測表示

提? 綱

1、多模態(tài)3D感知的研究與發(fā)展
2、利用圖像光束的跨模態(tài)融合方法
3?、基于Transformer的多模態(tài)3D檢測統(tǒng)一表示框架
4、未來多模態(tài)感知的前景

直播信息

直播時間:8月11日18:00
直播地點:智東西公開課知識店鋪

成 果
VFF:《Voxel Field Fusion for 3D Object Detection》
UVTR:《Unifying Voxel-based Representation with Transformer for 3D Object Detection》

論文鏈接

https://arxiv.org/pdf/2205.15938.pdf
https://arxiv.org/pdf/2206.00630.pdf

開源地址

https://github.com/dvlab-research/VFF
https://github.com/dvlab-research/UVTR