時間輸入對于3D占用預(yù)測非常重要,而現(xiàn)有方法大多遵循傳統(tǒng)的感知、轉(zhuǎn)換和融合流程。即給定順序輸入信息,感知模塊獨立獲得每個幀的場景表示,例如BEV特征以及體素特征;并且轉(zhuǎn)換模塊根據(jù)自車軌跡對齊多幀的時序特征信息,融合模塊融合對齊的特征表示以推斷當(dāng)前的3D占用情況。這些方法未能考慮駕駛場景演變的固有連續(xù)性和簡單性。

為此,清華大學(xué)自動化系提出一個基于高斯世界模型的流式三維語義占用預(yù)測模型GaussianWorld,現(xiàn)已開源。與GaussianWorld相關(guān)的論文成果已投稿CVPR 2025,清華大學(xué)自動化系智能視覺實驗室(IVG)博士生左思成為論文一作。

清華開源GaussianWorld:基于高斯世界模型的3D占用預(yù)測模型 | 一作左思成博士主講預(yù)告

GaussianWorld采用顯式3D高斯作為場景表示,而不是傳統(tǒng)的隱式 BEV/Voxel 表示,這可以實現(xiàn)物體運動的顯式和連續(xù)建模。給定歷史 3D 高斯和當(dāng)前視覺輸入,GaussianWorld算法模型旨在預(yù)測場景如何演變并預(yù)測當(dāng)前的占用情況。

為了證明提出的GaussianWorld算法模型的有效性,在nuScenes數(shù)據(jù)集上進(jìn)行了大量實驗。實驗表明,GaussianWorld 可以有效地預(yù)測場景演變,并在不引入額外計算的情況下將單幀占用率預(yù)測提高 2% 以上(mIoU)。與現(xiàn)有方法相比,該模型在不引入額外計算開銷的前提下,展示了SOTA的性能。

清華開源GaussianWorld:基于高斯世界模型的3D占用預(yù)測模型 | 一作左思成博士主講預(yù)告

1月13日晚上7點,智猩猩邀請到論文一作、清華大學(xué)智能視覺實驗室(IVG)博士生左思成參與「智猩猩新青年講座自動駕駛專題」第42講,主講《基于高斯世界模型的流式3D占用預(yù)測》。

講者

左思成,清華大學(xué)智能視覺實驗室(IVG)博士生

清華大學(xué)自動化系智能視覺實驗室(IVG)博士生,主要研究方向是計算機(jī)視覺和自動駕駛。

第 42 講

?主 題?

《基于高斯世界模型的流式3D占用預(yù)測》

?提 綱?

1、自動駕駛中的時序建模方法

2、基于世界模型的感知任務(wù)范式

3、基于高斯世界模型的流式OCC預(yù)測

4、在世界模型與端到端自動駕駛上的思考

直 播 信 息?

直播時間:1月13日19:00

成果

論文標(biāo)題

《GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction》

論文鏈接

https://arxiv.org/abs/2412.10373

論文鏈接

https://github.com/zuosc19/GaussianWorld

如何報名

有講座直播觀看需求的朋友,可以添加小助手“陳新”進(jìn)行報名。已添加過“陳新”的老朋友,可以給“陳新”私信,發(fā)送“自動駕駛42”進(jìn)行報名。對于通過報名的朋友,之后將邀請入群進(jìn)行觀看和交流。

清華開源GaussianWorld:基于高斯世界模型的3D占用預(yù)測模型 | 一作左思成博士主講預(yù)告