作為計算機視覺領(lǐng)域的一個重要研究方向,相比于二維圖像,三維點云包含了更加豐富的幾何、形狀和結(jié)構(gòu)信息,能為場景感知和理解提供更多可能性。但目前大多數(shù)點云研究集中在對靜態(tài)點云的建模與理解,像點云分割、點云上采樣、點云補全等,而對動態(tài)點云或點云視頻的研究相對較少。
點云視頻含有豐富的視覺信息,可以充分了解我們生活的3D世界。此外,由于點云視頻比傳統(tǒng)視頻涵蓋更多、更精確的人體幾何位置坐標(biāo),所以點云視頻為低能見度環(huán)境中的動作識別提供保障。因此,理解點云視頻對于智能系統(tǒng)與世界交互非常重要。
目前,點云視頻的建模與理解有兩大挑戰(zhàn)。首先,不同于有序、規(guī)則像素的圖像,點云是無序、不規(guī)則的點集合。單幀點云的無序性使得獲取到的點集在整個視頻里出現(xiàn)的順序無法做到一致。雖然可采用點追蹤的方式來獲取點的運動,但追蹤本身就極具挑戰(zhàn),很難獲得準(zhǔn)確的軌跡,尤其對于較長的視頻;其次,點云視頻雖然在空間維度是無序不規(guī)則的,但在時間維度是規(guī)則有序的。在對點云視頻進行建模與理解時,需要減少空間建模對時間建模的影響。
那如何解決這兩大挑戰(zhàn)呢?8月30日晚7點,智東西公開課特邀新加坡國立大學(xué)研究員范鶴鶴主講《基于深度學(xué)習(xí)的三維點云視頻建模與理解》,這是學(xué)術(shù)新青年講座的第12講。
在本次講座中,范老師將從三維點云視頻建模的背景與難點出發(fā),詳細分析局部建模的時空金字塔模型PSTNet和非局部建模的自注意力模型P4Transformer,這兩個模型都可以有效的解決點云視頻建模的兩大挑戰(zhàn),最后探討這兩個模型在三維動作識別和四維語義分割上的應(yīng)用。
范鶴鶴是新加坡國立大學(xué)研究員,博士畢業(yè)于悉尼科技大學(xué)。他主要從事深度學(xué)習(xí)、計算機視覺以及多媒體技術(shù)相關(guān)方面的研究,并在曾在ICLR、CVPR、ICCV等會議和期刊上發(fā)表多篇論文。
本次講座將在智東西公開課知識社區(qū)進行,包含主講和問答兩個部分,其中主講環(huán)節(jié)40分鐘,問答環(huán)節(jié)20分鐘。每個環(huán)節(jié)主講老師都將通過視頻直播進行實時講解與互動。
課程主題
基于深度學(xué)習(xí)的三維點云視頻建模與理解
課程提綱
1、三維點云視頻建模的背景與挑戰(zhàn)
2、基于局部建模的時空金字塔模型PSTNet
3、基于非局部建模的自注意力模型P4Transformer
4、在三維動作識別和四維語義分割上的應(yīng)用
講師介紹
范鶴鶴,新加坡國立大學(xué)研究員,博士畢業(yè)于悉尼科技大學(xué);主要從事深度學(xué)習(xí)、計算機視覺以及多媒體技術(shù)相關(guān)方面的研究,曾在ICLR、CVPR、ICCV等會議和期刊上發(fā)表多篇論文。
直播信息
直播時間:8月30日晚7:00
直播地點:智東西公開課知識社區(qū)