「AI新青年講座」將邀請世界頂尖AI研究機(jī)構(gòu)和大學(xué)的科研新青年,主講他們在計算機(jī)視覺、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。

「AI新青年講座」目前已完結(jié)120講,錯過往期講座直播的朋友,可以點(diǎn)擊文章底部“閱讀原文”進(jìn)行回看!

有興趣分享學(xué)術(shù)成果的朋友,可以與智東西公開課教研團(tuán)隊(duì)進(jìn)行郵件(class@zhidx.com)聯(lián)系。

相較圖像而言,視頻具有更豐富的信息,雖然給視覺理解任務(wù)帶來了更多的可能性,但也帶來了更大的挑戰(zhàn)。為了更好地對視頻中的內(nèi)容進(jìn)行理解,高效地對視頻幀之間的時空信息進(jìn)行建模是關(guān)鍵。

其實(shí)自從P3D和R(2+1)D分別在17年的ICCV和18年CVPR上被提出之后,很大一部分工作的時序理解都是通過在時間軸上的1D conv完成的,包括它的復(fù)雜度是O(C^2xKxTHW)。這種基于像素點(diǎn)的操作,會在純2D conv的基礎(chǔ)上帶來不可忽視的計算開銷。舉例來說,對于K=3的2D和1D conv,1D conv會在2D conv的基礎(chǔ)上將計算量提高33%。

新加坡國立大學(xué)高級機(jī)器人研究中心的在讀博士黃子淵在達(dá)摩院實(shí)習(xí)期間,與達(dá)摩院的同事們以及NTU S-Lab的老師們,提出了一種時間自適應(yīng)卷積TAdaConv。在不修改網(wǎng)絡(luò)其他結(jié)構(gòu)的情況下,使用TAdaConv代替網(wǎng)絡(luò)中的2D卷積,可以帶來顯著的提升。

TAdaConv通過動態(tài)地對視頻中每一幀的卷積核權(quán)重進(jìn)行自適應(yīng)調(diào)整,對空間卷積賦予時序建模能力,從而在幾乎沒有額外計算開銷的情況下有效提升現(xiàn)有模型的時序推理能力。相比常用的時間卷積操作而言,TAdaConv更為高效,同時還能大大提升模型容量。在TAdaConv的基礎(chǔ)上,黃博還構(gòu)建TAda2D和TAdaConvNeXt視頻分類模型,并在Kinetics-400、Something-Something-V2以及Epic-Kitchens-100視頻分類任務(wù)上達(dá)到了極具競爭力的性能。

TAdaConv論文已被ICLR 2022接收,相應(yīng)的PyTorch代碼和模型也已經(jīng)作為視頻理解框架EssentialMC2的一部分進(jìn)行開源,并在達(dá)摩院的多個視頻理解業(yè)務(wù)中成功應(yīng)用。

6月1日,「AI新青年講座」第121講邀請到TAdaConv一作、新加坡國立大學(xué)高級機(jī)器人研究中心在讀博士黃子淵參與,主講《TAdaConv:邁向高效的卷積視頻理解》。

講者
黃子淵,新加坡國立大學(xué)高級機(jī)器人研究中心在讀博士;導(dǎo)師為Marcelo Ang;主要研究興趣是視頻理解,包括視頻動作理解、視頻表征學(xué)習(xí)、多模態(tài)學(xué)習(xí)、以及基于視頻的環(huán)境理解等;曾在阿里巴巴達(dá)摩院實(shí)習(xí),并獲得阿里巴巴優(yōu)秀科學(xué)研習(xí)生榮譽(yù)。在達(dá)摩院實(shí)習(xí)期間,其研究成果集成于達(dá)摩院自研的視頻理解算法模型EMC2。

第121講

主 題
《TAdaConv:邁向高效的卷積視頻理解》

提 綱
1、視頻理解任務(wù)中的時序建模問題
2、增強(qiáng)時序建模的時序自適應(yīng)卷積TAdaConv
3、高效的視頻分類模型TAda2D和TAdaConvNeXt
4、在視頻環(huán)境感知模型中的拓展與應(yīng)用

直 播 信 息
直播時間:6月1日19:00
直播地點(diǎn):智東西公開課知識店鋪

成果

TAda:《TAda! Temporally-Adaptive Convolutions for Video Understanding》
論文鏈接:https://arxiv.org/pdf/2110.06178.pdf
項(xiàng)目主頁:https://tadaconv-iclr2022.github.io/
開源地址:https://github.com/alibaba/EssentialMC2