今年7月,智東西公開課教研團隊全新策劃「大廠講壇」,將邀請國內(nèi)科技/互聯(lián)網(wǎng)大廠開設(shè)專區(qū),圍繞最新研究成果、核心技術(shù)、業(yè)務(wù)創(chuàng)新,持續(xù)帶來多場直播講解。騰訊優(yōu)圖實驗室專區(qū)則是此次「大廠講壇」的第一個系列性講解,目前已經(jīng)確定下來六講,將圍繞優(yōu)圖實驗室在弱監(jiān)督目標(biāo)定位、圖文多模態(tài)、TNN、高效模型、3D人臉、人臉隱私訓(xùn)練及開源項目Tface這六個領(lǐng)域的重要研究成果進行講解和交流。

在7月19日騰訊優(yōu)圖實驗室專區(qū)第一講中,優(yōu)圖實驗室研究員興甲以《弱監(jiān)督目標(biāo)定位的研究及應(yīng)用》為題,率先為我們講解了優(yōu)圖實驗室在弱監(jiān)督目標(biāo)定位方面的工作,包括了一篇發(fā)表在CVPR2021的工作:保持目標(biāo)的結(jié)構(gòu)是提高目標(biāo)定位精度的關(guān)鍵,以及一篇投稿到ICCV2021的工作:基于Transformer的弱監(jiān)督目標(biāo)定位方法。(錯過直播的朋友可以點擊文章底部的“閱讀原文”進行觀看)

8月16日晚7點,騰訊優(yōu)圖實驗室專區(qū)繼續(xù),將由優(yōu)圖實驗室研究員志文參與到第2講中的直播講解中,主題為《多模態(tài)圖文內(nèi)容的識別與定位》。

深度學(xué)習(xí)在視覺領(lǐng)域上已經(jīng)有了許多成功的應(yīng)用。例如,人臉識別、物體分類與檢測等。這些應(yīng)用都是基于視覺領(lǐng)域這一單一模態(tài)進行的,然而我們的現(xiàn)實世界由多種模態(tài)的組合進行描述的,不僅視覺,還包含著聽覺、語言文字等模態(tài)。僅僅通過單一模態(tài),可能無法對事物類型進行合理判斷。因此,越來越多的研究開始從多模態(tài)方面開展。

在本次課程中,志文老師首先會對今年的多模態(tài)方向內(nèi)容進行簡單介紹,包括多模態(tài)早期各類多模態(tài)融合方法,以及最近基于Transformer結(jié)構(gòu)的多模態(tài)預(yù)訓(xùn)練模型,包括VL-Bert、Oscar等。

而后將詳解優(yōu)圖在內(nèi)容安全領(lǐng)域的一系列落地應(yīng)用。比如在內(nèi)容安全領(lǐng)域,有許多內(nèi)容無法通過圖像這一單一模態(tài)進行合理識別。早期的多模態(tài)研究思路,依靠研究如何進行更好的模型融合,實現(xiàn)1+1>2的效果。但是這種方式強烈依賴于數(shù)據(jù)量,且兩種模態(tài)的特征難以對齊,無法實現(xiàn)合理的語義融合,使得模型可能出現(xiàn)1+1<2的結(jié)果。

因此,優(yōu)圖實驗室的志文等人研究采用基于預(yù)訓(xùn)練方式的模型訓(xùn)練形式,即先利用大量無標(biāo)注數(shù)據(jù)集進行模型預(yù)訓(xùn)練,而后利用預(yù)訓(xùn)練模型微調(diào)少量有標(biāo)注圖文數(shù)據(jù)。為了保證預(yù)訓(xùn)練模型速度他們又采用了相似度度量損失函數(shù),最終實現(xiàn)在使用較少標(biāo)注數(shù)據(jù)量下,獲取較為有效的結(jié)果。同時,為了保證模型的效率,他們還采用了剪枝、蒸餾等各類方法,極大提升了模型速度。

最后,在多模態(tài)領(lǐng)域,除了多模態(tài)識別,志文老師也將深度講解他們在圖像描述及定位(Grounded Image Caption)的一些前沿工作。圖像描述及定位指除為圖像生成語句描述外,額外預(yù)測描述中包含的名詞對應(yīng)的目標(biāo)在圖像中的位置。而已有的工作主要通過正則化技術(shù)依靠注意力機制在生成圖像描述的同時預(yù)測名詞對應(yīng)的目標(biāo)的位置,但目前任務(wù)存在局部定位以及語音混淆的問題。

針對以上問題,志文老師等人提出一種弱監(jiān)督圖像描述及定位方法,并分別提出了兩個對應(yīng)模塊:
(1)針對局部定位的問題,設(shè)計分布注意力聚合模塊,挑選多個語義相同但位置不完全重合的目標(biāo)之后進行聚合,從而得到更加完整的目標(biāo)位置;
(2)針對語義混淆問題,提出跨層語義對齊模塊,解決由于序列預(yù)測導(dǎo)致中間語義不明確,進而導(dǎo)致定位錯誤的問題。同時該工作目前已經(jīng)中稿MM2021。

志文目前是騰訊優(yōu)圖實驗室研究員,主要研究方向為內(nèi)容安全審核領(lǐng)域識別檢測算法,包括單一以及多模態(tài)內(nèi)容識別、實體檢測等。他負責(zé)內(nèi)容審核領(lǐng)域中色情、違規(guī)等內(nèi)容審核以及政治實體檢測等相關(guān)任務(wù),也曾在CVPR、MM、MICCAI等期刊發(fā)表相關(guān)研究成果。

直播課介紹

課 程 主 題

《多模態(tài)圖文內(nèi)容的識別與定位》

課 程 提 綱

1、多模態(tài)融合的研究進展
2、基于Transformer的多模態(tài)預(yù)訓(xùn)練模型
3、采取預(yù)訓(xùn)練方式的多模態(tài)內(nèi)容安全識別
4、弱監(jiān)督圖像描述及定位的最新研究

講 師 介 紹

志文,騰訊優(yōu)圖實驗室研究員;主要研究方向為內(nèi)容安全審核領(lǐng)域識別檢測算法,包括單一以及多模態(tài)內(nèi)容識別、實體檢測等;負責(zé)內(nèi)容審核領(lǐng)域中色情、違規(guī)等內(nèi)容審核以及政治實體檢測等相關(guān)任務(wù);曾在CVPR、MM、MICCAI等期刊發(fā)表相關(guān)研究成果。

直 播 信 息

直播時間:8月16日19:00
直播地點:智東西公開課知識店鋪