「AI新青年講座」將邀請(qǐng)世界頂尖AI研究機(jī)構(gòu)和大學(xué)的科研新青年,主講他們?cè)谟?jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對(duì)人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識(shí)也能夠得以積累加深。同時(shí),通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。
「AI新青年講座」目前已完結(jié)142講,錯(cuò)過往期講座直播的朋友,可以點(diǎn)擊文章底部“閱讀原文”進(jìn)行回看!
有興趣分享學(xué)術(shù)成果的朋友,可以與智東西公開課教研團(tuán)隊(duì)進(jìn)行郵件(class@zhidx.com)聯(lián)系。
視覺Transformer模型幾乎火遍計(jì)算機(jī)視覺各個(gè)領(lǐng)域,其性能隨著參數(shù)增加和更久的訓(xùn)練過程而得到提升。然而,當(dāng)可供訓(xùn)練的參數(shù)較少時(shí),較大的視覺Transformer模型往往不易于發(fā)揮其強(qiáng)大的建模表征能力。
目前,提高視覺Transformer模型有效性和效率的思路主要有兩種:一種是擴(kuò)大可訓(xùn)練參數(shù)范圍,另一種是通過參數(shù)共享實(shí)現(xiàn)淺層化或在模型深度上進(jìn)行壓縮。但是兩種思路各有其局限性,前者在訓(xùn)練和推理過程中,性能不能被線性的提升 ;后者則由于壓縮了原始模型的深度,導(dǎo)致模型學(xué)習(xí)能力的下降。
為了在更少的可訓(xùn)練參數(shù)下獲得更好的性能,新加坡國(guó)立大學(xué) HPC-AI實(shí)驗(yàn)室在讀博士薛復(fù)昭等人提出了一個(gè)有效利用可訓(xùn)練參數(shù)的視覺Transformer框架WideNet。WideNet首先通過在Transformer Block之間共享參數(shù)來壓縮可訓(xùn)練參數(shù)和深度。為了最大化每個(gè)Transformer Block的建模能力,將混合專家(mixture-of-experts,MoE)結(jié)構(gòu)代替前饋網(wǎng)絡(luò)。然后,使用參數(shù)不共享的多個(gè)Layer Norm在Transformer層之間共享MoE層。這樣起到了轉(zhuǎn)換各種語義表示的作用,使模型更具有參數(shù)效率和有效性。
在ImageNet-1K數(shù)據(jù)集上,采用0.72倍可訓(xùn)練參數(shù)時(shí),WideNet比Vision Transformer 高出1.46%。而在采用0.46×和0.13×可訓(xùn)練參數(shù)時(shí),WideNet仍然比ViT和ViT-MoE分別高出0.83%和2.08%。
8月4日晚6點(diǎn),「AI新青年講座」第143講邀請(qǐng)到新加坡國(guó)立大學(xué)HPC-AI實(shí)驗(yàn)室在讀博士薛復(fù)昭參與,主講《更少參數(shù)下提高視覺Transformer模型性能的通用框架WideNet》。
講者
薛復(fù)昭,新加坡國(guó)立大學(xué)HPC-AI實(shí)驗(yàn)室在讀博士,碩士畢業(yè)于南洋理工大學(xué)獲得碩士學(xué)位,師從 Chng Eng Siong 教授和 Sun Aixin 教授;目前是 Google AI 的學(xué)生研究員,與 Yi Tay 和 Mostafa Dehghani 合作;研究興趣主要集中在機(jī)器學(xué)習(xí)、自然語言處理和高性能計(jì)算,最近的興趣是設(shè)計(jì)算法和系統(tǒng)來訓(xùn)練大型和高效的語言模型。
第143講
主題
更少參數(shù)下提高視覺Transformer模型性能的通用框架WideNet
提綱
1、提高視覺Transformer模型性能的方法及局限性
2、在寬度上擴(kuò)展可訓(xùn)練參數(shù)的MoE架構(gòu)
3、有效利用可訓(xùn)練參數(shù)的視覺Transformer框架WideNet
4、在0.72倍或0.46倍參數(shù)下的性能表現(xiàn)
直播信息
直播時(shí)間:8月4日18:00
直播地點(diǎn):智東西公開課知識(shí)店鋪