「智猩猩AI新青年講座」由智猩猩出品,致力于邀請青年學(xué)者,主講他們在生成式AI、LLM、AI Agent、CV等人工智能領(lǐng)域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。

「智猩猩AI新青年講座」現(xiàn)已完結(jié)255講,錯過往期講座直播的朋友,可以點(diǎn)擊文章底部 “ 閱讀原文 ” 進(jìn)行回看!

近年來,擴(kuò)散模型在人工智能生成內(nèi)容(AIGC)方面取得了重大進(jìn)展。一方面,與GAN等經(jīng)典模型不同,擴(kuò)散模型迭代地細(xì)化噪聲向量,從而產(chǎn)生具有精細(xì)細(xì)節(jié)的高質(zhì)量結(jié)果。另一方面,經(jīng)過大規(guī)模數(shù)據(jù)的訓(xùn)練,這些模型在輸入條件和輸出結(jié)果之間表現(xiàn)出令人滿意的一致性。這些能力推動了文本到圖像生成的快速進(jìn)展,然而現(xiàn)代擴(kuò)散模型的出色生成性能嚴(yán)重依賴自注意力機(jī)制處理復(fù)雜空間關(guān)系。這種現(xiàn)有范式由于復(fù)雜度隨圖像分辨率呈二次增長,在生成高分辨率視覺內(nèi)容時面臨顯著挑戰(zhàn)。

為解決上述問題,新加坡國立大學(xué)在讀博士劉松樺提出了LinFusion架構(gòu),以一種新穎的廣義線性注意力機(jī)制作為傳統(tǒng)自注意力替代方案。 LinFusion 僅經(jīng)過適度訓(xùn)練即可實現(xiàn)與原始Stable Diffusion(SD) 相當(dāng)甚至更好的性能,同時顯著降低了時間和內(nèi)存復(fù)雜度,可以在1塊GPU上生成16K超高分辨率圖像。代碼現(xiàn)已開源。

1塊GPU一分鐘生成16K高清圖像!NUS提出LinFusion,還可無縫兼容Stable Diffusion插件 | 智猩猩AI新青年講座預(yù)告

作者通過研究近期提出的線性復(fù)雜性模型,如Mamba、Mamba2和門控線性注意力,確定了兩個關(guān)鍵特性:注意力規(guī)范化和非因果推理,這些特性顯著提升了高分辨率視覺生成的性能。在此基礎(chǔ)上,引入了一種廣義線性注意力范式,這是常見線性標(biāo)記混合器的低秩近似。同時為降低訓(xùn)練成本并充分利用預(yù)訓(xùn)練模型,作者從預(yù)訓(xùn)練的SD中提取知識并初始化模型。

1塊GPU一分鐘生成16K高清圖像!NUS提出LinFusion,還可無縫兼容Stable Diffusion插件 | 智猩猩AI新青年講座預(yù)告
1塊GPU一分鐘生成16K高清圖像!NUS提出LinFusion,還可無縫兼容Stable Diffusion插件 | 智猩猩AI新青年講座預(yù)告

實驗結(jié)果表明,經(jīng)過適度訓(xùn)練的LinFusion,大幅減少了推理時間和內(nèi)存消耗。尤其是在生成16K分辨率圖像時,模型能夠高效運(yùn)行,僅需1塊GPU、1分鐘即可生成且生成質(zhì)量優(yōu)異。同時作者在SD-v1.5、SD-v2.1和SD-XL等版本上的測試顯示,LinFusion能夠生成16K分辨率等高質(zhì)量圖像,并表現(xiàn)出優(yōu)異的零樣本跨分辨率生成能力。此外,該模型無需額外調(diào)整即可兼容SD預(yù)訓(xùn)練插件(如ControlNet和IP Adapter)。

1塊GPU一分鐘生成16K高清圖像!NUS提出LinFusion,還可無縫兼容Stable Diffusion插件 | 智猩猩AI新青年講座預(yù)告
1塊GPU一分鐘生成16K高清圖像!NUS提出LinFusion,還可無縫兼容Stable Diffusion插件 | 智猩猩AI新青年講座預(yù)告

12月3日10點(diǎn),智猩猩邀請到論文一作、新加坡國立大學(xué)在讀博士劉松樺參與「智猩猩AI新青年講座」256講,主講《16K超高清圖像生成——預(yù)訓(xùn)練擴(kuò)散模型高效線性化》。

主講人

劉松樺

新加坡國立大學(xué)在讀博士生

師從王鑫超教授,本科畢業(yè)于南京大學(xué)。研究方向為高效數(shù)據(jù)合成以及使用合成數(shù)據(jù)進(jìn)行高效訓(xùn)練。曾在CVPR、ICCV、NeurIPS、ICML、以及IEEE TPAMI等國際會議、期刊上以第一作者身份發(fā)表論文10余篇。2023年度國家優(yōu)秀自費(fèi)留學(xué)生獎學(xué)金獲得者。

第256講

主 題
16K超高清圖像生成——預(yù)訓(xùn)練擴(kuò)散模型高效線性化
提 綱
1、主流視覺擴(kuò)散模型與Mamba2回顧
2、注意力規(guī)范化及非因果推理關(guān)鍵特征解析
3、廣義線性注意力機(jī)制的設(shè)計與實現(xiàn)
4、實際應(yīng)用與生成效果分析
5、在Diffusion Transformer模型上的擴(kuò)展延伸

直 播 信 息

直播時間:12月3日10:00
直播地點(diǎn):智猩猩知識店鋪

成果

論文標(biāo)題
《LinFusion: 1 GPU, 1 Minute, 16K Image》
論文鏈接
https://arxiv.org/abs/2409.02097
項目網(wǎng)站
https://lv-linfusion.github.io/

報名方式

對本次講座感興趣朋友,可以掃描下方二維碼,添加小助手米婭進(jìn)行報名。已添加過米婭的老朋友,可以給米婭私信,發(fā)送“ANY256”即可報名。

我們會為審核通過的朋友推送直播鏈接。同時,本次講座也組建了學(xué)習(xí)群,直播開始前會邀請審核通過的相關(guān)朋友入群交流。

1塊GPU一分鐘生成16K高清圖像!NUS提出LinFusion,還可無縫兼容Stable Diffusion插件 | 智猩猩AI新青年講座預(yù)告