最近,文本到圖像的擴(kuò)散模型取得了顯著的進(jìn)步。值得注意的是,Stable Diffusion和DeepFloyd-IF是當(dāng)前開源社區(qū)中最成功的兩個(gè)擴(kuò)散模型。這些模型基于UNet架構(gòu),用途廣泛,可應(yīng)用于廣泛的任務(wù),包括圖像編輯、超分辨率、分割和對(duì)象檢測(cè)。擴(kuò)散模型的主要缺點(diǎn)之一是圖像生成的推理時(shí)間較慢?,F(xiàn)有方法大多采用了蒸餾技術(shù),但這些方法對(duì)計(jì)算資源要求較高。

為了解決以上問題,來自南開大學(xué)的在讀博士生李森茂提出了一種基于擴(kuò)散模型編碼器模塊的推理加速的方法Faster Diffusion。相關(guān)論文為《Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference》,已收錄于NeurIPS 2024。

NeurIPS 2024收錄!基于擴(kuò)散模型編碼器模塊的推理加速丨一作、南開大學(xué)博士生李森茂講座預(yù)告

Faster Diffusion是一種簡(jiǎn)單而有效的編碼器傳播方案,以加速針對(duì)不同任務(wù)集的擴(kuò)散采樣。其核心是在多個(gè)時(shí)間步中重復(fù)使用編碼器特征,加速了擴(kuò)散模型的采樣過程。

擴(kuò)散模型中的一個(gè)關(guān)鍵組件是用于噪聲預(yù)測(cè)的UNet。通過分析UNet在擴(kuò)散模型中的特性,發(fā)現(xiàn)編碼器特征在相鄰時(shí)間步之間變化平緩,具有高度相似性。

為了實(shí)現(xiàn)無訓(xùn)練的加速擴(kuò)散模型推理,F(xiàn)aster Diffusion通過在相鄰時(shí)間步省略編碼器計(jì)算,并重用前一步的編碼器特征作為解碼器輸入;進(jìn)而并行執(zhí)行解碼器計(jì)算,進(jìn)一步加速去噪過程。

雖然編碼器傳播可以提高推理階段的效率,但觀察到它會(huì)導(dǎo)致生成結(jié)果中的紋理信息的輕微丟失。所以還引入了一種先驗(yàn)噪聲注入方法來改善生成圖像中的紋理細(xì)節(jié)。

實(shí)驗(yàn)證明,在不使用任何知識(shí)蒸餾技術(shù)的情況下,F(xiàn)aster Diffusion分別加速了StableDiffusion(SD)和DeepFloyd-IF模型的推理,速度提升了41% 和 24%;DiT模型的推理速度提升了34%,同時(shí)保持了高質(zhì)量的生成性能。

NeurIPS 2024收錄!基于擴(kuò)散模型編碼器模塊的推理加速丨一作、南開大學(xué)博士生李森茂講座預(yù)告

11月1日10點(diǎn),智猩猩邀請(qǐng)到論文一作、南開大學(xué)在讀博士生李森茂參與「智猩猩AI新青年講座」254講,主講《基于擴(kuò)散模型編碼器模塊的推理加速》。

講者

李森茂

南開大學(xué)在讀博士生

導(dǎo)師是王亞星副教授。期間在巴塞自治大學(xué)LAMP組做過短期實(shí)習(xí),導(dǎo)師為Joost van de Weijer。在此之前,在南開大學(xué)計(jì)算機(jī)學(xué)院獲得碩士學(xué)位。主要研究包括生成模型、圖像生成和圖像到圖像的轉(zhuǎn)換等課題。
第254講

主題

基于擴(kuò)散模型編碼器模塊的推理加速

提綱

1、目前擴(kuò)散模型推理速度慢的問題
2、UNet編碼器和解碼器在不同時(shí)間步的分析
3、并行處理加速擴(kuò)散模型推理方案FasterDiffusion
4、實(shí)驗(yàn)效果展示

直播信息

直播時(shí)間:11月1日10:00

成果

論文標(biāo)題
《Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference》

論文鏈接
https://arxiv.org/pdf/2312.09608

項(xiàng)目網(wǎng)站
https://sen-mao.github.io/FasterDiffusion

如何報(bào)名

有講座直播觀看需求的朋友,可以添加小助手“米婭”進(jìn)行報(bào)名。已添加過“米婭”的老朋友,可以給“米婭”私信,發(fā)送“ANY254”進(jìn)行報(bào)名。對(duì)于通過報(bào)名的朋友,之后將邀請(qǐng)入群進(jìn)行觀看和交流。

NeurIPS 2024收錄!基于擴(kuò)散模型編碼器模塊的推理加速丨一作、南開大學(xué)博士生李森茂講座預(yù)告