在圖像生成領(lǐng)域,高分辨率圖像的生成一直是一個(gè)具有挑戰(zhàn)性的工作。Stable Diffusion等強(qiáng)大的預(yù)訓(xùn)練擴(kuò)散模型目前可以生成1024×1024像素的高質(zhì)量圖像。但生成更高分辨率的圖像(2K-4K)會(huì)遇到不合理的重復(fù)物體問題,并且生成時(shí)間成倍增加。

為解決這些問題,曠視研究院高級研究員張慎等研究人員提出了一個(gè)無需訓(xùn)練的更高分辨率圖像生成框架 HiDiffusion。該框架通過動(dòng)態(tài)調(diào)整特征圖大小來解決重復(fù)物體問題,同時(shí)改進(jìn)自注意力機(jī)制實(shí)現(xiàn)推理速度的提升。相關(guān)論文為《HiDiffusion: Unlocking higher-resolution creativity and efficiency in pretrained diffusion models》,已收錄于ECCV 2024。

ECCV 2024收錄!曠視提出無需訓(xùn)練的更高分辨率圖像生成框架HiDiffusion | 一作、高級研究員張慎主講預(yù)告

HiDiffusion框架主要由兩部分組成:分辨率感知U-Net(RAU-Net)和改進(jìn)的移動(dòng)窗口多頭自注意力 (MSW-MSA)。

RAU-Net通過動(dòng)態(tài)調(diào)整特征圖的大小來解決高分辨率圖像生成中的對象重復(fù)問題。這種調(diào)整是為了匹配U-Net深層塊中卷積的感受野,從而確保在生成更高分辨率圖像時(shí)不會(huì)發(fā)生特征重復(fù)而導(dǎo)致不合理的對象重復(fù)現(xiàn)象。

MSW-MSA通過使用更大的窗口來減少不必要的計(jì)算,并動(dòng)態(tài)移動(dòng)窗口來優(yōu)化自注意力機(jī)制。這種方法可以更有效地利用計(jì)算資源,同時(shí)保持對全局信息的捕捉。

HiDiffusion可以集成到各種預(yù)訓(xùn)練擴(kuò)散模型中,將圖像生成分辨率擴(kuò)展到2K-4K,同時(shí)推理速度是以前方法的1.5-6倍。大量實(shí)驗(yàn)表明,HiDiffusion框架可以解決對象重復(fù)和計(jì)算量大的問題,并且在更高分辨率圖像生成任務(wù)上達(dá)到最好的性能。

ECCV 2024收錄!曠視提出無需訓(xùn)練的更高分辨率圖像生成框架HiDiffusion | 一作、高級研究員張慎主講預(yù)告

講者

張慎

曠視南京研究院高級研究員

碩士畢業(yè)于南京大學(xué)。研究方向?yàn)橛?jì)算機(jī)視覺,主要包括擴(kuò)散模型、模型加速等,曾在計(jì)算機(jī)視覺國際競賽中獲得一項(xiàng)冠軍,一項(xiàng)亞軍,在 CVPR, ECCV上發(fā)表多篇論文。

第2講

主題

HiDiffusion:高效、無需訓(xùn)練的更高分辨率圖像生成框架

提綱

1、擴(kuò)散模型目前存在的更高分辨率生成問題
2、RAU-Net解決圖像生成中物體重復(fù)問題
3、MSW-MSA解決更高分辨率的效率問題
4、更高分辨率的圖像生成結(jié)果和效率展示

直播信息

直播時(shí)間:10月24日10:00

成果

論文標(biāo)題
《HiDiffusion: Unlocking higher-resolution creativity and efficiency in pretrained diffusion models》

論文鏈接
https://arxiv.org/abs/2311.17528v2

項(xiàng)目網(wǎng)站
https://hidiffusion.github.io/

如何報(bào)名

有講座直播觀看需求的朋友,可以添加小助手“沐可”進(jìn)行報(bào)名。已添加過“沐可”的老朋友,可以給“沐可”私信,發(fā)送“通用視覺2402”進(jìn)行報(bào)名。對于通過報(bào)名的朋友,之后將邀請入群進(jìn)行觀看和交流。

ECCV 2024收錄!曠視提出無需訓(xùn)練的更高分辨率圖像生成框架HiDiffusion | 一作、高級研究員張慎主講預(yù)告