「AI新青年講座」由智東西公開課出品,致力于邀請(qǐng)青年學(xué)者,主講他們?cè)谏墒紸I、LLM、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對(duì)人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識(shí)也能夠得以積累加深。同時(shí),通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。

「AI新青年講座」目前已完結(jié)222講;有興趣分享學(xué)術(shù)成果的朋友,可以與智東西公開課教研團(tuán)隊(duì)進(jìn)行郵件(class@zhidx.com)聯(lián)系。

對(duì)圖片靈活而精準(zhǔn)的編輯是一個(gè)富有挑戰(zhàn)性的課題,近期也出現(xiàn)了許多優(yōu)秀的成果。如 DragGAN 提出了一個(gè)優(yōu)雅的圖片編輯框架:基于關(guān)鍵點(diǎn)拖拽的圖片編輯,可以在圖像上通過「拖曳」的方式,改變并合成自己想要的圖像。比如讓一只貓轉(zhuǎn)頭、睜眼閉眼,或者豎起耳朵等等。

盡管 DragGAN 已經(jīng)展示出了極為驚艷的結(jié)果,但受限于 GAN 的表達(dá)能力,其可用范圍與場景受到了極大的約束。為嘗試解決這一問題,來自新加坡國立大學(xué)和字節(jié)跳動(dòng)的幾位研究者,在 CVPR 2023 提出了 一個(gè)名為 DragDiffusion 的算法,將“ Drag ”編輯拓展到擴(kuò)散模型上。借助大規(guī)模預(yù)訓(xùn)練的擴(kuò)散模型,大大提高了這種拖拽編輯框架的實(shí)用性,使之能夠在多物體、廣泛類別、不同風(fēng)格等復(fù)雜真實(shí)場景得以運(yùn)用。

8月28日晚7點(diǎn),「AI新青年講座」第223講邀請(qǐng)到 DragDiffusion 一作、新加坡國立大學(xué)在讀博士施宇鈞參與,主講《DragDiffusion:基于擴(kuò)散模型的關(guān)鍵點(diǎn)拖拽圖片編輯》。

講者
施宇鈞,新加坡國立大學(xué)在讀博士;指導(dǎo)老師為陳延福(Vincent Y. F. Tan)教授;目前的科研方向集中于生成式模型及其在圖片與視頻中的應(yīng)用;工作成果發(fā)表于ICLR、CVPR、NeurIPS、ICCV等機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺頂會(huì)。

第223講

主 題
《DragDiffusion:基于擴(kuò)散模型的關(guān)鍵點(diǎn)拖拽圖片編輯》

提 綱
1、關(guān)鍵點(diǎn)拖拽的圖片編輯框架 DragGAN 及局限性
2、基于擴(kuò)散模型的圖片編輯算法 DragDiffusion
3、LoRA 微調(diào)及精確的拖拽編輯
4、操作演示

直 播 信 息
直播時(shí)間:8月28日19:00
直播地點(diǎn):智東西公開課知識(shí)店鋪

成果
論文標(biāo)題:《DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing》
?論文地址:https://arxiv.org/abs/2306.14435
?開源代碼:https://github.com/Yujun-Shi/DragDiffusion