「智猩猩AI新青年講座」由智猩猩出品,致力于邀請青年學(xué)者,主講他們在生成式AI、LLM、AI Agent、CV等人工智能領(lǐng)域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識也能夠得以積累加深。同時(shí),通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。

隨著擴(kuò)散模型技術(shù)的引入,文本到圖像(Text-to-Image, T2I)生成技術(shù)迎來了顯著的飛躍,現(xiàn)有模型在該領(lǐng)域展現(xiàn)出了卓越的創(chuàng)造力和表現(xiàn)力。盡管如此,文生圖模型在使用語言顏色名稱來指定對象顏色時(shí),由于這些標(biāo)簽覆蓋的顏色范圍較廣,難以實(shí)現(xiàn)精確匹配,且現(xiàn)有的文生圖個(gè)性化方法往往會(huì)導(dǎo)致顏色-形狀糾纏問題。為了實(shí)現(xiàn)T2I任務(wù)中的精準(zhǔn)顏色生成,來自巴塞羅那自治大學(xué)LAMP組博士后王凱提出了ColorPeel模型,首次解決了color prompt learning(顏色提示學(xué)習(xí))問題,相關(guān)論文為《ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement》,收錄于ECCV 2024。

ECCV 2024 顏色生成新突破!首次解決文生圖擴(kuò)散模型中的顏色提示學(xué)習(xí)問題 | UAB博士后王凱講座預(yù)告

ColorPeel是一種基于擴(kuò)散模型的精確顏色生成方法,其核心在于通過顏色和形狀的解耦來提升T2I生成中顏色的精確度。

ColorPeel首先生成一系列基礎(chǔ)的2D或3D幾何形狀,并將這些形狀賦予用戶指定的RGB顏色值或顏色坐標(biāo),作為訓(xùn)練數(shù)據(jù)。

擴(kuò)散模型利用訓(xùn)練過程中學(xué)到的顏色特征,結(jié)合用戶提供的顏色提示,生成具有精確顏色的圖像。

ColorPeel中引入一個(gè)創(chuàng)新的交叉注意力對齊損失函數(shù)進(jìn)行模型更新,旨在通過將顏色和形狀從自動(dòng)生成的目標(biāo)顏色幾何物體中解耦,使得模型能夠更準(zhǔn)確地學(xué)習(xí)顏色提示,避免顏色和形狀特征的混合問題。

在生成階段,用戶通過提供文本描述和顏色提示來指導(dǎo)圖像的生成。通過反向擴(kuò)散過程逐步恢復(fù)出圖像的顏色和形狀信息。這個(gè)過程中,模型會(huì)不斷優(yōu)化圖像,以確保其顏色、形狀以及整體風(fēng)格與用戶的輸入高度一致。

ECCV 2024 顏色生成新突破!首次解決文生圖擴(kuò)散模型中的顏色提示學(xué)習(xí)問題 | UAB博士后王凱講座預(yù)告

8月15日10點(diǎn),智猩猩邀請到論文共同一作、巴塞羅那自治大學(xué)LAMP組博士后王凱參與「智猩猩AI新青年講座」247講,主講《文生圖擴(kuò)散模型中的精確顏色生成》。

講者

王凱

巴塞羅那自治大學(xué)LAMP組博士后

在吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院分別于2014年及2017年拿到本科及碩士學(xué)位。2022年博士畢業(yè)于西班牙巴塞羅那自治大學(xué)LAMP組,導(dǎo)師為Joost van de Weijer,主要研究課題為持續(xù)學(xué)習(xí),vision transformer,擴(kuò)散模型以及域適應(yīng)等課題。畢業(yè)后至今留組作為博后指導(dǎo)多名博士生進(jìn)行相關(guān)領(lǐng)域的研究工作。
第247講主 題
文生圖擴(kuò)散模型中的精確顏色生成
提 綱
1、文生圖擴(kuò)散模型顏色生成存在的問題
2、基于LDM的文生圖精確顏色生成方法ColorPeel
3、解耦顏色和形狀以提升模型顏色學(xué)習(xí)能力
4、實(shí)驗(yàn)結(jié)果展示與擴(kuò)展應(yīng)用

直播信息

直播時(shí)間:8月15日10:00
直播地點(diǎn):智猩猩GenAI視頻號

成果

論文標(biāo)題
《ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement》
論文鏈接
https://arxiv.org/abs/2407.07197
項(xiàng)目網(wǎng)站
https://moatifbutt.github.io/colorpeel/
開源代碼
https://github.com/moatifbutt/color-peel

入群申請

本次講座組建了學(xué)習(xí)交流群。加入學(xué)習(xí)交流群,除了可以觀看直播,并提前拿到課件外,你還能結(jié)識更多研究人員和開發(fā)者,所提問題也將會(huì)優(yōu)先解答。

希望入群的朋友可以掃描下方二維碼,添加小助手米婭進(jìn)行申請。已添加過米婭的老朋友,可以給米婭私信,發(fā)送“ANY247”進(jìn)行申請。

ECCV 2024 顏色生成新突破!首次解決文生圖擴(kuò)散模型中的顏色提示學(xué)習(xí)問題 | UAB博士后王凱講座預(yù)告