「智猩猩AI新青年講座」由智猩猩出品,致力于邀請(qǐng)青年學(xué)者,主講他們?cè)谏墒紸I、LLM、AI Agent、CV等人工智能領(lǐng)域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對(duì)人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識(shí)也能夠得以積累加深。同時(shí),通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。

2022年,Stable Diffusion模型橫空出世,為工業(yè)界,投資界,學(xué)術(shù)界以及競(jìng)賽界都注入了新的AI想象空間。然而文本本身具有的模糊性與歧義性,往往需要用戶熟練提詞技能與反復(fù)調(diào)試;而LoRA與Dreambooth為代表的逐圖重訓(xùn)需要昂貴且緩慢的訓(xùn)練,即速度慢開銷大。如何讓大規(guī)模文-圖生成模型如臂使指?急需對(duì)大規(guī)模文-圖基礎(chǔ)模型的精細(xì)控制管線與推理階段通用知識(shí)注入機(jī)制進(jìn)行研究,以降本增效,推動(dòng)其在業(yè)務(wù)場(chǎng)景的廣泛應(yīng)用。

針對(duì)以上問題,上海交通大學(xué)與阿里巴巴淘天集團(tuán)共同提出了圖像生成模型推理階段的知識(shí)注入方法,并基于該方法合作開發(fā)了虛擬試衣模型AnyFit,取得了目前SOTA的試衣效果。相關(guān)論文為《AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario 》,目前NeurIPS在投。

虛擬試衣SOTA!上交大聯(lián)合阿里淘天提出圖像生成模型的知識(shí)注入方法及虛擬試衣模型AnyFit | 上交大博士李昱翰講座預(yù)告

AnyFit主要由兩個(gè)同構(gòu)的U-Net組成:HydraNet和MainNet。其中,HydraNet負(fù)責(zé)提取細(xì)粒度的服裝特征;MainNet負(fù)責(zé)生成試穿效果。

AnyFit以一個(gè)人像圖像和一個(gè)或多個(gè)目標(biāo)服裝圖像為輸入。再使用OpenPose等工具從人像圖像中提取出人體的輪廓部分,以便后續(xù)將服裝圖像融合到該輪廓上。

利用HydraNet對(duì)目標(biāo)服裝圖像特征提取。在HydraNet中,通過共享的U-Net結(jié)構(gòu)和并行化注意力模塊來高效地整合不同服裝的特征。

HydraNet提取的服裝特征通過Hydra Fusion Block特征融合融合塊注入到MainNet中。MainNet的輸入包含三個(gè)組件(帶噪聲的圖像、潛在的與服裝無(wú)關(guān)的圖像和調(diào)整大小的遮罩),然后通過內(nèi)部的U-Net結(jié)構(gòu)和Pose Guider進(jìn)行處理,最終生成逼真的試穿圖像。

同時(shí),為了提升模型在生成服裝圖像時(shí)的強(qiáng)度和適應(yīng)性,AnyFit采用了一種先驗(yàn)?zāi)P脱莼呗?。該策略融合了三種不同且強(qiáng)大的模型權(quán)重,分別是:SDXL-base-1.0、SDXL-inpainting-0.1和DreamshaperXL alpha2,來演化模型的初始權(quán)重,以極低的成本提升了模型的性能。

虛擬試衣SOTA!上交大聯(lián)合阿里淘天提出圖像生成模型的知識(shí)注入方法及虛擬試衣模型AnyFit | 上交大博士李昱翰講座預(yù)告

8月20日10點(diǎn),智猩猩邀請(qǐng)到論文一作、上海交通大學(xué)在讀三年級(jí)博士生、阿里學(xué)術(shù)合作實(shí)習(xí)生李昱翰參與「智猩猩AI新青年講座」248講,主講《圖像生成模型的知識(shí)注入在虛擬試衣AnyFit中的應(yīng)用》。

講者

李昱翰

上海交通大學(xué)在讀三年級(jí)博士生、阿里學(xué)術(shù)合作實(shí)習(xí)生

主要研究方向?yàn)閿U(kuò)散模型生成以及圖像編輯。多項(xiàng)科研成果發(fā)表在頂級(jí)視覺會(huì)議(AAAI,CVPR,NIPS)。目前與阿里系淘天集團(tuán)合作開發(fā)虛擬試衣模型,項(xiàng)目轉(zhuǎn)化成果已經(jīng)上線,被淘寶智品、AITeam、天貓國(guó)際等產(chǎn)品或團(tuán)隊(duì)接入使用。

第248講

主 題
圖像生成模型的知識(shí)注入在虛擬試衣AnyFit中的應(yīng)用
提 綱
1、大規(guī)模文-圖基礎(chǔ)模型的精細(xì)控制管線面臨的挑戰(zhàn)
2、條件注入控制技術(shù)的演進(jìn)與前沿進(jìn)展
3、基于細(xì)粒度條件注入的虛擬試衣技術(shù)開發(fā)
-服裝保真性研究
-模型泛化性研究
-業(yè)務(wù)場(chǎng)景魯棒性研究
4、總結(jié)與展望

直播信息

直播時(shí)間:8月20日10:00
直播地點(diǎn):智猩猩GenAI視頻號(hào)

成果

論文標(biāo)題
《AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario》
論文鏈接
https://arxiv.org/abs/2405.18172
項(xiàng)目網(wǎng)站
https://colorful-liyu.github.io/anyfit-page/

入群申請(qǐng)

本次講座組建了學(xué)習(xí)交流群。加入學(xué)習(xí)交流群,除了可以觀看直播,并提前拿到課件外,你還能結(jié)識(shí)更多研究人員和開發(fā)者,所提問題也將會(huì)優(yōu)先解答。

希望入群的朋友可以掃描下方二維碼,添加小助手米婭進(jìn)行申請(qǐng)。已添加過米婭的老朋友,可以給米婭私信,發(fā)送“ANY248”進(jìn)行申請(qǐng)。

虛擬試衣SOTA!上交大聯(lián)合阿里淘天提出圖像生成模型的知識(shí)注入方法及虛擬試衣模型AnyFit | 上交大博士李昱翰講座預(yù)告