又雙叒叕上新嘍!繼「學(xué)術(shù)新青年講座」、「移動(dòng)機(jī)器人技術(shù)系列課」、「輕量化網(wǎng)絡(luò)專題講座」、「目標(biāo)檢測(cè)與識(shí)別專題講座」之后,智東西公開課AI教研組又有新動(dòng)作啦~
從年初的大爆的“螞蟻呀嘿”,到短視頻中各種兼具趣味與人物個(gè)性的人臉特效,像人臉年輕化、秒變動(dòng)畫臉、發(fā)型改變等,再到一些珍貴黑白影像的修復(fù)、上色。以上種種特效和修復(fù)技術(shù),傳統(tǒng)算法是無法完成的,而賦予這一切魔法的是——生成對(duì)抗網(wǎng)絡(luò)GAN。
生成對(duì)抗網(wǎng)絡(luò)GAN是通過生成器和判別器之間的相互博弈,使得生成器生成的數(shù)據(jù)分布接近真實(shí)數(shù)據(jù)分布。自2014年GAN提出以來,已產(chǎn)生了許多優(yōu)秀的GAN模型,它們廣泛應(yīng)用于學(xué)術(shù)界和工業(yè)界,例如常用于短視頻中人臉特效的StyleGAN,AI影像修復(fù)中的GPEN和NoGAN,超分辨率圖像復(fù)原中的SRGAN,風(fēng)格遷移中的CycleGAN、Pix2Pix、StarGAN,合成逼真的圖像的GauGAN。盡管已經(jīng)有了這么多優(yōu)秀的模型,但GAN模型仍在不斷的改進(jìn),像130毫秒生成動(dòng)漫肖像的AgileGAN,生成山水畫的SAPGAN,細(xì)節(jié)拉滿的StyleGAN3等。
為了讓大家更好地學(xué)習(xí)并掌握GAN的前沿研究與技術(shù)應(yīng)用,智東西公開課策劃并推出「生成對(duì)抗網(wǎng)絡(luò)GAN專題講座」。本次專題講座邀請(qǐng)到五位來自國內(nèi)外著名高校的科研人員及知名開發(fā)者,分別就AI影像修復(fù)與藝術(shù)創(chuàng)作、多樣化圖像生成、GAN的可解釋性學(xué)習(xí)、提升圖像生成質(zhì)量的條件生成網(wǎng)絡(luò)、交互式人臉編輯等內(nèi)容進(jìn)行直播講解。
11月16日早10點(diǎn),獨(dú)立藝術(shù)家、游戲開發(fā)者大谷Spitzer將率先帶來「生成對(duì)抗網(wǎng)絡(luò)GAN專題講座」第1講的直播講解,主題為《人工智能影像修復(fù)與AI藝術(shù)創(chuàng)作》。
大谷的游戲小屋,經(jīng)常上B站的網(wǎng)友對(duì)這個(gè)ID應(yīng)該都不陌生。下圖的是大谷的兩個(gè)作品《老北京100年AI影片上色修復(fù)》和《他們與天地永存》。可以看到隨著一幀幀上了顏色的畫面,拉近了歷史的厚重感。經(jīng)過對(duì)原視頻的各種上色、插幀、擴(kuò)大分辨率等操作,你可以清晰看到當(dāng)時(shí)的人走在大街小巷時(shí)的一顰一笑,這些模糊的影片被賦予了不同的意義。
本次講座中,大谷老師將從這些自制案例入手,詳細(xì)解析人工智能影像修復(fù)的技術(shù)、制作流程、難點(diǎn)與解決方法,并分享他在AI藝術(shù)創(chuàng)作的探索和對(duì)未來發(fā)展的思考。
第2講將于11月22日晚7點(diǎn)進(jìn)行,由香港中文大學(xué)在讀博士劉睿主講,主題為《基于條件生成對(duì)抗網(wǎng)絡(luò)的多樣化圖像生成》。
條件生成對(duì)抗網(wǎng)絡(luò)cGAN是在對(duì)抗生成網(wǎng)絡(luò)GAN的基礎(chǔ)上加入一些條件,使得GAN模型可以生成符合給定條件的圖像。由于現(xiàn)實(shí)世界的場(chǎng)景期望生成的圖像具有多樣化,而利用cGAN生成的圖像存在一個(gè)問題:生成的圖像多樣性不足。為了解決這個(gè)缺點(diǎn),許多工作試圖增強(qiáng)輸入latent code和輸出圖像之間的相關(guān)性,以確保latent code可以控制生成的圖像。但該方法僅考慮了單個(gè)latent code與其生成圖像之間的關(guān)系,而其他latent code與生成圖像之間的關(guān)系被忽略了。
在本次講座中,劉睿博士將講解他們?cè)贑VPR 2021上發(fā)表的研究成果:一種基于對(duì)比學(xué)習(xí)增強(qiáng)圖像生成的多樣性方法。該方法借助無監(jiān)督表征學(xué)習(xí)中的對(duì)比學(xué)習(xí),從隱空間和圖像空間的距離遠(yuǎn)近角度考慮,提出使用對(duì)比損失函數(shù)作為額外監(jiān)督,加入已有的條件生成對(duì)抗網(wǎng)絡(luò)中,使得生成多樣性大大增強(qiáng)。
第3講由中科院計(jì)算所博士何振梁主講,時(shí)間為12月3日晚7點(diǎn)。何博將圍繞《GAN的層次化可解釋維度學(xué)習(xí)》這一主題帶來直播講解。
在CNN網(wǎng)絡(luò)中,淺層往往能檢測(cè)到顏色和紋理,較深的層則更多關(guān)注對(duì)象和部分特定的區(qū)域。與CNN類似,在生成對(duì)抗網(wǎng)絡(luò)中,不同層也可生成含有不同語義信息的圖像。在挖掘不同層的語義信息,現(xiàn)有方法只能應(yīng)用于訓(xùn)練好且固定的生成器,而生成器本身仍然作為一個(gè)黑盒運(yùn)行,缺乏直接控制不同層的信息。
在本次講座中,江博等人提出了一個(gè)能夠無監(jiān)督的從不同生成器層挖掘可解釋語義信息的EigenGAN模型。它將一個(gè)具有正交基的線性子空間嵌入到每個(gè)生成器層中,利用訓(xùn)練來學(xué)習(xí)目標(biāo)分布。這些逐層子空間會(huì)在每一層自動(dòng)發(fā)現(xiàn)一組“特征維度”,最后通過遍歷所有特定特征維度,生成器可產(chǎn)生與特定語義屬性相對(duì)應(yīng)的連續(xù)變化的樣本。
12月7日晚7點(diǎn),我們邀請(qǐng)到羅格斯大學(xué)在讀博士韓立功以《基于雙投影判別器的條件對(duì)抗生成網(wǎng)絡(luò)》為主題帶來直播講解。
在條件對(duì)抗生成網(wǎng)絡(luò)中,將條件信息引入判別器的方法有兩個(gè):一個(gè)是直接將標(biāo)簽和數(shù)據(jù)一起作為網(wǎng)絡(luò)的輸入,另一個(gè)是將標(biāo)簽引入一個(gè)輔助分類器。前者是在擬合條件數(shù)據(jù)分布 ,是數(shù)據(jù)擬合;而后者在擬合類別分布,是標(biāo)簽擬合。雖然標(biāo)簽擬合并不直接提升生成圖像的質(zhì)量,但適當(dāng)?shù)臉?biāo)簽擬合有利于圖像生成的。那如何將這兩種方法進(jìn)行有效融合呢?
在本次講座中,韓博提出了一個(gè)基于雙投影判別器的條件對(duì)抗生成網(wǎng)絡(luò),能夠自適應(yīng)的平衡訓(xùn)練過程中的數(shù)據(jù)擬合和標(biāo)簽擬合。
最后一講將于12月10日晚7點(diǎn)進(jìn)行,由南洋理工大學(xué)在讀博士姜瑜銘主講,主題為《對(duì)話驅(qū)動(dòng)的高細(xì)粒度人臉編輯》。
人臉編輯是讓用戶能夠按照需求對(duì)人臉的特定部分進(jìn)行編輯。而現(xiàn)有方法中,人臉編輯算法缺乏一個(gè)靈活的與用戶交互方式。同時(shí),基于GAN的人臉編輯算法主要是利用latent code沿著某一方向不斷移動(dòng)來生成某一人臉屬性,但這種方法往往不能很好的生成細(xì)粒度圖像。
在本次講座中,姜博等人提出了一個(gè)對(duì)話驅(qū)動(dòng)的人臉編輯系統(tǒng)Talk-to-Edit。它首先GAN隱空間中學(xué)習(xí)了一個(gè)語義場(chǎng),通過在隱空間中沿著一個(gè)方向不斷移動(dòng),從而實(shí)現(xiàn)連續(xù)且細(xì)粒的人臉編輯。之后基于語義場(chǎng),引入了對(duì)話的模塊來使得系統(tǒng)能夠理解用戶的語言編輯需求及向用戶提供反饋。
「生成對(duì)抗網(wǎng)絡(luò)GAN專題講座」將在智東西公開課知識(shí)店鋪進(jìn)行,其中主講環(huán)節(jié)40分鐘,問答環(huán)節(jié)20分鐘。本次專題講座已組建交流群,并邀請(qǐng)5位講師加入,歡迎感興趣的朋友申請(qǐng)。
「生成對(duì)抗網(wǎng)絡(luò)GAN專題講座」籌備不易,歡迎大家踴躍報(bào)名。同時(shí)后續(xù)也將陸續(xù)推出更多GAN方面的講座,大家敬請(qǐng)期待!