「AI新青年講座」將邀請(qǐng)世界頂尖AI研究機(jī)構(gòu)和大學(xué)的科研新青年,主講他們?cè)谟?jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對(duì)人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識(shí)也能夠得以積累加深。同時(shí),通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。

「AI新青年講座」目前已完結(jié)211講,有興趣分享學(xué)術(shù)成果的朋友,可以與智東西公開課教研團(tuán)隊(duì)進(jìn)行郵件(class@zhidx.com)聯(lián)系。

基于文本的生成任務(wù)是當(dāng)前的一個(gè)研究熱點(diǎn)。其中,文本到三維形狀生成主要是利用深度學(xué)習(xí)模型和生成模型,將文本描述映射到三維形狀的表示空間,并生成符合文本描述的三維形狀或物體模型?,F(xiàn)階段,該任務(wù)仍然具有挑戰(zhàn)性,原因是缺乏大規(guī)模的文本-形狀配對(duì)數(shù)據(jù)、這兩種模態(tài)之間存在實(shí)質(zhì)性的語(yǔ)義差距,以及三維形狀的結(jié)構(gòu)復(fù)雜性。

來自香港中文大學(xué)、香港大學(xué)以及湖南大學(xué)的研究者們,在 ICLR 2023 上提出了一種新的文本引導(dǎo) 3D 形狀生成方法(ISS)。該方法使用圖像作為階梯來連接文本和 3D 形狀,無(wú)需成對(duì)的文本和 3D 數(shù)據(jù)即可生成 3D 形狀。其核心是一種兩階段特征空間對(duì)齊策略。首先,將 CLIP 圖像特征映射到 SVR 模型的細(xì)節(jié)豐富的 3D 形狀空間,然后通過鼓勵(lì)渲染圖像和輸入文本之間的 CLIP 一致性,將 CLIP 文本特征添加到 3D 形狀空間。

此外,為了擴(kuò)展 SVR 模型的生成能力,他們?cè)O(shè)計(jì)了一個(gè)文本引導(dǎo)的 3D 形狀風(fēng)格化模塊,可以生成新穎的結(jié)構(gòu)和紋理來創(chuàng)造出更有趣的結(jié)果。同時(shí),他們利用預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型來增強(qiáng)生成多樣性、保真度和程式化能力。實(shí)驗(yàn)結(jié)果表明,ISS 在生成質(zhì)量和與輸入文本的一致性方面優(yōu)于最先進(jìn)的方法。

6月6日晚8點(diǎn),「AI新青年講座」第212講邀請(qǐng)到 ISS 一作、香港中文大學(xué)在讀博士劉政哲參與,主講《以圖為梯:從文字到 3D 形狀生成》

https://singaporemedq.com/

。

講者
劉政哲,香港中文大學(xué)在讀博士;師從Philip Chi-Wing Fu教授;主要研究方向包括AIGC、3D生成等;曾在CVPR、TPAMI、ECCV、ICLR、NeurIPS、AAAI等頂級(jí)會(huì)議和期刊發(fā)表論文十余篇;擔(dān)任CVPR、ICCV、ECCV、ICLR、NeurIPS、TPAMI等頂會(huì)和期刊審稿人;曾獲2022年微軟學(xué)者提名。

第212講

主 題
《以圖為梯:從文字到 3D 形狀生成》

提 綱
1、文本到 3D 內(nèi)容生成的研究及難點(diǎn)
2、快速的文字到形狀生成方法 ISS
3、文字引導(dǎo)的 3D 形狀風(fēng)格化
4、利用圖像擴(kuò)散模型提升生成質(zhì)量和類別范圍

直 播 信 息
直播時(shí)間:6月6日20:00
直播地點(diǎn):智東西公開課知識(shí)店鋪

成果

論文標(biāo)題:
《ISS : Image as Stepping Stone for Text-Guided 3D Shape Generation》
《ISS++: Image as Stepping Stone for Text-Guided 3D Shape Generation》

論文地址
https://arxiv.org/abs/2209.04145
https://arxiv.org/pdf/2303.15181

代碼地址
https://github.com/liuzhengzhe/ISS-Image-as-Stepping-Stone-for-Text-Guided-3D-Shape-Generation