文本到圖像的擴(kuò)散模型在文本提示的指導(dǎo)下展示了前所未有的創(chuàng)作能力,例如在視覺藝術(shù)、合成數(shù)據(jù)集構(gòu)建以及市場(chǎng)營(yíng)銷和廣告中的圖像編輯等創(chuàng)意工作。然而,基于特定主題生成個(gè)性化實(shí)例仍然具有挑戰(zhàn)性。
為此,vivo影像規(guī)劃預(yù)研部研究員官善琰等提出一種新的框架HybridBooth。該框架融合了基于優(yōu)化和直接回歸方法的優(yōu)點(diǎn),創(chuàng)造一種平衡質(zhì)量和速度的混合方法,從而實(shí)現(xiàn)了高效、精確的主題驅(qū)動(dòng)生成。相關(guān)論文成果收錄于ECCV 2024。

同時(shí),深度學(xué)習(xí)在模擬復(fù)雜粒子系統(tǒng)(如流體)的物理動(dòng)力學(xué)方面顯示出巨大的潛力。然而,神經(jīng)網(wǎng)絡(luò)是否可以直接從觀察到的圖像推斷流體動(dòng)力學(xué)仍然是一個(gè)懸而未決的問題。對(duì)此官善琰研究員等提出了神經(jīng)流體NeuroFluid,其為首個(gè)基于粒子的流體動(dòng)力學(xué)的無監(jiān)督學(xué)習(xí)解決方案。相關(guān)論文成果收錄于ICML 2022。

NeuroFluid關(guān)鍵思想是在端到端可訓(xùn)練的框架中,將基于粒子的流體模擬與粒子驅(qū)動(dòng)的神經(jīng)渲染連接起來,使兩個(gè)網(wǎng)絡(luò)可以聯(lián)合優(yōu)化,從而獲得兩者之間合理的粒子表示。實(shí)驗(yàn)數(shù)據(jù)表明,NeuroFluid學(xué)習(xí)了更加合理的流體動(dòng)力學(xué),可以在動(dòng)態(tài)基礎(chǔ)、預(yù)測(cè)和新視圖合成方面產(chǎn)生不錯(cuò)的結(jié)果。

《易經(jīng)·說卦》有言:“窮理盡性,以至于命”。 人類能夠輕松辨別內(nèi)在動(dòng)態(tài)并適應(yīng)新場(chǎng)景,但如何賦予機(jī)器像人類一樣“觀察、理解和推理”物理世界的能力往往面臨巨大挑戰(zhàn)。針對(duì)如何從視覺觀察中準(zhǔn)確地推斷出實(shí)際的內(nèi)在動(dòng)力學(xué)問題,官善琰研究員等提出了基于學(xué)習(xí)且具有物理知識(shí)先驗(yàn)的神經(jīng)材料適配器NeuMA。相關(guān)論文成果收錄于NeurIPS 2024。

NeuMA促進(jìn)對(duì)實(shí)際動(dòng)態(tài)的準(zhǔn)確學(xué)習(xí),同時(shí)保持物理先驗(yàn)的通用性和可解釋性。此外,還提出了一種粒子驅(qū)動(dòng)的3D高斯濺射變體Particle-GS,能夠連接模擬和觀察到的圖像,允許通過反向傳播圖像梯度來優(yōu)化模擬器。

在不同材料和初始條件下對(duì)不同動(dòng)態(tài)場(chǎng)景下的?NeuMA?進(jìn)行了評(píng)估。該方法在物體動(dòng)態(tài)基礎(chǔ)和動(dòng)態(tài)場(chǎng)景渲染方面具有競(jìng)爭(zhēng)力,同時(shí)在新形狀、多物體交互和長(zhǎng)時(shí)間預(yù)測(cè)方面具有良好的泛化性。


11月19日19點(diǎn),智猩猩邀請(qǐng)到vivo影像規(guī)劃預(yù)研部研究員官善琰參與「智猩猩通用視覺講座」04講,主講《基于視覺的物理規(guī)律反演》。講座過程中將會(huì)分析當(dāng)前視覺反演框架的局限性,介紹HybridBooth框架如何提升個(gè)性化反演精度,NeuroFluid在流體動(dòng)力學(xué)中的應(yīng)用,以及NeuMA神經(jīng)材質(zhì)適配器在內(nèi)在動(dòng)態(tài)建模中的優(yōu)勢(shì)。這些方法為基于視覺的物理規(guī)律反演提供了新的技術(shù)路徑。
講者
官善琰,vivo影像規(guī)劃預(yù)研部研究員
1、一般視覺反演框架存在的問題
2、高效個(gè)性化屬性反演框架HybridBooth解析
3、動(dòng)力學(xué)視覺反演
-NeuroFluid解決視覺場(chǎng)景逆問題理解流體動(dòng)力學(xué)
-神經(jīng)材質(zhì)適配器NeuMA提升內(nèi)在動(dòng)態(tài)建模精度
4. 實(shí)驗(yàn)比較與分析
直 播 信 息
直播時(shí)間:11月19日19:00
成果
論文標(biāo)題
《HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation》
《Neurofluid: Fluid dynamics grounding with particle-driven neural radiance fields》
《NeuMA: Neural Material Adaptor for?Visual Grounding of Intrinsic Dynamicas》
論文鏈接
https://arxiv.org/abs/2410.08192
https://arxiv.org/abs/2203.01762
https://arxiv.org/abs/2410.08257
項(xiàng)目地址
https://sites.google.com/view/hybridbooth
https://github.com/syguan96/NeuroFluid
https://xjay18.github.io/projects/neuma.html
如何報(bào)名
有講座直播觀看需求的朋友,可以添加小助手“沐可”進(jìn)行報(bào)名。已添加過“沐可”的老朋友,可以給“沐可”私信,發(fā)送“通用視覺04”進(jìn)行報(bào)名。對(duì)于通過報(bào)名的朋友,之后將邀請(qǐng)入群進(jìn)行觀看和交流。
