智東西(公眾號(hào):zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西6月21日?qǐng)?bào)道,今日,英偉達(dá)研究院(NVIDIA Research)的新研究在全球計(jì)算機(jī)視覺(jué)三大頂級(jí)會(huì)議之一CVPR 2022(計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議)上亮相。

NVIDIA用照片造出逼真3D樂(lè)器,大秀爵士樂(lè)表演,論文入選計(jì)算機(jī)視覺(jué)頂會(huì)

NVIDIA提出的3D MoMa逆渲染流程方法,展示了一種能將2D照片變成3D物體的新方法。圖形創(chuàng)作者可以快速將物體導(dǎo)入圖形引擎,并修改比例、改變材質(zhì)或嘗試不同的照明效果。

本周,關(guān)于3D MoMa的論文將在CVPR上發(fā)表。其論文名為《從圖像中提取三角形三維模型、材質(zhì)和照明》(Extracting Triangular 3D Models, Materials, and Lighting From Images)。這將是NVIDIA在本次CVPR上發(fā)表的38篇論文之一。

論文地址:https://arxiv.org/abs/2111.12503

項(xiàng)目地址:https://nvlabs.github.io/nvdiffrec/

一、用2D照片快速生成3D物體

3D內(nèi)容建模既需要藝術(shù)建模技能,又需要掌握計(jì)算機(jī)技術(shù)知識(shí)。而實(shí)現(xiàn)自動(dòng)化3D建模,可以節(jié)約大量的生產(chǎn)成本,或加速更多樣化的內(nèi)容創(chuàng)建。

其中,逆渲染是將一系列靜態(tài)照片重建為3D物體或場(chǎng)景模型的技術(shù)。NVIDIA圖形學(xué)研究副總裁David Luebke稱:“該技術(shù)長(zhǎng)期以來(lái)一直是統(tǒng)一計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)圖形學(xué)的關(guān)鍵?!?/p>

他談道:“NVIDIA 3D MoMa渲染流水線能將逆渲染問(wèn)題的每個(gè)部分表示為GPU加速的可微分組件,然后使用現(xiàn)代AI機(jī)器和NVIDIA GPU的原始算力快速生成3D物體,且創(chuàng)作者可以在現(xiàn)有工具中自由地導(dǎo)入、編輯和擴(kuò)展這些物體?!?/p>

NVIDIA用照片造出逼真3D樂(lè)器,大秀爵士樂(lè)表演,論文入選計(jì)算機(jī)視覺(jué)頂會(huì)

為了使藝術(shù)家或工程師能夠充分利用3D物體,其形式應(yīng)能夠?qū)胗螒蛞妗?/b>3D建模器和電影渲染器等各種被廣泛使用的工具。

帶有紋理、材質(zhì)的三角網(wǎng)格形式,就是此類(lèi)3D工具使用的通用語(yǔ)言。

NVIDIA用照片造出逼真3D樂(lè)器,大秀爵士樂(lè)表演,論文入選計(jì)算機(jī)視覺(jué)頂會(huì)

三角網(wǎng)格是用于定義3D圖形和建模形狀的基本框架。游戲工作室和其他創(chuàng)作者習(xí)慣于使用復(fù)雜的攝影測(cè)量技術(shù)來(lái)創(chuàng)建3D物體,這需要耗費(fèi)大量的時(shí)間和精力。

近期的神經(jīng)輻射場(chǎng)(Neural Radiance Fields)研究可以快速生成物體或場(chǎng)景的3D模型,但并不是使用易于編輯的三角網(wǎng)格形式。

當(dāng)在單個(gè)NVIDIA Tensor Core GPU上運(yùn)行時(shí),NVIDIA 3D MoMa能在1小時(shí)內(nèi)生成三角網(wǎng)格模型。該流水線的輸出結(jié)果與創(chuàng)作者現(xiàn)在使用的3D圖形引擎和建模工具直接兼容。

流水線的重建功能包括3D網(wǎng)格模型、材質(zhì)和照明。網(wǎng)格就像由三角形構(gòu)建的3D形狀混凝紙漿模型。有了它,開(kāi)發(fā)者就可以依照自己的創(chuàng)意對(duì)物體進(jìn)行修改。材質(zhì)是疊加在3D網(wǎng)格上的2D紋理,就像人的皮膚一樣。NVIDIA 3D MoMa通過(guò)對(duì)場(chǎng)景光線進(jìn)行估算,使創(chuàng)作者能夠在日后修改物體上的照明。

相比之下,近年來(lái)許多類(lèi)似的3D重建研究,或者不能輕松支持場(chǎng)景編輯操作,或者犧牲了重建質(zhì)量,在神經(jīng)網(wǎng)絡(luò)中編碼的材質(zhì)也不能輕易地被編輯或提取成與傳統(tǒng)游戲引擎兼容的形式。

二、為虛擬爵士樂(lè)隊(duì)調(diào)校樂(lè)器

為了展示NVIDIA 3D MoMa的功能,NVIDIA的研究和創(chuàng)意團(tuán)隊(duì)首先從不同角度收集了五種爵士樂(lè)隊(duì)樂(lè)器(小號(hào)、長(zhǎng)號(hào)、薩克斯、架子鼓和單簧管)的約100張圖片。

NVIDIA用照片造出逼真3D樂(lè)器,大秀爵士樂(lè)表演,論文入選計(jì)算機(jī)視覺(jué)頂會(huì)

NVIDIA 3D MoMa將2D圖像重建為每種樂(lè)器的3D表示,并以網(wǎng)格形式呈現(xiàn)。

然后,NVIDIA團(tuán)隊(duì)將這些樂(lè)器從原始場(chǎng)景中取出,并將其導(dǎo)入NVIDIA Omniverse 3D模擬平臺(tái)中進(jìn)行編輯。

NVIDIA用照片造出逼真3D樂(lè)器,大秀爵士樂(lè)表演,論文入選計(jì)算機(jī)視覺(jué)頂會(huì)

在任何傳統(tǒng)圖形引擎中,創(chuàng)作者都能輕松為形狀調(diào)換由NVIDIA 3D MoMa生成的材質(zhì),就像給網(wǎng)格穿上不同的衣服一樣。

NVIDIA用照片造出逼真3D樂(lè)器,大秀爵士樂(lè)表演,論文入選計(jì)算機(jī)視覺(jué)頂會(huì)

例如,該團(tuán)隊(duì)對(duì)小號(hào)模型采取了這種做法,將原來(lái)的塑料材質(zhì),快速更換成黃金、大理石、木材或軟木。

創(chuàng)作者可以將新編輯的物體放入任何虛擬場(chǎng)景中。NVIDIA團(tuán)隊(duì)將這些樂(lè)器放入了經(jīng)典的圖形渲染質(zhì)量測(cè)試康奈爾盒中。

NVIDIA用照片造出逼真3D樂(lè)器,大秀爵士樂(lè)表演,論文入選計(jì)算機(jī)視覺(jué)頂會(huì)

他們證明了虛擬樂(lè)器對(duì)光線的反應(yīng)與在物理世界中完全一樣:閃亮的銅管樂(lè)器反射出亮光,啞光的鼓皮則會(huì)吸收光線。

NVIDIA用照片造出逼真3D樂(lè)器,大秀爵士樂(lè)表演,論文入選計(jì)算機(jī)視覺(jué)頂會(huì)

這些通過(guò)逆渲染生成的新物體可以作為復(fù)雜動(dòng)畫(huà)場(chǎng)景的構(gòu)成要素。

NVIDIA用照片造出逼真3D樂(lè)器,大秀爵士樂(lè)表演,論文入選計(jì)算機(jī)視覺(jué)頂會(huì)▲虛擬爵士樂(lè)隊(duì)

三、高效的逆渲染方法,整體研究思路概述

總體來(lái)說(shuō),研究人員提出了一種高效的逆渲染方法,能從多視角圖像中提取具有空間變化的材料和環(huán)境照明的未知拓?fù)淙蔷W(wǎng)格,它們可以部署在任何傳統(tǒng)圖形引擎中而未經(jīng)修改。

NVIDIA用照片造出逼真3D樂(lè)器,大秀爵士樂(lè)表演,論文入選計(jì)算機(jī)視覺(jué)頂會(huì)▲研究方法的概述

NVIDIA團(tuán)隊(duì)假設(shè)在一個(gè)未知的環(huán)境光照條件下,有相應(yīng)的攝像機(jī)位姿和背景分割掩模來(lái)指示這些圖像中的物體,進(jìn)行3D重建。

該方法學(xué)習(xí)曲面網(wǎng)格的拓?fù)浜晚旤c(diǎn)位置,而無(wú)需對(duì)3D幾何圖形進(jìn)行任何初始猜測(cè)。其目標(biāo)表示由三角網(wǎng)格、空間變化的材質(zhì)(存儲(chǔ)在2D紋理中)和照明(一個(gè)高動(dòng)態(tài)范圍的環(huán)境探針)組成。

該方法的核心是基于可變性四面體網(wǎng)格的可微分曲面模型,并通過(guò)一種新的可微分分割和近似方法將其擴(kuò)展到支持空間變化的材料和高動(dòng)態(tài)范圍(HDR)環(huán)境照明。

研究人員使用高度優(yōu)化的可微分光柵與延遲遮光,聯(lián)合優(yōu)化幾何、材料和照明。生成的3D模型無(wú)需轉(zhuǎn)換,就能部署在手機(jī)、web瀏覽器等任意支持三角渲染的設(shè)備上,并以交互速率呈現(xiàn)。

NVIDIA用照片造出逼真3D樂(lè)器,大秀爵士樂(lè)表演,論文入選計(jì)算機(jī)視覺(jué)頂會(huì)▲NVIDIA團(tuán)隊(duì)從2D監(jiān)督中聯(lián)合學(xué)習(xí)拓?fù)?、材質(zhì)、照明,重建三角網(wǎng)格,無(wú)需修改即可在標(biāo)準(zhǔn)游戲引擎中使用

實(shí)驗(yàn)表明,該研究提取的模型可用于場(chǎng)景編輯、材料分解和高質(zhì)量視圖插值,所有這些模型都在基于三角形的渲染器(光柵器和路徑跟蹤器)中以交互速率運(yùn)行。

結(jié)語(yǔ):將助力簡(jiǎn)化創(chuàng)意團(tuán)隊(duì)的工作流程

在論文最后,本篇論文作者提到,這項(xiàng)研究的主要限制是簡(jiǎn)化了陰影模型,沒(méi)有考慮全局照明或陰影。這一選擇是有意加速優(yōu)化,但受制于材質(zhì)提取和重照明。

隨著可微分路徑追蹤的研究取得新進(jìn)展,研究人員期待在未來(lái)的工作中去除這一限制。其他限制還包括靜態(tài)照明假設(shè)、沒(méi)有優(yōu)化攝像機(jī)位姿、訓(xùn)練期間高計(jì)算資源和內(nèi)存消耗等。

當(dāng)然,每當(dāng)涉及場(chǎng)景重建方法,大眾普遍會(huì)關(guān)心深度偽造問(wèn)題。對(duì)此,研究人員稱尚未察覺(jué)或預(yù)見(jiàn)到其方法的負(fù)面用途。

總的來(lái)說(shuō),NVIDIA這項(xiàng)能幫助創(chuàng)作者快速將2D照片變成3D物體、兼容現(xiàn)代3D引擎和建模工具的新研究,將有助于進(jìn)一步簡(jiǎn)化建筑師、設(shè)計(jì)師、概念藝術(shù)家和游戲開(kāi)發(fā)者等創(chuàng)意團(tuán)隊(duì)的工作流程,為他們騰出更多發(fā)揮創(chuàng)意的時(shí)間。