智東西(公眾號(hào):zhidxcom)
編譯 |? 子佩
編輯 |? Panken

智東西11月26日消息,3D渲染的人物頭像已經(jīng)是電影和游戲中的重要組成部分,但如何快速、高效、低成本地生成表情豐富的3D人臉,一直是技術(shù)上的“老大難”。

近期,迪士尼和麻省理工學(xué)院的研究人員合作研發(fā)了一種基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)義面部模型,用于快速制造多個(gè)具有細(xì)節(jié)特征的人物頭像,該論文《深度語(yǔ)義面部模型(Semantic Deep Face Models)》發(fā)表至3D視覺(jué)國(guó)際會(huì)議。

虛擬人物也有小情緒!迪士尼研發(fā)深度語(yǔ)義面部模型,讓表情更豐富

論文鏈接:https://studios.disneyresearch.com/app/uploads/2020/11/Semantic-Deep-Face-Models.pdf

一、3D人像技術(shù)迭出,精細(xì)情緒仍難表達(dá)

從早期,通過(guò)主成分分析等簡(jiǎn)化方法建立人臉三維變化模型,再到后期,基于多尺度方法擴(kuò)展有細(xì)節(jié)和變化的人臉模型,關(guān)于如何渲染出逼真人像的這個(gè)問(wèn)題,研究者已經(jīng)走了很長(zhǎng)的一段路。

如今,動(dòng)畫(huà)特效師已經(jīng)可以快速制作出高清、逼真的3D人臉,但是人類微表情中的微妙區(qū)別,仍難以摹擬。

就以微笑為例,你可以輕松分辨出,身邊熟悉的朋友是因?yàn)殚_(kāi)心真正地大笑,還是只是敷衍應(yīng)酬的假笑,但要讓虛擬人物面部能表達(dá)出這種因?yàn)榍榫w產(chǎn)生的細(xì)微區(qū)別,并不容易。

現(xiàn)在常用的線性面部模型為了工業(yè)制造中所需要的快速和標(biāo)準(zhǔn)化,犧牲了這種情緒上的細(xì)微表達(dá);新型神經(jīng)網(wǎng)絡(luò)模型通過(guò)層層數(shù)據(jù)的反饋,可以讓模型自己學(xué)會(huì)“讀情緒”,但像同型模型一樣,他們由于參數(shù)復(fù)雜和計(jì)算量巨大,難以直接讓創(chuàng)作者上手,應(yīng)用在動(dòng)畫(huà)、電影和游戲制作中。

對(duì)此,迪士尼研究院和麻省理工學(xué)院合作,提出了一種語(yǔ)義可控、非線性、參數(shù)化的人臉模型,通過(guò)分離不同維度的特征信息,對(duì)三維人臉進(jìn)行語(yǔ)義分割,從而通過(guò)簡(jiǎn)單地調(diào)整參數(shù),讓特效動(dòng)畫(huà)師能夠方便地制作具有細(xì)節(jié)的人臉模型。

二、面孔、情緒兩套編碼,通過(guò)權(quán)重改表情

該套模型的基礎(chǔ)邏輯是,將同一張圖像中的面部信息和情緒表情分開(kāi),然后只關(guān)注于不同情緒間“微妙”的變化,最后通過(guò)加上色彩光照信息,為虛擬人物賦予生命。

虛擬人物也有小情緒!迪士尼研發(fā)深度語(yǔ)義面部模型,讓表情更豐富

▲深度語(yǔ)義面部模型架構(gòu)圖

該模型所采用的數(shù)據(jù)集是,224名不同種族、性別、年齡和BMI的受試者,在固定光源、多鏡頭的環(huán)境下,做出的24種情緒表情,最終得到了5376組靜態(tài)圖片,每組也采集了7300幀左右的動(dòng)態(tài)視頻。

在剔除不符合要求的數(shù)據(jù)后,研究人員將每個(gè)受試者的24個(gè)表情數(shù)據(jù)作為輸入,動(dòng)態(tài)視頻作為輸出,以最小二乘法作為損失函數(shù),得到每個(gè)表情的權(quán)重。

為了模擬人物在不同表情下面部光照變化,圖像中每一個(gè)像素都會(huì)進(jìn)行反照率顏色采樣,并存儲(chǔ)RGB信息構(gòu)建六維向量,從而構(gòu)建出可以反推人物圖像色彩變化的反照率模型。

隨后,研究人員通過(guò)面部、表情兩種變分編碼器,將人物的面部特征和情緒表情完全分開(kāi)。

虛擬人物也有小情緒!迪士尼研發(fā)深度語(yǔ)義面部模型,讓表情更豐富

▲不同人物同一情緒

在設(shè)計(jì)虛擬人物的階段,動(dòng)畫(huà)特效師只需要為人物輸入設(shè)定的表情,并通過(guò)調(diào)整表情間的權(quán)重,讓人物得以表達(dá)更為豐富準(zhǔn)確的情緒,最后套用訓(xùn)練好的反照率模型,讓虛擬人物更為生動(dòng)逼真,即可快速生成情緒細(xì)膩的虛擬人物。

結(jié)語(yǔ):從非0則100,到更精細(xì)的情緒表達(dá)

深度語(yǔ)義面部模型結(jié)合了線性模型和神經(jīng)網(wǎng)絡(luò)模型兩者的優(yōu)勢(shì)。

在線性模型中,虛擬人物們只能表達(dá)悲傷或者高興,或者更簡(jiǎn)單地比喻,它只能表達(dá)出0或者100。神經(jīng)網(wǎng)絡(luò)模型則提供了,在悲傷和高興之間,一百種已經(jīng)學(xué)習(xí)過(guò)的情緒。

在學(xué)習(xí)不同語(yǔ)義的表情過(guò)后,該模型可以提供0到100之間所有的實(shí)數(shù),所以動(dòng)畫(huà)特效師可以自由地在任何3D面孔上像滑動(dòng)滑塊一樣,選擇0到100之間任何情緒。

動(dòng)畫(huà)特效師可以快速生成一千個(gè)具有長(zhǎng)相、膚色各異的面孔,然后賦予不同表情,而無(wú)需進(jìn)行任何額外的工作,這會(huì)為游戲、影視行業(yè)在降低工作量的同時(shí),提升游戲和觀影體驗(yàn)。

但這也不是一勞永逸的萬(wàn)能藥,精細(xì)情緒表達(dá)只是3D人物制作的一部分,無(wú)標(biāo)記面部跟蹤、更自然的皮膚形變、逼真的眼部運(yùn)動(dòng)以及許多其他有趣的領(lǐng)域,依舊等待著新的變革。

來(lái)源:TechCrunch