智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影

視頻生成競賽愈發(fā)激烈,但細(xì)膩、準(zhǔn)確地傳達(dá)人物面部表情細(xì)節(jié)仍然是其中的一大難點(diǎn)。

一般的影視作品或者日常交流中,人們說話時(shí)伴隨著的面部表情變化也是準(zhǔn)確傳遞信息的關(guān)鍵。在視頻生成中,想要讓人物的整體表現(xiàn)更加流暢自然,就需要將人物的動作、皮膚紋理、肌肉運(yùn)動等細(xì)節(jié)呈現(xiàn)更為細(xì)膩。

這對于AI而言難度不小。近期在肖像生成方面的一項(xiàng)研究突破,就針對于上述難題給出了解法。

這就是字節(jié)跳動智能創(chuàng)作團(tuán)隊(duì)近期提出的X- Portrait 2單圖視頻驅(qū)動技術(shù),僅需要一張靜態(tài)圖片和一段驅(qū)動視頻,用戶就可以得到高質(zhì)量、電影級的視頻片段。

如果我同時(shí)上傳了《白銀帝國》中演員金士杰的視頻片段,和一張AI生成的紫發(fā)外國女生的靜圖,就可以讓女生直接復(fù)刻電影片段的動作。

可以看到,下圖中靜態(tài)圖和驅(qū)動視頻中的人物形象區(qū)別很大,并且即使人物表情變化包含大笑、張大嘴等,X-Portrait 2最后生成的效果也完全沒有被影響,只是集中于面部表情、頭部動作的變化。

生動豐富的表情是塑造角色性格的關(guān)鍵,可以看出,當(dāng)下的肖像生成技術(shù)正在向著更精細(xì)地模擬人類微觀表情進(jìn)階。

一、經(jīng)典鏡頭秒速復(fù)刻,大笑、扭頭面部均不變形

細(xì)致入微的表情,往往是演員傳達(dá)情緒的關(guān)鍵,現(xiàn)在這項(xiàng)工作也能被AI接管了。

在體驗(yàn)這項(xiàng)技術(shù)之初,我設(shè)定的初始難度是調(diào)用較少感官的表情,如只需要眨眼、大笑等,這考驗(yàn)的就是X- Portrait 2在生成過程中,如何讓靜圖中的人物準(zhǔn)確調(diào)用正確的感官,并將情緒準(zhǔn)確傳達(dá)出來。

相信很多人都對《大話西游》中紫霞仙子眨眼的鏡頭記憶猶新,這也被認(rèn)為是很難超越的眨眼神圖,如果把這個(gè)表情搬到著名表情包“金館長”臉上呢?

可以看到,最后生成的視頻中,金館長的眼睛被放大,從抿嘴到眨眼一氣呵成,面部完全沒有變形,直接復(fù)刻了這一經(jīng)典畫面。

那如果將金館長的經(jīng)典大笑表情包放到其他人臉上呢?我利用豆包生成了一張科幻屬性明顯的人物圖像,然后上傳了金館長從大笑到說話的視頻片段。

靜態(tài)圖中的人物不僅模仿了金館長的大笑神態(tài),就連大笑時(shí)面部的皺紋、頭部的輕微上下擺動動作都傳遞的十分到位。

考驗(yàn)完單一表情,再來看下進(jìn)階難度。

這一關(guān)的原視頻人物說話過程中會伴隨情緒的轉(zhuǎn)換,例如下個(gè)視頻中張譯表演時(shí)的花絮片段,從剛開始說話到扭頭大笑。

然后我上傳了一張美國著名男演員本·阿弗萊克(Ben Afflec)的劇照,生成視頻中,大本和張譯大笑時(shí)咧開的嘴角弧度都完全相同。并且從側(cè)臉轉(zhuǎn)向正臉時(shí)的動作也十分流暢。

二、阿凡達(dá)、滅霸夢幻聯(lián)動,人人都能做出迪士尼公主表情

X-Portrait 2除了能讓一張圖片按你想要的風(fēng)格動起來,還能把相同表情直接搬到各種風(fēng)格的人物形象上。

基于此,我直接讓經(jīng)典科幻電影《阿凡達(dá)》中的阿凡達(dá),與漫威系列中的滅霸來了一場夢幻聯(lián)動。

我上傳了一段電影中女主角涅提妮與他人產(chǎn)生劇烈爭執(zhí)的視頻,還有一張滅霸的靜態(tài)圖片。視頻中的涅提妮邊倒退邊顯露出悲傷的神色。

滅霸也展現(xiàn)出了同樣的深情,并且額頭上的皺紋還會伴隨著情緒變化逐漸加深。

動畫電影中迪士尼公主的神態(tài)動作已經(jīng)自成體系,讓人一看到就身處“迪士尼宇宙”。與此同時(shí),一些互聯(lián)網(wǎng)上的博主紛紛開啟了模仿迪士尼公主的挑戰(zhàn),她們的表情神態(tài)惟妙惟肖,現(xiàn)在X-Portrait 2可以讓任何人都能快速get這個(gè)技能。

這里我選擇上傳了一張AI生成的動漫人物形象,以及短視頻平臺中博主上傳的模仿視頻??梢钥吹?,原視頻的博主眼神、嘴部以及整個(gè)表情都很夸張,這個(gè)難度X-Portrait 2的生成效果并沒有翻車。

我還上傳了其他博主的模仿視頻,生成的效果直接讓本來只是一張靜態(tài)圖片的公主,直接身處童話世界了,好奇、開心的表情十分可愛逼真。

現(xiàn)在有很多動畫電影還會被改編成真人電影,但這類電影在選擇演員、劇情改編、演員表演等方面都會讓原先的動漫讀者忐忑不安,因?yàn)楹芏鄤∏檎嫒搜輪T很難表演出來,部分表情、動作甚至劇情會被改編。

現(xiàn)在基于X-Portrait 2可以直接將動漫人物的表情“復(fù)制”下來,“粘貼”到其他人物上。我上傳了一段《美女與野獸》中“野獸”的一段視頻,視頻中“野獸”的五官與人類類似,還伴隨著大吼的動作。

這段表演被準(zhǔn)確復(fù)制到了我用AI生成的圖片上,X-Portrait 2在表情識別方面沒有受到干擾,眼睛、嘴巴的動作變化絲滑流暢,復(fù)刻了“野獸”的憤怒情緒。

可以看出,X-Portrait 2在表情生成方面的效果逼真程度可以體現(xiàn)在,眼部、嘴部的動作以及表情切換、動作協(xié)同性等諸多方面,能讓靜態(tài)形象的表情生成與其他動作配合協(xié)同。

三、表情編碼器模型+生成擴(kuò)散模型,實(shí)現(xiàn)表情“復(fù)刻”效果躍遷

上述這些肖像生成的驚艷效果均出自X-Portrait 2。

今年3月,字節(jié)跳動的第一代肖像動畫模型X-Portrait,可以用于生成富有表現(xiàn)力和時(shí)間連貫的肖像動畫。X-Portrait 2就是這一肖像動畫模型的迭代版本,能夠如實(shí)表現(xiàn)快速的頭部動作、細(xì)微的表情變化以及強(qiáng)烈的個(gè)人情感。

為了讓最后生成視頻的表情更加流暢、逼真,X-Portrait 2結(jié)合了表情編碼器模型和生成擴(kuò)散模型,能夠捕捉到驅(qū)動視頻中演員的細(xì)微表情,甚至于撅嘴、吐舌頭等需要調(diào)動多個(gè)面部器官的表情也能準(zhǔn)確傳達(dá)。

這一表情編碼器模型是基于大型數(shù)據(jù)集進(jìn)行訓(xùn)練,隱式編碼輸入中的每個(gè)微小表情,就可以做到表情傳達(dá)的準(zhǔn)確性。

面對驅(qū)動視頻,這一編碼器還可以實(shí)現(xiàn)人物外觀和表情動作的強(qiáng)分離,能夠讓其更專注于視頻中與表情相關(guān)的信息,從而實(shí)現(xiàn)表情動作的準(zhǔn)確遷移。

通過為模型設(shè)計(jì)過濾層,編碼器能有效過濾運(yùn)動表征中的ID相關(guān)信號,使得即使ID圖片與驅(qū)動視頻中的形象和風(fēng)格差異較大,模型仍可實(shí)現(xiàn)跨ID、跨風(fēng)格的動作遷移,涵蓋寫實(shí)人像和卡通圖像。

目前,除了X-Portrait 2,視頻生成創(chuàng)企Runyway上個(gè)月也推出了類似的功能Act-One,這一功能可以讓用戶自己錄一段視頻,然后將其轉(zhuǎn)移到AI生成的角色上。

相比之下,X-Portrait 2可以更準(zhǔn)確地傳遞人物頭部的動作、微笑的表情變化和個(gè)人情感表達(dá);Act-One最終生成的視頻也可以傳達(dá)表情,但在人物情緒和快速的頭部動作方面可能無法準(zhǔn)確“復(fù)刻”。

下圖的對比視頻中可以看出,原視頻中人物很悲傷,且說話中頭部有輕微轉(zhuǎn)動,但基于X-Portrait和Act-One生成的視頻都沒有將其體現(xiàn)出來,X-Portrait視頻中人物頭部擺動幅度復(fù)現(xiàn)了,但兩個(gè)視頻中的人物表情有輕微笑意,與原視頻的情緒完全不同。

面部細(xì)節(jié)還原、頭部動作與姿態(tài)的協(xié)調(diào)等,都是做到精準(zhǔn)表情生成的關(guān)鍵,這也是目前X-Portrait 2的優(yōu)勢所在。

結(jié)語:讓視頻生成突破表情細(xì)節(jié)難題

在視頻生成的眾多環(huán)節(jié)中,表情生成是一個(gè)極具挑戰(zhàn)性的部分,因?yàn)榕c人物整體的動作生成相比,細(xì)致入微的表情生成要困難得多,一個(gè)細(xì)微的面部肌肉變化都可能傳達(dá)出截然不同的情緒。

盡管這項(xiàng)技術(shù)目前還處于學(xué)術(shù)研究階段,但字節(jié)跳動在這一方面的積極探索具有深遠(yuǎn)的意義,通過不斷地優(yōu)化算法和模型結(jié)構(gòu),X-Portrait 2已經(jīng)展現(xiàn)出捕捉和再現(xiàn)人物表情微妙變化的能力。這種進(jìn)步將進(jìn)一步拓展視頻生成的應(yīng)用邊界。