智東西(公眾號(hào):zhidxcom)
作者 | GenAICon 2024

2024中國(guó)生成式AI大會(huì)于4月18-19日在北京舉行,在大會(huì)首日的主會(huì)場(chǎng)開(kāi)幕式上,阿里巴巴通義實(shí)驗(yàn)室XR團(tuán)隊(duì)負(fù)責(zé)人薄列峰博士以《人物視頻生成新范式》為題發(fā)表演講。

隨著Sora等文生視頻模型掀起熱潮,很多人都在探討文生視頻模型能不能算作世界模型。對(duì)此,薄列峰認(rèn)為,文生視頻模型與世界模型的機(jī)制存在差異,視頻是一個(gè)觀察者角色,并不能真正改變世界,文字與物理世界描述之間也具有不對(duì)應(yīng)關(guān)系

人物視頻生成模型是阿里通義實(shí)驗(yàn)室XR團(tuán)隊(duì)的一個(gè)研究重點(diǎn)。薄列峰通過(guò)人物動(dòng)作、人物換裝、人物替身、人物唱演4個(gè)框架來(lái)解讀人物視頻生成新范式?;谶@些框架的應(yīng)用,正逐步落地通義千問(wèn)APP。

人物動(dòng)作視頻生成框架Animate Anyone可基于單張圖和動(dòng)作序列,輸出穩(wěn)定、可控的人物動(dòng)作視頻;人物換裝視頻生成框架Outfit Anyone是基于服飾圖和人物形象;人物視頻角色替換框架Motionshop采用Video2Motion,基于視頻人物動(dòng)作驅(qū)動(dòng)3D數(shù)字人;人物唱演視頻生成框架Emote Portrait Alive能夠基于單張圖和音頻,輸出準(zhǔn)確、生動(dòng)的人物唱演視頻。

以下為薄列峰的演講實(shí)錄:

我的分享前半部分講行業(yè)趨勢(shì)以及我在多模態(tài)、文生文等方向的思考;后半部分分享我們?cè)谖纳曨l生成方向的工作??梢苑浅W孕诺卣f(shuō),我們?cè)谡麄€(gè)業(yè)界具備領(lǐng)先性,整個(gè)工作也有很強(qiáng)的特色。

一、文生視頻模型基于統(tǒng)計(jì)關(guān)系,不是世界模型

首先,文生視頻高速發(fā)展,大家講發(fā)展基石的時(shí)候都會(huì)講到數(shù)據(jù)、機(jī)器、人才。什么是多模態(tài)?什么是視頻?文生視頻這個(gè)領(lǐng)域基礎(chǔ)又是什么?目前思考得還比較少。

先回顧一下進(jìn)程,大家可以看到Midjourney在文生圖方向的突破;OpenAI借助非常強(qiáng)的理解大模型、能夠?qū)D像實(shí)現(xiàn)精標(biāo)的能力,在文生圖上做出自己有特色的工作和突破;創(chuàng)業(yè)公司像Pika、Runway也在做自己的工作,分別從不同的路徑和方向來(lái)演進(jìn);包括谷歌、大的創(chuàng)業(yè)公司,過(guò)去一年有很多文生視頻方向的研究工作。

這些工作從研究的角度有一定數(shù)量的數(shù)據(jù)集,做一些方向的突破可能沒(méi)有那么難。OpenAI相當(dāng)于把這個(gè)事情做到了極致,在現(xiàn)在的時(shí)間節(jié)點(diǎn),整個(gè)Sora展示出非常好的效果。

文生視頻是不是世界模型?它和世界模型的機(jī)制還是有所差異的。

首先視頻是一個(gè)觀察者的角色,我們有一些攝像機(jī)在記錄這個(gè)世界,但它不是真的去改變這個(gè)世界。如果說(shuō)我需要做一些世界模型,類似我需要一些具身智能,當(dāng)然這也是大家提出的一些新名詞,具身智能是在仿照我們生物智能。生物智能不光有思考,同樣也有實(shí)體,如果看實(shí)體的部分,具身智能現(xiàn)階段還是遠(yuǎn)遠(yuǎn)落后的,因?yàn)槿梭w具備非常強(qiáng)的靈活性和低碳的消耗,不是今天物理機(jī)器所具備的,這是一個(gè)差異點(diǎn)。

另一點(diǎn),如果看文生視頻,視頻的存在并不依賴于文字是否存在。文字出現(xiàn)以前,地球上的生物就可以看到這個(gè)物理世界。文字是我們引入去描述人自身的思想,隨著人類進(jìn)化了很多代,是我們引入的一個(gè)工具,實(shí)際可能跟今天的編程語(yǔ)言也是類似的。我們引入一個(gè)工具來(lái)描述這個(gè)物理世界,它具有相當(dāng)?shù)拿枋瞿芰?,但是它和物理世界之間也不對(duì)應(yīng),也就是說(shuō)它有簡(jiǎn)化、有抽象、有歸納等。

整個(gè)文生視頻做的工作是什么?有一個(gè)視頻空間,還有一個(gè)文字空間。我們?cè)谖淖挚臻g給每個(gè)視頻打上標(biāo)或者找到一個(gè)對(duì)應(yīng)。整個(gè)關(guān)系是一個(gè)統(tǒng)計(jì)的依賴關(guān)系,通過(guò)這樣的關(guān)系和暴力的關(guān)聯(lián),再加上大數(shù)據(jù),展現(xiàn)出了一定的文生視頻能力,但是不代表這是我們物理世界真實(shí)運(yùn)作的規(guī)律。

如果看文生文、文生視頻,它們并不影響我們的物理世界,如果要影響物理世界,它還是需要達(dá)到生物智能所具備的特點(diǎn)。

在這里也分享我對(duì)AGI的理解。通過(guò)文字我們是否能實(shí)現(xiàn)AGI?首先文字的能力于生物智能而言,不是完整的。非完整的AI智能是否達(dá)到人類智能所具備的能力?現(xiàn)在看還是有相當(dāng)?shù)木嚯x。如果今天讓大模型去造一輛汽車,造一臺(tái)電視可以嗎?以我的觀點(diǎn)來(lái)看,還是比較遙遠(yuǎn)的。

二、做特色的人物視頻生成,能換裝唱演、角色富有表現(xiàn)力

通義實(shí)驗(yàn)室在視頻生成方向有一些探索,我們也有完整的視頻生成矩陣性的產(chǎn)品和研究。

回到今天分享主題的核心——人物視頻生成,當(dāng)大家討論這個(gè)問(wèn)題的時(shí)候,第一個(gè)問(wèn)題是,為什么不做一個(gè)通用的視頻生成就完了,為什么還要做人物視頻生成?

視頻生成和人物視頻生成有共性,需要高質(zhì)量的畫質(zhì),包括整個(gè)運(yùn)動(dòng)要符合物理規(guī)律。如果看人的組成,包括人臉、人手、人的頭發(fā)、人的服飾都具有相當(dāng)?shù)?span style="color: #0f59a4;">唯一性,同時(shí)展示出了非常精細(xì)的顆粒度。人物的特點(diǎn)、聲音,這些還是人的感知部分,我們都還沒(méi)有講到人的實(shí)體部分,包括人是由物質(zhì)組成的等,不同的部分是不同的物質(zhì),這些模擬可能是另一個(gè)層面,包括我們是否能制造出一種材料跟生物智能是類似的等等,這部分不是我們覆蓋的主題。

整體來(lái)看,它(人物視頻生成)是相當(dāng)有特色的,會(huì)導(dǎo)致在生成中有很多特性,包括控制是多樣的,比如可以用聲音來(lái)做控制,可以用人體的一些表達(dá)來(lái)做控制,可以用文本來(lái)做控制。控制具備豐富性,同時(shí)它生成的人的整體表現(xiàn)力需要非常豐富,如果生成的人表現(xiàn)力非常呆板,很難滿足今天應(yīng)用的需求。另外,生成的顆粒度、數(shù)字資產(chǎn)和人物運(yùn)動(dòng)的分離等,都是極具特色的部分。

我們的工作包括人物動(dòng)作、人物換裝、人物替身、人物唱演等。接下來(lái)分享每個(gè)模塊各自的工作。

三、人物動(dòng)作視頻生成框架Animate Anyone:讓兵馬俑跳《科目三》

第一部分,我們?cè)?023年11月發(fā)布人物動(dòng)作視頻生成框架Animate Anyone,在人物視頻生成方向的發(fā)布早于Sora幾個(gè)月,當(dāng)我們把這個(gè)結(jié)果發(fā)布出來(lái)之后,引發(fā)了非常強(qiáng)烈的關(guān)注,主要是達(dá)到的視覺(jué)效果超越了之前的結(jié)果,可以說(shuō)是一個(gè)數(shù)量級(jí)的超越。

阿里通義實(shí)驗(yàn)室薄列峰:從兵馬俑跳“科目三”到照片唱歌,四大框架讓AI生成的人物活起來(lái)丨GenAICon 2024

整個(gè)方案的框架有幾個(gè)特色:

第一,有一張參考圖,整個(gè)生成過(guò)程會(huì)對(duì)參考圖做高度的保真。大家如果在生成的時(shí)候看視頻的細(xì)節(jié),可能會(huì)發(fā)現(xiàn),隨著時(shí)間的推移,整個(gè)像素的物理合理性可能不太對(duì)。我們有機(jī)制,在融入的過(guò)程中,不光有CLIP的特征,還有視覺(jué)特征的融入,可以把更精確的信息編碼進(jìn)來(lái),這是一個(gè)特點(diǎn)。

第二個(gè)特點(diǎn),我們用骨骼訓(xùn)練控制人物的動(dòng)作。大家如果看整個(gè)人體的模擬,特別是整個(gè)人體的關(guān)節(jié),每個(gè)關(guān)節(jié)點(diǎn)有它的自由度,整體上骨骼與人體也是非常匹配的表達(dá)。

第三,引入時(shí)序模塊,保證時(shí)序上的一致性。我們和Sora的效果對(duì)比,視頻效果比Sora的方法有一個(gè)非常明顯的提升。

我們也把技術(shù)產(chǎn)品化,部署到通義APP,歡迎大家下載體驗(yàn)。

我們的舞蹈生成獲得了相當(dāng)多的關(guān)注,整個(gè)視頻內(nèi)容播放達(dá)到了非常高的數(shù)字。畫面中的舞蹈,包括真人、卡通形象(都可以)來(lái)跳《科目三》。

當(dāng)看產(chǎn)品演進(jìn)的時(shí)候,我們發(fā)現(xiàn)一個(gè)非常有意思的事情,真人來(lái)跳舞這件事是我們自己可以去實(shí)現(xiàn)的能力,雖然對(duì)于每個(gè)人而言難度各有不同,舞蹈跳得比較好的能跳出比較好的《科目三》,舞蹈跳得不好也能跳出《科目三》的樣子。但是對(duì)于一些其它類人的形象,比如兵馬俑,我們不太可能去讓它跳《科目三》。

如果過(guò)去要讓一個(gè)兵馬俑跳《科目三》,我們要走的流程是什么?(以前)我們要做一個(gè)三維模型,人為設(shè)計(jì)它的動(dòng)作,整個(gè)成本流程非常高。我們現(xiàn)在只要輸入一張照片,兵馬俑就可以跳《科目三》。畫一幅畫,給自己喜歡的寵物拍一張照片,輸入喜歡的各種二次元形象,它都可以來(lái)跳創(chuàng)作者喜歡的舞蹈。

Animate Anyone賦予創(chuàng)作者相當(dāng)大的靈活度,特別在之前很難創(chuàng)作出這樣動(dòng)作視頻的領(lǐng)域,給大家提供了一個(gè)工具。

新的功能也在開(kāi)發(fā)中,包括任意上傳一段視頻可以來(lái)提取骨骼序列,然后把骨骼序列傳遞的動(dòng)作信息轉(zhuǎn)移到這張照片上面,生成一段舞蹈。這會(huì)再次釋放大家動(dòng)作視頻創(chuàng)作方面的潛力,甚至一些有難度的類人形象,我們能夠通過(guò)手繪骨骼點(diǎn),讓它也跳起來(lái)舞蹈。我們把手繪的骨骼點(diǎn)和自身定義的骨骼點(diǎn)做一個(gè)匹配,來(lái)完成這樣一個(gè)工作。

Animate Anyone發(fā)布的時(shí)候,四個(gè)視頻在(社交平臺(tái))Twitter上總播放量破億,還有大量的自發(fā)報(bào)道。

四、人物換裝視頻生成框架Outfit Anyone:一鍵為模特?fù)Q裝

第二部分,人物換裝視頻生成框架Outfit Anyone。在一個(gè)文明社會(huì),每個(gè)人都有穿著服飾的需求,對(duì)美觀度有極高的需求。我們打造了一個(gè)框架,可以給定一個(gè)服飾,然后讓這個(gè)服飾穿到自己或者模特的身上,具備細(xì)節(jié)可控、身材可調(diào)、全身穿搭甚至多層服飾的疊穿等特征,面臨非常細(xì)節(jié)問(wèn)題的處理。

阿里通義實(shí)驗(yàn)室薄列峰:從兵馬俑跳“科目三”到照片唱歌,四大框架讓AI生成的人物活起來(lái)丨GenAICon 2024

當(dāng)我們真正要滿足大家需求的時(shí)候,服飾的一致性非常重要,疊穿怎么和拍得高質(zhì)量照片達(dá)到一樣的畫質(zhì)、精度,相當(dāng)有挑戰(zhàn)。

在一個(gè)模特?fù)Q裝應(yīng)用中,將鼠標(biāo)點(diǎn)擊、上移、下移,點(diǎn)擊試穿,就會(huì)讓模特試穿衣服。我給定一些特別的材質(zhì),比如香蕉(圖像)等,我們也能把它當(dāng)衣服一樣穿到身上來(lái)。整個(gè)模型在嘗試把各種各樣的布料或者類似布料的東西上身,為創(chuàng)意提供了一個(gè)路徑。

當(dāng)然我們也可以把Outfit Anyone和Animate Anyone結(jié)合,去生成一段走秀視頻等。相關(guān)作品獲得了相當(dāng)?shù)年P(guān)注,在Hugging Face上榜,關(guān)注度非常高。

五、人物視頻角色替換框架Motionshop:生成3D模型動(dòng)作視頻

人物視頻角色替換框架Motionshop,給定一個(gè)視頻,提取它的骨骼,同時(shí)把骨骼和三維模型做綁定,生成三維模型的動(dòng)作視頻,然后還原在原視頻中。這樣的視頻和Animate Anyone的區(qū)別是,3D資產(chǎn)(包括3D IP)也是相當(dāng)大的領(lǐng)域,特別在游戲和影視,現(xiàn)在的Motionshop方案支持多視角的方案。

阿里通義實(shí)驗(yàn)室薄列峰:從兵馬俑跳“科目三”到照片唱歌,四大框架讓AI生成的人物活起來(lái)丨GenAICon 2024

Motionshop支持多人替換,這樣的視頻替換成二次元的角色,后面的視頻背景相當(dāng)真實(shí),前面的人物是虛擬人物,包括實(shí)際干活兒的視頻。這里也產(chǎn)生了一些對(duì)機(jī)器人能力的思考。

在整個(gè)方案中,要讓整個(gè)視頻看起來(lái)非常真實(shí),除了大模型的能力,我們還運(yùn)用了渲染的能力,包括光線追蹤,會(huì)從原視頻估計(jì)光照等,這樣讓整個(gè)視頻看起來(lái)非常一致,沒(méi)有違和感。

把機(jī)器人帶到對(duì)話場(chǎng)景中,也是非常有意思的一個(gè)應(yīng)用。整個(gè)置換會(huì)在場(chǎng)景中有非常好的體現(xiàn),超越了目前一些類似的方法所能做到的能力。

六、人物唱演視頻生成框架Emote Portrait Alive:讓照片開(kāi)口唱歌

年后我們沿著對(duì)人物視頻生成獨(dú)立的思考,不斷地向前探索,最新的工作是人物唱演視頻生成框架Emote Portrait Alive。給定一張照片,可以讓這個(gè)人來(lái)唱歌、講話(這項(xiàng)功能已于近期上線通義APP)。當(dāng)然了,四五年前大家都在研發(fā)這樣的能力,對(duì)于人物視頻生成而言,表現(xiàn)力是極度重要的,如果今天達(dá)到一個(gè)類人的表現(xiàn)力,在我來(lái)看是很難實(shí)現(xiàn)的。

阿里通義實(shí)驗(yàn)室薄列峰:從兵馬俑跳“科目三”到照片唱歌,四大框架讓AI生成的人物活起來(lái)丨GenAICon 2024

我們要達(dá)到專業(yè)級(jí),這才是真正大家使用的內(nèi)容生成。很多生成的視頻畫質(zhì)是OK的,但是大家有沒(méi)有思考這樣的問(wèn)題,比如說(shuō)文生圖、生成的視頻,你是這個(gè)視頻的消費(fèi)者嗎?你會(huì)看嗎?當(dāng)然模型可能會(huì)生成這個(gè)世界上不存在的物種,這是很有意思的,但你會(huì)長(zhǎng)期去消費(fèi)這樣的內(nèi)容嗎?

我覺(jué)得在做AIGC內(nèi)容生成之前,不管是基礎(chǔ)研究還是應(yīng)用思考,大家都在高速迭代,每個(gè)人都有自己的思考和對(duì)這個(gè)問(wèn)題的答案。

在我們生成的過(guò)程中,基于這樣一個(gè)包括動(dòng)作、唱歌(嘴型)、聲音表演的生成,我們可以去打造一個(gè)非常有吸引力的甚至可以去做演藝的形象,甚至可以做一個(gè)虛擬的明星。

以上是薄列峰演講內(nèi)容的完整整理。