一区二区亚洲免费的视频 ,人人妻人人爽久久久精品软件,亚洲免费视视频在线观看

智東西（公眾號(hào)：zhidxcom）
作者 | GenAICon 2024

2024中國(guó)生成式AI大會(huì)于4月18-19日在北京舉行，在大會(huì)首日的主會(huì)場(chǎng)開(kāi)幕式上，阿里巴巴通義實(shí)驗(yàn)室XR團(tuán)隊(duì)負(fù)責(zé)人薄列峰博士以《人物視頻生成新范式》為題發(fā)表演講。

隨著Sora等文生視頻模型掀起熱潮，很多人都在探討文生視頻模型能不能算作世界模型。對(duì)此，薄列峰認(rèn)為，文生視頻模型與世界模型的機(jī)制存在差異，視頻是一個(gè)觀察者角色，并不能真正改變世界，文字與物理世界描述之間也具有不對(duì)應(yīng)關(guān)系。

人物視頻生成模型是阿里通義實(shí)驗(yàn)室XR團(tuán)隊(duì)的一個(gè)研究重點(diǎn)。薄列峰通過(guò)人物動(dòng)作、人物換裝、人物替身、人物唱演4個(gè)框架來(lái)解讀人物視頻生成新范式?；谶@些框架的應(yīng)用，正逐步落地通義千問(wèn)APP。

人物動(dòng)作視頻生成框架Animate Anyone可基于單張圖和動(dòng)作序列，輸出穩(wěn)定、可控的人物動(dòng)作視頻；人物換裝視頻生成框架Outfit Anyone是基于服飾圖和人物形象；人物視頻角色替換框架Motionshop采用Video2Motion，基于視頻人物動(dòng)作驅(qū)動(dòng)3D數(shù)字人；人物唱演視頻生成框架Emote Portrait Alive能夠基于單張圖和音頻，輸出準(zhǔn)確、生動(dòng)的人物唱演視頻。

以下為薄列峰的演講實(shí)錄：

我的分享前半部分講行業(yè)趨勢(shì)以及我在多模態(tài)、文生文等方向的思考；后半部分分享我們?cè)谖纳曨l生成方向的工作?？梢苑浅Ｗ孕诺卣f(shuō)，我們?cè)谡麄€(gè)業(yè)界具備領(lǐng)先性，整個(gè)工作也有很強(qiáng)的特色。

一、文生視頻模型基于統(tǒng)計(jì)關(guān)系，不是世界模型

首先，文生視頻高速發(fā)展，大家講發(fā)展基石的時(shí)候都會(huì)講到數(shù)據(jù)、機(jī)器、人才。什么是多模態(tài)？什么是視頻？文生視頻這個(gè)領(lǐng)域基礎(chǔ)又是什么？目前思考得還比較少。

先回顧一下進(jìn)程，大家可以看到Midjourney在文生圖方向的突破；OpenAI借助非常強(qiáng)的理解大模型、能夠?qū)D像實(shí)現(xiàn)精標(biāo)的能力，在文生圖上做出自己有特色的工作和突破；創(chuàng)業(yè)公司像Pika、Runway也在做自己的工作，分別從不同的路徑和方向來(lái)演進(jìn)；包括谷歌、大的創(chuàng)業(yè)公司，過(guò)去一年有很多文生視頻方向的研究工作。

這些工作從研究的角度有一定數(shù)量的數(shù)據(jù)集，做一些方向的突破可能沒(méi)有那么難。OpenAI相當(dāng)于把這個(gè)事情做到了極致，在現(xiàn)在的時(shí)間節(jié)點(diǎn)，整個(gè)Sora展示出非常好的效果。

文生視頻是不是世界模型？它和世界模型的機(jī)制還是有所差異的。

首先視頻是一個(gè)觀察者的角色，我們有一些攝像機(jī)在記錄這個(gè)世界，但它不是真的去改變這個(gè)世界。如果說(shuō)我需要做一些世界模型，類似我需要一些具身智能，當(dāng)然這也是大家提出的一些新名詞，具身智能是在仿照我們生物智能。生物智能不光有思考，同樣也有實(shí)體，如果看實(shí)體的部分，具身智能現(xiàn)階段還是遠(yuǎn)遠(yuǎn)落后的，因?yàn)槿梭w具備非常強(qiáng)的靈活性和低碳的消耗，不是今天物理機(jī)器所具備的，這是一個(gè)差異點(diǎn)。

另一點(diǎn)，如果看文生視頻，視頻的存在并不依賴于文字是否存在。文字出現(xiàn)以前，地球上的生物就可以看到這個(gè)物理世界。文字是我們引入去描述人自身的思想，隨著人類進(jìn)化了很多代，是我們引入的一個(gè)工具，實(shí)際可能跟今天的編程語(yǔ)言也是類似的。我們引入一個(gè)工具來(lái)描述這個(gè)物理世界，它具有相當(dāng)?shù)拿枋瞿芰?，但是它和物理世界之間也不對(duì)應(yīng)，也就是說(shuō)它有簡(jiǎn)化、有抽象、有歸納等。

整個(gè)文生視頻做的工作是什么？有一個(gè)視頻空間，還有一個(gè)文字空間。我們?cè)谖淖挚臻g給每個(gè)視頻打上標(biāo)或者找到一個(gè)對(duì)應(yīng)。整個(gè)關(guān)系是一個(gè)統(tǒng)計(jì)的依賴關(guān)系，通過(guò)這樣的關(guān)系和暴力的關(guān)聯(lián)，再加上大數(shù)據(jù)，展現(xiàn)出了一定的文生視頻能力，但是不代表這是我們物理世界真實(shí)運(yùn)作的規(guī)律。

如果看文生文、文生視頻，它們并不影響我們的物理世界，如果要影響物理世界，它還是需要達(dá)到生物智能所具備的特點(diǎn)。

在這里也分享我對(duì)AGI的理解。通過(guò)文字我們是否能實(shí)現(xiàn)AGI？首先文字的能力于生物智能而言，不是完整的。非完整的AI智能是否達(dá)到人類智能所具備的能力？現(xiàn)在看還是有相當(dāng)?shù)木嚯x。如果今天讓大模型去造一輛汽車，造一臺(tái)電視可以嗎？以我的觀點(diǎn)來(lái)看，還是比較遙遠(yuǎn)的。

二、做特色的人物視頻生成，能換裝唱演、角色富有表現(xiàn)力

通義實(shí)驗(yàn)室在視頻生成方向有一些探索，我們也有完整的視頻生成矩陣性的產(chǎn)品和研究。

回到今天分享主題的核心——人物視頻生成，當(dāng)大家討論這個(gè)問(wèn)題的時(shí)候，第一個(gè)問(wèn)題是，為什么不做一個(gè)通用的視頻生成就完了，為什么還要做人物視頻生成？

視頻生成和人物視頻生成有共性，需要高質(zhì)量的畫質(zhì)，包括整個(gè)運(yùn)動(dòng)要符合物理規(guī)律。如果看人的組成，包括人臉、人手、人的頭發(fā)、人的服飾都具有相當(dāng)?shù)?span style="color: #0f59a4;">唯一性，同時(shí)展示出了非常精細(xì)的顆粒度。人物的特點(diǎn)、聲音，這些還是人的感知部分，我們都還沒(méi)有講到人的實(shí)體部分，包括人是由物質(zhì)組成的等，不同的部分是不同的物質(zhì)，這些模擬可能是另一個(gè)層面，包括我們是否能制造出一種材料跟生物智能是類似的等等，這部分不是我們覆蓋的主題。

整體來(lái)看，它（人物視頻生成）是相當(dāng)有特色的，會(huì)導(dǎo)致在生成中有很多特性，包括控制是多樣的，比如可以用聲音來(lái)做控制，可以用人體的一些表達(dá)來(lái)做控制，可以用文本來(lái)做控制。控制具備豐富性，同時(shí)它生成的人的整體表現(xiàn)力需要非常豐富，如果生成的人表現(xiàn)力非常呆板，很難滿足今天應(yīng)用的需求。另外，生成的顆粒度、數(shù)字資產(chǎn)和人物運(yùn)動(dòng)的分離等，都是極具特色的部分。

我們的工作包括人物動(dòng)作、人物換裝、人物替身、人物唱演等。接下來(lái)分享每個(gè)模塊各自的工作。

三、人物動(dòng)作視頻生成框架Animate Anyone：讓兵馬俑跳《科目三》

第一部分，我們?cè)?023年11月發(fā)布人物動(dòng)作視頻生成框架Animate Anyone，在人物視頻生成方向的發(fā)布早于Sora幾個(gè)月，當(dāng)我們把這個(gè)結(jié)果發(fā)布出來(lái)之后，引發(fā)了非常強(qiáng)烈的關(guān)注，主要是達(dá)到的視覺(jué)效果超越了之前的結(jié)果，可以說(shuō)是一個(gè)數(shù)量級(jí)的超越。

阿里通義實(shí)驗(yàn)室薄列峰：從兵馬俑跳“科目三”到照片唱歌，四大框架讓AI生成的人物活起來(lái)丨GenAICon 2024

整個(gè)方案的框架有幾個(gè)特色：

第一，有一張參考圖，整個(gè)生成過(guò)程會(huì)對(duì)參考圖做高度的保真。大家如果在生成的時(shí)候看視頻的細(xì)節(jié)，可能會(huì)發(fā)現(xiàn)，隨著時(shí)間的推移，整個(gè)像素的物理合理性可能不太對(duì)。我們有機(jī)制，在融入的過(guò)程中，不光有CLIP的特征，還有視覺(jué)特征的融入，可以把更精確的信息編碼進(jìn)來(lái)，這是一個(gè)特點(diǎn)。

第二個(gè)特點(diǎn)，我們用骨骼訓(xùn)練控制人物的動(dòng)作。大家如果看整個(gè)人體的模擬，特別是整個(gè)人體的關(guān)節(jié)，每個(gè)關(guān)節(jié)點(diǎn)有它的自由度，整體上骨骼與人體也是非常匹配的表達(dá)。

第三，引入時(shí)序模塊，保證時(shí)序上的一致性。我們和Sora的效果對(duì)比，視頻效果比Sora的方法有一個(gè)非常明顯的提升。

我們也把技術(shù)產(chǎn)品化，部署到通義APP，歡迎大家下載體驗(yàn)。

我們的舞蹈生成獲得了相當(dāng)多的關(guān)注，整個(gè)視頻內(nèi)容播放達(dá)到了非常高的數(shù)字。畫面中的舞蹈，包括真人、卡通形象（都可以）來(lái)跳《科目三》。

當(dāng)看產(chǎn)品演進(jìn)的時(shí)候，我們發(fā)現(xiàn)一個(gè)非常有意思的事情，真人來(lái)跳舞這件事是我們自己可以去實(shí)現(xiàn)的能力，雖然對(duì)于每個(gè)人而言難度各有不同，舞蹈跳得比較好的能跳出比較好的《科目三》，舞蹈跳得不好也能跳出《科目三》的樣子。但是對(duì)于一些其它類人的形象，比如兵馬俑，我們不太可能去讓它跳《科目三》。

如果過(guò)去要讓一個(gè)兵馬俑跳《科目三》，我們要走的流程是什么？（以前）我們要做一個(gè)三維模型，人為設(shè)計(jì)它的動(dòng)作，整個(gè)成本流程非常高。我們現(xiàn)在只要輸入一張照片，兵馬俑就可以跳《科目三》。畫一幅畫，給自己喜歡的寵物拍一張照片，輸入喜歡的各種二次元形象，它都可以來(lái)跳創(chuàng)作者喜歡的舞蹈。

Animate Anyone賦予創(chuàng)作者相當(dāng)大的靈活度，特別在之前很難創(chuàng)作出這樣動(dòng)作視頻的領(lǐng)域，給大家提供了一個(gè)工具。

新的功能也在開(kāi)發(fā)中，包括任意上傳一段視頻可以來(lái)提取骨骼序列，然后把骨骼序列傳遞的動(dòng)作信息轉(zhuǎn)移到這張照片上面，生成一段舞蹈。這會(huì)再次釋放大家動(dòng)作視頻創(chuàng)作方面的潛力，甚至一些有難度的類人形象，我們能夠通過(guò)手繪骨骼點(diǎn)，讓它也跳起來(lái)舞蹈。我們把手繪的骨骼點(diǎn)和自身定義的骨骼點(diǎn)做一個(gè)匹配，來(lái)完成這樣一個(gè)工作。

Animate Anyone發(fā)布的時(shí)候，四個(gè)視頻在（社交平臺(tái)）Twitter上總播放量破億，還有大量的自發(fā)報(bào)道。

四、人物換裝視頻生成框架Outfit Anyone：一鍵為模特?fù)Q裝

第二部分，人物換裝視頻生成框架Outfit Anyone。在一個(gè)文明社會(huì)，每個(gè)人都有穿著服飾的需求，對(duì)美觀度有極高的需求。我們打造了一個(gè)框架，可以給定一個(gè)服飾，然后讓這個(gè)服飾穿到自己或者模特的身上，具備細(xì)節(jié)可控、身材可調(diào)、全身穿搭甚至多層服飾的疊穿等特征，面臨非常細(xì)節(jié)問(wèn)題的處理。

阿里通義實(shí)驗(yàn)室薄列峰：從兵馬俑跳“科目三”到照片唱歌，四大框架讓AI生成的人物活起來(lái)丨GenAICon 2024

當(dāng)我們真正要滿足大家需求的時(shí)候，服飾的一致性非常重要，疊穿怎么和拍得高質(zhì)量照片達(dá)到一樣的畫質(zhì)、精度，相當(dāng)有挑戰(zhàn)。

在一個(gè)模特?fù)Q裝應(yīng)用中，將鼠標(biāo)點(diǎn)擊、上移、下移，點(diǎn)擊試穿，就會(huì)讓模特試穿衣服。我給定一些特別的材質(zhì)，比如香蕉（圖像）等，我們也能把它當(dāng)衣服一樣穿到身上來(lái)。整個(gè)模型在嘗試把各種各樣的布料或者類似布料的東西上身，為創(chuàng)意提供了一個(gè)路徑。

當(dāng)然我們也可以把Outfit Anyone和Animate Anyone結(jié)合，去生成一段走秀視頻等。相關(guān)作品獲得了相當(dāng)?shù)年P(guān)注，在Hugging Face上榜，關(guān)注度非常高。

五、人物視頻角色替換框架Motionshop：生成3D模型動(dòng)作視頻

人物視頻角色替換框架Motionshop，給定一個(gè)視頻，提取它的骨骼，同時(shí)把骨骼和三維模型做綁定，生成三維模型的動(dòng)作視頻，然后還原在原視頻中。這樣的視頻和Animate Anyone的區(qū)別是，3D資產(chǎn)（包括3D IP）也是相當(dāng)大的領(lǐng)域，特別在游戲和影視，現(xiàn)在的Motionshop方案支持多視角的方案。

阿里通義實(shí)驗(yàn)室薄列峰：從兵馬俑跳“科目三”到照片唱歌，四大框架讓AI生成的人物活起來(lái)丨GenAICon 2024

Motionshop支持多人替換，這樣的視頻替換成二次元的角色，后面的視頻背景相當(dāng)真實(shí)，前面的人物是虛擬人物，包括實(shí)際干活兒的視頻。這里也產(chǎn)生了一些對(duì)機(jī)器人能力的思考。

在整個(gè)方案中，要讓整個(gè)視頻看起來(lái)非常真實(shí)，除了大模型的能力，我們還運(yùn)用了渲染的能力，包括光線追蹤，會(huì)從原視頻估計(jì)光照等，這樣讓整個(gè)視頻看起來(lái)非常一致，沒(méi)有違和感。

把機(jī)器人帶到對(duì)話場(chǎng)景中，也是非常有意思的一個(gè)應(yīng)用。整個(gè)置換會(huì)在場(chǎng)景中有非常好的體現(xiàn)，超越了目前一些類似的方法所能做到的能力。

六、人物唱演視頻生成框架Emote Portrait Alive：讓照片開(kāi)口唱歌

年后我們沿著對(duì)人物視頻生成獨(dú)立的思考，不斷地向前探索，最新的工作是人物唱演視頻生成框架Emote Portrait Alive。給定一張照片，可以讓這個(gè)人來(lái)唱歌、講話（這項(xiàng)功能已于近期上線通義APP）。當(dāng)然了，四五年前大家都在研發(fā)這樣的能力，對(duì)于人物視頻生成而言，表現(xiàn)力是極度重要的，如果今天達(dá)到一個(gè)類人的表現(xiàn)力，在我來(lái)看是很難實(shí)現(xiàn)的。

阿里通義實(shí)驗(yàn)室薄列峰：從兵馬俑跳“科目三”到照片唱歌，四大框架讓AI生成的人物活起來(lái)丨GenAICon 2024

我們要達(dá)到專業(yè)級(jí)，這才是真正大家使用的內(nèi)容生成。很多生成的視頻畫質(zhì)是OK的，但是大家有沒(méi)有思考這樣的問(wèn)題，比如說(shuō)文生圖、生成的視頻，你是這個(gè)視頻的消費(fèi)者嗎？你會(huì)看嗎？當(dāng)然模型可能會(huì)生成這個(gè)世界上不存在的物種，這是很有意思的，但你會(huì)長(zhǎng)期去消費(fèi)這樣的內(nèi)容嗎？

我覺(jué)得在做AIGC內(nèi)容生成之前，不管是基礎(chǔ)研究還是應(yīng)用思考，大家都在高速迭代，每個(gè)人都有自己的思考和對(duì)這個(gè)問(wèn)題的答案。

在我們生成的過(guò)程中，基于這樣一個(gè)包括動(dòng)作、唱歌（嘴型）、聲音表演的生成，我們可以去打造一個(gè)非常有吸引力的甚至可以去做演藝的形象，甚至可以做一個(gè)虛擬的明星。

以上是薄列峰演講內(nèi)容的完整整理。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、文生視頻模型基于統(tǒng)計(jì)關(guān)系，不是世界模型

二、做特色的人物視頻生成，能換裝唱演、角色富有表現(xiàn)力

三、人物動(dòng)作視頻生成框架Animate Anyone：讓兵馬俑跳《科目三》

四、人物換裝視頻生成框架Outfit Anyone：一鍵為模特?fù)Q裝

五、人物視頻角色替換框架Motionshop：生成3D模型動(dòng)作視頻

六、人物唱演視頻生成框架Emote Portrait Alive：讓照片開(kāi)口唱歌

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、文生視頻模型基于統(tǒng)計(jì)關(guān)系，不是世界模型

二、做特色的人物視頻生成，能換裝唱演、角色富有表現(xiàn)力

三、人物動(dòng)作視頻生成框架Animate Anyone：讓兵馬俑跳《科目三》

四、人物換裝視頻生成框架Outfit Anyone：一鍵為模特?fù)Q裝

五、人物視頻角色替換框架Motionshop：生成3D模型動(dòng)作視頻

六、人物唱演視頻生成框架Emote Portrait Alive：讓照片開(kāi)口唱歌

相關(guān)推薦

一、文生視頻模型基于統(tǒng)計(jì)關(guān)系，不是世界模型

二、做特色的人物視頻生成，能換裝唱演、角色富有表現(xiàn)力

三、人物動(dòng)作視頻生成框架Animate Anyone：讓兵馬俑跳《科目三》

四、人物換裝視頻生成框架Outfit Anyone：一鍵為模特?fù)Q裝

五、人物視頻角色替換框架Motionshop：生成3D模型動(dòng)作視頻

六、人物唱演視頻生成框架Emote Portrait Alive：讓照片開(kāi)口唱歌