智東西(公眾號:zhidxcom
作者?|?香草
編輯?|?李水青

AI視頻生成賽道風起云涌,國內外新穎的文生、圖生視頻產品層出不窮。在各大廠商的“內卷”之下,當下的視頻生成模型各方面已經接近“以假亂真”的效果。

但與此同時,大部分視頻生成模型的準確程度、遵循指令的能力還有待提升,生成視頻仍然是一個“抽卡”的過程,往往需要用戶生成許多次,才能獲得符合需求的結果。這也造成算力成本過高、資源浪費等問題。

如何提升視頻生成的精準度,減少“抽卡”次數(shù),利用盡可能少的資源來獲取符合需求的視頻?

智東西8月3日報道,阿里團隊近日推出視頻生成模型Tora,能夠根據(jù)軌跡、圖像、文本或其組合,簡單幾筆快速生成精確運動控制的視頻,同時也支持首尾幀控制,讓視頻生成的可控性又上了一個階梯。

Tora是首個面向軌跡的DiT框架模型,利用DiT的可擴展性,Tora生成的物體運動不僅能精確地遵循軌跡,而且可以有效地模擬物理世界動態(tài),相關論文已于8月1日發(fā)布在arXiv上。

阿里發(fā)“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲Tora論文

Tora目前僅提供視頻演示,其項目主頁顯示,其后續(xù)將發(fā)布在線Demo和推理、訓練代碼。

論文地址:

https://arxiv.org/abs/2407.21705

項目地址:

https://ali-videoai.github.io/tora_video/

一、三種模態(tài)組合輸入,精準控制運動軌跡

Tora支持軌跡、文本、圖像三種模態(tài),或它們的組合輸入,可對不同時長、寬高比和分辨率的視頻內容進行動態(tài)精確控制。

軌跡輸入可以是各種各樣的直線、曲線,其具有方向,不同方向的多個軌跡也可以進行組合。例如,你可以用一條S型曲線控制漂浮物的運動軌跡,同時用文字描述來控制它的運動速度。下面這個視頻中,所使用的提示詞用到了“緩慢”、“優(yōu)雅”、“輕輕”等副詞。

同一條軌跡也可以在一個軸線上反復運動,生成來回搖動的畫面。

在同一張圖上,繪制不同的軌跡也可以讓Tora生成不同運動方向的視頻。

而基于同一個軌跡輸入,Tora會根據(jù)主體的區(qū)別生成不同的運動方式。

與目前常見的運動筆刷功能有所不同的是,即使沒有輸入圖像,Tora也可以基于軌跡和文本的組合,生成對應的視頻。

例如下面這個視頻中的1、3兩個視頻,就是在沒有初始幀,只有軌跡和文字的情況下生成的。

Tora也支持首尾幀控制,不過這個案例只以圖片形式出現(xiàn)在論文里,沒有提供視頻演示。

阿里發(fā)“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲Tora首尾幀控制

那么,只有文本、圖像兩個模態(tài)輸入的話,能否實現(xiàn)同樣的效果呢?帶著這個疑問,我嘗試將相同的初始幀和提示詞輸入其他AI視頻生成器。

下面視頻中從左到右、從上到下依次為Tora、Vidu、清影、可靈生成的視頻??梢钥吹?,當軌跡為直線時,無軌跡輸入的視頻生成勉強還算符合需求。

但當需要的運動軌跡變?yōu)榍€,傳統(tǒng)的文本+圖像輸入就難以滿足需求。

二、基于OpenSora框架,創(chuàng)新兩種運動處理模塊

Tora采用OpenSora作為其基本模型DiT架構,OpenSora是AI創(chuàng)企潞晨科技設計并開源的視頻生成模型框架。

為了實現(xiàn)基于DiT的軌跡控制視頻生成,Tora引入了兩個新型運動處理模塊:軌跡提取器(Trajectory Extractor)和運動引導融合器(Motion-guidance Fuser),用于將提供的軌跡編碼為多級時空運動補?。╩otion patches)。

下圖展示了Tora的整體架構。這一方法符合DiT的可擴展性,能夠創(chuàng)建高分辨率、運動可控的視頻,且持續(xù)時間更長。

阿里發(fā)“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲Tora整體架構

其中,軌跡提取器采用3D運動VAE(變分自編碼器),將軌跡向量嵌入到與視頻補?。╲ideo patches)相同的潛在空間中,可以有效地保留連續(xù)幀之間的運動信息,隨后使用堆疊的卷積層來提取分層運動特征。

運動引導融合器則利用自適應歸一化層,將這些多級運動條件無縫輸入到相應的DiT塊中,以確保視頻生成始終遵循定義軌跡。

為了將基于DiT的視頻生成與軌跡相結合,作者探索了三種融合架構的變體,將運動補丁注入到每個STDiT塊中,其中自適應范數(shù)(Adaptive Norm)展示了最佳性能。

阿里發(fā)“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲運動引導融合器的三種架構設計

在具體的訓練過程中,作者針對不同輸入條件采取了不同的訓練策略。

在軌跡訓練中,Tora使用兩階段訓練方法進行軌跡學習,第一階段從訓練視頻中提取密集光流,第二階段根據(jù)運動分段結果和光流分數(shù),從光流中隨機選擇1到N個對象軌跡樣本,最后應用高斯濾波器進行細化。

在圖像訓練中,Tora遵循OpenSora采用的掩碼策略來支持視覺調節(jié),在訓練過程中隨機解鎖幀,未屏蔽幀的視頻補丁不受任何噪聲的影響,這使得Tora能夠將文本、圖像和軌跡無縫集成到一個統(tǒng)一的模型中。

與先進的運動可控視頻生成模型進行定量比較時,隨著生成幀數(shù)的增加,Tora比基于UNet的方法具有越來越大的性能優(yōu)勢,保持較高的軌跡控制的穩(wěn)定度。

阿里發(fā)“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲Tora與其他可控視頻生成模型對比

例如基于同一輸入,Tora生成的視頻比DragNUWA、MotionCtrl模型生成的更加平滑,對運動軌跡的遵循也更準確。

三、“期貨”已兌現(xiàn),阿里持續(xù)布局AI視頻

AI視頻生成玩家們打得如火如荼,阿里也一直在持續(xù)圍攻AI視頻賽道。比起Sora等主攻視頻生成長度和質量的通用模型,阿里團隊的項目似乎更注重于算法在不同視頻生成形式上的具體應用。

今年1月,通義千問上線了“全民舞王”,憑借“兵馬俑跳科目三”出圈了一把;2月,阿里發(fā)布肖像視頻生成框架EMO,一張圖就能讓照片里的人開口說話。

當時智東西統(tǒng)計了阿里在AI視頻上的布局,其在4個月內連發(fā)了至少7個新項目,覆蓋文生視頻、圖生視頻、人物跳舞、肖像說話等方向。(國產神級AI登場!高啟強化身羅翔,蔡徐坤變Rap之王,還跟Sora聯(lián)動

如今又半年過去,EMO已經從“期貨”變成通義App中的“全民唱演”功能,人人可用。阿里也發(fā)布了更多AI視頻項目。

1AtomoVideo:高保真圖像到視頻生成

AtomoVideo發(fā)布于3月5日,是一個高保真圖生視頻框架,基于多粒度圖像注入和高質量的數(shù)據(jù)集及訓練策略,能夠保持生成視頻與給定參考圖像之間的高保真度,同時實現(xiàn)豐富的運動強度和良好的時間一致性。

阿里發(fā)“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲AtomoVideo生成視頻效果

項目主頁:https://atomo-video.github.io/

2、EasyAnimate-v3:單張圖像+文本生成高分辨率長視頻

EasyAnimate是阿里在4月12日推出的視頻生成處理流程,并在短短3個月內迭代到v3版本。它通過擴展DiT框架引入了運動模塊,增強了對時間動態(tài)的捕捉能力,確保生成視頻的流暢性和一致性,可生成不同分辨率6秒左右、幀率24fps的視頻。

阿里發(fā)“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲EasyAnimate v3生成視頻效果

項目主頁:https://github.com/aigc-apps/EasyAnimate

結語:AI視頻生成可控性再上一層

在AI視頻生成時長、質量已經達到一定程度之際,如何讓生成的視頻更可控、更符合需求,是當下的重要命題。

在精準度、可控性和資源利用效率等方面的持續(xù)優(yōu)化下,AI視頻生成產品的使用體驗將迎來新的階段,價格也會更加親民,讓更多創(chuàng)作者參與進來。