智東西(公眾號(hào):zhidxcom)
作者|程茜
編輯|心緣

智東西2月26日?qǐng)?bào)道,昨夜,阿里云視覺生成基座模型萬相2.1(Wan)宣布開源!

萬相2.1共有兩個(gè)參數(shù)規(guī)模,140億參數(shù)模型適用于對(duì)生成效果要求更高的專業(yè)人士,13億參數(shù)模型生成速度較快且能兼容所有消費(fèi)級(jí)GPU,兩個(gè)模型的全部推理代碼和權(quán)重已全部開源。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

綜合來看,萬相2.1的主要優(yōu)勢集中于以下五點(diǎn):
SOTA性能:萬相2.1在多個(gè)基準(zhǔn)測試中優(yōu)于現(xiàn)有的開源模型和商業(yè)解決方案,140億參數(shù)專業(yè)版萬相模型在權(quán)威評(píng)測集VBench中,以總分86.22%大幅超越Sora、Luma、Pika等國內(nèi)外模型,居于榜首。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

支持消費(fèi)級(jí)GPU:13億參數(shù)模型僅需8.2GB顯存就能生成480P視頻,可兼容幾乎所有消費(fèi)級(jí)GPU,約4分鐘內(nèi)(未使用量化等優(yōu)化技術(shù))在RTX 4090上生成5秒的480P視頻。
多項(xiàng)任務(wù):萬相2.1同時(shí)支持文生視頻、圖生視頻、視頻編輯、文生圖和視頻生音頻
視覺文本生成:萬相2.1是首個(gè)能夠生成中英文文本的視頻模型,無需外部插件就能生成文字。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

強(qiáng)大的視頻VAE:Wan-VAE提供卓越的效率和性能,可對(duì)任意長度的1080P視頻進(jìn)行編碼和解碼,同時(shí)保留時(shí)間信息。

萬相系列模型的研發(fā)團(tuán)隊(duì)基于運(yùn)動(dòng)質(zhì)量、視覺質(zhì)量、風(fēng)格和多目標(biāo)等14個(gè)主要維度和26個(gè)子維度進(jìn)行了模型性能評(píng)估,該模型實(shí)現(xiàn)5項(xiàng)第一,萬相系列模型能夠穩(wěn)定展現(xiàn)各種復(fù)雜的人物肢體運(yùn)動(dòng),如旋轉(zhuǎn)、跳躍、轉(zhuǎn)身、翻滾等;還能還原碰撞、反彈、切割等復(fù)雜真實(shí)物理場景。

官方Demo中“熊貓用滑板炫技”的視頻,展示了一只熊貓連續(xù)完成多個(gè)高難度動(dòng)作:

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

阿里云通義實(shí)驗(yàn)室的研究人員昨夜23點(diǎn)直播介紹了萬相2.1的模型及技術(shù)細(xì)節(jié)。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

此外,阿里通義官方文章還提到,萬相2.1的開源,標(biāo)志著阿里云實(shí)現(xiàn)了全模態(tài)、全尺寸的開源。

目前,萬相2.1支持訪問通義官網(wǎng)在線體驗(yàn)或者在Github、HuggingFace、魔搭社區(qū)下載進(jìn)行本地部署體驗(yàn)。

通義官網(wǎng)體驗(yàn)地址:https://tongyi.aliyun.com/wanxiang/

Github: https://github.com/Wan-Video/Wan2.1

HuggingFace:https://huggingface.co/spaces/Wan-AI/Wan2.1
魔搭社區(qū):https://modelscope.cn/studios/Wan-AI/Wan-2.1

一、生成能力全方位開掛,文字、特效、復(fù)雜運(yùn)動(dòng)都在行

在生成能力方面,萬相2.1可以還原復(fù)雜運(yùn)動(dòng)表現(xiàn)、遵循物理規(guī)律、影院級(jí)別畫質(zhì)、具備文字生成和視覺特效制作能力。

萬相2.1支持生成走路、吃飯等基本的日常運(yùn)動(dòng),還能還原復(fù)雜的旋轉(zhuǎn)、跳躍、轉(zhuǎn)身跳舞以及擊劍、體操等體育運(yùn)動(dòng)類的動(dòng)作。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

此外,其能在遵循物理世界規(guī)律的前提下,還原重力、碰撞、反彈、切割等物理場景,并生成萬物生長等有創(chuàng)意的視頻。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

在畫質(zhì)方面,萬相2.1生成的視頻達(dá)到影院級(jí)別畫質(zhì),同時(shí)理解多語言、長文本指令,呈現(xiàn)角色的互動(dòng)。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

同時(shí),萬相2.1是首次在開源模型中支持中英文文字渲染,中英文藝術(shù)字生成。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

阿里云還公開了多個(gè)萬相2.1生成視頻的Demo。

以紅色新年宣紙為背景,出現(xiàn)一滴水墨,暈染墨汁緩緩暈染開來。文字的筆畫邊緣模糊且自然,隨著暈染的進(jìn)行,水墨在紙上呈現(xiàn)“?!弊?,墨色從深到淺過渡,呈現(xiàn)出獨(dú)特的東方韻味。背景高級(jí)簡潔,雜志攝影感。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

不過,紙上福字左上角的一點(diǎn)并沒有書寫過程,而是突然在視頻后期出現(xiàn)。

紀(jì)實(shí)攝影風(fēng)格,低空追蹤視角,一輛寶馬M3在蜿蜒的山路上疾馳,車輪揚(yáng)起滾滾塵土云。高速攝像機(jī)定格每個(gè)驚險(xiǎn)過彎瞬間,展現(xiàn)車輛極致的操控性能。背景是連綿起伏的山脈和藍(lán)天。畫面充滿動(dòng)感,輪胎與地面摩擦產(chǎn)生的煙霧四散。中景,運(yùn)動(dòng)模糊效果,強(qiáng)調(diào)速度感。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

可以看到,視頻鏡頭隨著汽車的漂移加速,捕捉到了每一個(gè)畫面,并且在漂移時(shí)路邊還有與地面摩擦飛揚(yáng)的塵土。

微觀攝影,珊瑚管蟲和霓虹刺鰭魚在五彩斑斕的海底世界中游弋。珊瑚管蟲色彩鮮艷,觸手輕輕搖曳,仿佛在水中舞蹈;霓虹刺鰭魚身體閃耀著熒光,快速穿梭于珊瑚之間。畫面充滿奇幻視覺效果,真實(shí)自然,4k高清畫質(zhì),展現(xiàn)海底世界的奇妙與美麗。近景特寫,水下環(huán)境細(xì)節(jié)豐富。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

整個(gè)畫面色彩鮮艷,對(duì)提示詞中的細(xì)節(jié)基本都表現(xiàn)到了。

中國古典風(fēng)格的動(dòng)畫角色,一個(gè)身穿淡紫色漢服的女孩站在櫻花樹下。她有著大大的眼睛和精致的五官,頭發(fā)上裝飾著粉色的花朵。女孩表情溫柔,眼神中帶著一絲憂郁,仿佛在思考什么。背景是朦朧的古建筑輪廓,花瓣在空中輕輕飄落,營造出一種寧靜而夢幻的氛圍。近景特寫鏡頭,強(qiáng)調(diào)女孩的面部表情和細(xì)膩的光影效果。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

視頻對(duì)“眼神中帶著一絲憂郁,仿佛在思考什么”這類復(fù)雜的指令,也在女孩的眼神中得到了呈現(xiàn)。

二、優(yōu)于其他開閉源模型,可兼容消費(fèi)級(jí)顯卡

為了評(píng)估萬相2.1的性能,研發(fā)人員基于1035個(gè)內(nèi)部提示集,在14個(gè)主要維度和26個(gè)子維度上進(jìn)行了測試,然后通過對(duì)每個(gè)維度的得分進(jìn)行加權(quán)計(jì)算來計(jì)算總分,其中利用了匹配過程中人類偏好得出的權(quán)重。詳細(xì)結(jié)果如下表所示:

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

研發(fā)人員還對(duì)文生視頻、圖生視頻以及模型在不同GPU上的計(jì)算效率進(jìn)行了評(píng)估。

文生視頻的評(píng)估結(jié)果:

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

圖生視頻的評(píng)估結(jié)果:

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

其結(jié)果顯示,萬相2.1均優(yōu)于其他開源、閉源模型。

不同GPU上的計(jì)算效率:

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

可以看到,13億參數(shù)模型可兼容消費(fèi)級(jí)顯卡,并實(shí)現(xiàn)較快的生成速度。

三、模型性能提升大殺器:3D VAE、可擴(kuò)展預(yù)訓(xùn)練策略、大規(guī)模數(shù)據(jù)鏈路構(gòu)建……

基于主流的DiT和線性噪聲軌跡Flow Matching范式,萬相2.1基于自研因果3D VAE、可擴(kuò)展的預(yù)訓(xùn)練策略、大規(guī)模數(shù)據(jù)鏈路構(gòu)建以及自動(dòng)化評(píng)估指標(biāo)提升了模型最終性能表現(xiàn)。

VAE是視頻生成領(lǐng)域廣泛使用的模塊,可以使得視頻模型在接近無損情況下有效降低資源占用。

在算法設(shè)計(jì)上,萬相基于主流DiT架構(gòu)和線性噪聲軌跡Flow Matching范式,研發(fā)了高效的因果3D VAE、可擴(kuò)展的預(yù)訓(xùn)練策略等。以3D VAE為例,為了高效支持任意長度視頻的編碼和解碼,萬相在3D VAE的因果卷積模塊中實(shí)現(xiàn)了特征緩存機(jī)制,從而代替直接對(duì)長視頻端到端的編解碼過程,實(shí)現(xiàn)了無限長1080P視頻的高效編解碼。

此外,通過將空間降采樣壓縮提前,在不損失性能的情況下進(jìn)一步減少了29%的推理時(shí)內(nèi)存占用。

?剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

萬相2.1模型架構(gòu)基于主流的視頻DiT結(jié)構(gòu),通過Full Attention機(jī)制確保長時(shí)程時(shí)空依賴的有效建模,實(shí)現(xiàn)時(shí)空一致的視頻生成。

采樣策略上,模型的整體訓(xùn)練則采用了線性噪聲軌跡的流匹配(Flow Matching)方法。如模型架構(gòu)圖所示,模型首先使用多語言u(píng)mT5編碼器對(duì)輸入文本進(jìn)行語義編碼,并通過逐層的交叉注意力層,將文本特征向量注入到每個(gè)Transformer Block的特征空間,實(shí)現(xiàn)細(xì)粒度的語義對(duì)齊。

此外,研發(fā)人員通過一組在所有Transformer Block中共享參數(shù)的MLP,將輸入的時(shí)間步特征T映射為模型中AdaLN層的可學(xué)習(xí)縮放與偏置參數(shù)。在相同參數(shù)規(guī)模下,這種共享時(shí)間步特征映射層參數(shù)的方法在保持模型能力同時(shí)可以顯著降低參數(shù)和計(jì)算量。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

數(shù)據(jù)方面,研究人員整理并去重了一個(gè)包含大量圖像和視頻數(shù)據(jù)的候選數(shù)據(jù)集。在數(shù)據(jù)整理過程中,其設(shè)計(jì)了四步數(shù)據(jù)清理流程,重點(diǎn)關(guān)注基本維度、視覺質(zhì)量和運(yùn)動(dòng)質(zhì)量。通過強(qiáng)大的數(shù)據(jù)處理流程快速獲得高質(zhì)量、多樣化、大規(guī)模的圖像和視頻訓(xùn)練集。

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

訓(xùn)練階段,對(duì)于文本、視頻編碼模塊,研究人員使用DP和FSDP組合的分布式策略;對(duì)于DiT模塊采用DP、FSDP、RingAttention、Ulysses混合的并行策略。

基于萬相2.1模型參數(shù)量較小和長序列帶來的計(jì)算量較大的特征,結(jié)合集群計(jì)算性能和通信帶寬采用FSDP切分模型,并在FSDP外嵌套DP提升多機(jī)拓展性,F(xiàn)SDP和DP的通信均能夠完全被計(jì)算掩蓋。

為了切分長序列訓(xùn)練下的Activation,DiT部分使用了Context Parallelism (CP) 對(duì)序列維度進(jìn)行切分,并使用外層RingAttention、內(nèi)層Ulysses的2D CP的方案減少CP通信開銷。

此外,為了提升端到端整體效率,在文本、視頻編碼和DiT模塊間進(jìn)行高效策略切換避免計(jì)算冗余。具體來說,文本、視頻編碼模塊每個(gè)設(shè)備讀不同數(shù)據(jù),在進(jìn)入DiT之前,通過循環(huán)廣播方式將不同設(shè)備上的數(shù)據(jù)同步,保證CP組里中數(shù)據(jù)一樣。

在推理階段,為了使用多卡減少生成單個(gè)視頻的延遲,選擇CP來進(jìn)行分布式加速。此外,當(dāng)模型較大時(shí),還需要進(jìn)行模型切分。

一方面,模型切分策略時(shí),單卡顯存不足時(shí)必須考慮模型切分。鑒于序列長度通常較長,與張量并行(TP)相比,F(xiàn)SDP的通信開銷更小,并且可以被計(jì)算掩蓋。因此,研究人員選擇FSDP方法進(jìn)行模型切分(注意:這里僅做切分權(quán)重,而不做數(shù)據(jù)并行);另一方面采用序列并行策略:采用與訓(xùn)練階段相同的2D CP方法:外層(跨機(jī)器)使用RingAttention,內(nèi)層(機(jī)器內(nèi))使用Ulysses。

在萬相2.1 140億參數(shù)模型上,使用FSDP和2D CP的組合方法,在多卡上具有如下圖所示的近線性加速:

剛剛,阿里開源最強(qiáng)視頻大模型!性能干翻Sora,8G顯卡就能跑

顯存優(yōu)化方面,研究人員采用分層的顯存優(yōu)化策略,選擇一些層進(jìn)行Offload,其他層根據(jù)不同算子計(jì)算量和顯存占用的分析使用細(xì)粒度Gradient Checkpointing(GC)進(jìn)一步優(yōu)化Activation顯存。最后利用PyTorch顯存管理機(jī)制,解決顯存碎片問題。

在訓(xùn)練穩(wěn)定性方面,萬相2.1借助于阿里云訓(xùn)練集群的智能化調(diào)度、慢機(jī)檢測以及自愈能力,在訓(xùn)練過程中可以自動(dòng)識(shí)別故障節(jié)點(diǎn)并快速重啟任務(wù),平均重啟時(shí)間為39秒,重啟成功率超過98.23%。

結(jié)語:開啟全模態(tài)開源新時(shí)代

2023年8月,阿里云率先開源Qwen模型,正式拉開了開源大模型的序幕。隨后,Qwen1.5、Qwen2、Qwen2.5等四代模型相繼開源,覆蓋了從0.5B到110B的全尺寸范圍,涵蓋大語言、多模態(tài)等領(lǐng)域。目前其千問(Qwen)衍生模型數(shù)量已超過10萬個(gè)。其官方文章顯示,隨著萬相的開源,阿里云實(shí)現(xiàn)了全模態(tài)、全尺寸的開源。

從大語言模型到視覺生成模型,從基礎(chǔ)模型到多樣化的衍生模型,開源生態(tài)的發(fā)展正不斷被注入強(qiáng)大的動(dòng)力。