智東西(公眾號(hào):zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西7月28日?qǐng)?bào)道,剛剛,阿里開源視頻生成模型通義萬(wàn)相Wan2.2,包括文生視頻Wan2.2-T2V-A14B、圖生視頻Wan2.2-I2V-A14B和統(tǒng)一視頻生成Wan2.2-IT2V-5B三款模型。

阿里又開源了!電影級(jí)視頻模型,業(yè)界首用MoE架構(gòu),通義App已上線

其中,文生視頻模型和圖生視頻模型為業(yè)界首個(gè)使用MoE架構(gòu)的視頻生成模型,總參數(shù)量為27B,激活參數(shù)14B,在同參數(shù)規(guī)模下可節(jié)省約50%的計(jì)算資源消耗,在復(fù)雜運(yùn)動(dòng)生成、人物交互、美學(xué)表達(dá)等維度上取得了顯著提升。5B版本統(tǒng)一視頻生成模型同時(shí)支持文生視頻和圖生視頻,可在消費(fèi)級(jí)顯卡部署,是目前24幀每秒、720P像素級(jí)的生成速度最快的基礎(chǔ)模型。

阿里又開源了!電影級(jí)視頻模型,業(yè)界首用MoE架構(gòu),通義App已上線

▲通義萬(wàn)相Wan2.2生成的視頻

此外,阿里通義萬(wàn)相團(tuán)隊(duì)首次推出電影級(jí)美學(xué)控制系統(tǒng),將光影、構(gòu)圖、色彩等要素編碼成60多個(gè)直觀的參數(shù)并裝進(jìn)生成模型。Wan2.2目前單次可生成5s的高清視頻,可以隨意組合60多個(gè)直觀可控的參數(shù)。

官方測(cè)試顯示,通義萬(wàn)相Wan2.2在運(yùn)動(dòng)質(zhì)量、畫面質(zhì)量等多項(xiàng)測(cè)試中超越了OpenAI Sora、快手Kling 2.0等領(lǐng)先的閉源商業(yè)模型。

阿里又開源了!電影級(jí)視頻模型,業(yè)界首用MoE架構(gòu),通義App已上線

業(yè)界首個(gè)使用MoE架構(gòu)的視頻生成模型有哪些技術(shù)創(chuàng)新點(diǎn)?5B版本又是如何實(shí)現(xiàn)消費(fèi)級(jí)顯卡可部署的?通過(guò)對(duì)話通義萬(wàn)相相關(guān)技術(shù)負(fù)責(zé)人,智東西對(duì)此進(jìn)行探討解讀。

目前,開發(fā)者可在GitHub、HuggingFace、魔搭社區(qū)下載模型和代碼,企業(yè)可在阿里云百煉調(diào)用模型API,用戶還可在通義萬(wàn)相官網(wǎng)和通義APP直接體驗(yàn)。

GitHub地址:
https://github.com/Wan-Video/Wan2.2
HuggingFace地址:
https://huggingface.co/Wan-AI
魔搭社區(qū)地址:
https://modelscope.cn/organization/Wan-AI

一、推出首個(gè)MoE架構(gòu)視頻生成模型,5B版本消費(fèi)級(jí)顯卡可跑

根據(jù)官方介紹,通義萬(wàn)相Wan2.2的特色包括光影色彩及構(gòu)圖達(dá)到電影級(jí),擅長(zhǎng)生成復(fù)雜運(yùn)動(dòng)等,首先來(lái)看幾個(gè)視頻生成案例:

提示詞1:Sidelit, soft light, high contrast, medium shot, centered composition, clean single subject frame, warm tones. A young man stands in a forest, his head gently lifted, with clear eyes. Sunlight filters through leaves, creating a golden halo around his hair. Dressed in a light-colored shirt, a breeze plays with his hair and collar as the light dances across his face with each movement. Background blurred, featuring distant dappled light and soft tree silhouettes.

(側(cè)光照明,光線柔和,高對(duì)比度,中景鏡頭,居中構(gòu)圖,畫面簡(jiǎn)潔且主體單一,色調(diào)溫暖。一名年輕男子佇立在森林中,頭部微微上揚(yáng),目光清澈。陽(yáng)光透過(guò)樹葉灑落,在他發(fā)間勾勒出一圈金色光暈。他身著淺色襯衫,微風(fēng)拂動(dòng)著他的發(fā)絲與衣領(lǐng),每一個(gè)細(xì)微的動(dòng)作都讓光影在他臉上流轉(zhuǎn)跳躍。背景虛化,隱約可見遠(yuǎn)處斑駁的光影和樹木柔和的剪影。)

視頻輸出的gif截?。?/strong>

阿里又開源了!電影級(jí)視頻模型,業(yè)界首用MoE架構(gòu),通義App已上線

提示詞2:A man on the run, darting through the rain-soaked back alleys of a neon-lit city night, steam rising from the wet pavement. He’s clad in a drenched trench coat, his face etched with panic as he sprints down the alley, constantly looking over his shoulder. A chase sequence shot from behind, immersing the viewer deeply, as if the pursuers are right behind the camera lens.

(一個(gè)在逃的男人,在霓虹燈點(diǎn)亮的城市夜色中,沖過(guò)被雨水浸透的后巷,潮濕的路面上蒸騰起霧氣。他裹著一件濕透的風(fēng)衣,臉上刻滿驚慌,順著巷子狂奔,不斷回頭張望。這段追逐戲從后方拍攝,將觀眾深深帶入情境,仿佛追捕者就在鏡頭背后。)

視頻輸出的gif截?。?/strong>

阿里又開源了!電影級(jí)視頻模型,業(yè)界首用MoE架構(gòu),通義App已上線

提示詞3:A purely visual and atmospheric video piece focusing on the interplay of light and shadow, with a corn train as the central motif. Imagine a stage bathed in dramatic, warm spotlights, where a corn train, rendered as a stark silhouette, moves slowly across the space. The video explores the dynamic interplay of light and shadow cast by the train, creating abstract patterns, shapes, and illusions that dance across the stage. The soundtrack should be ambient and minimalist, enhancing the atmospheric and abstract nature of the piece.

(這是一部純粹以視覺和氛圍見長(zhǎng)的影像作品,核心聚焦光影的交織互動(dòng),以玉米列車為中心意象。試想一個(gè)舞臺(tái),被富有戲劇張力的暖調(diào)聚光燈籠罩,一列玉米列車化作鮮明的剪影,在空間中緩緩穿行。影片探尋列車投下的光影所形成的動(dòng)態(tài)呼應(yīng)——它們?cè)谖枧_(tái)上舞動(dòng),幻化出抽象的圖案、形態(tài)與視覺幻象。配樂(lè)應(yīng)采用氛圍化的極簡(jiǎn)風(fēng)格,以此強(qiáng)化作品的氛圍感與抽象特質(zhì)。)

視頻輸出的gif截?。?/strong>

阿里又開源了!電影級(jí)視頻模型,業(yè)界首用MoE架構(gòu),通義App已上線

背后,生成這些視頻的生成模型有什么技術(shù)創(chuàng)新點(diǎn)?這要從視頻生成模型在擴(kuò)展規(guī)模(scale-up)時(shí)面臨的挑戰(zhàn)說(shuō)起,主要原因在于視頻生成需要處理的視頻token長(zhǎng)度遠(yuǎn)超過(guò)文本和圖像,這導(dǎo)致計(jì)算資源消耗巨大,難以支撐大規(guī)模模型的訓(xùn)練與部署。

混合專家模型(MoE)架構(gòu)作為一種廣泛應(yīng)用于大型語(yǔ)言模型領(lǐng)域的模型擴(kuò)展方式,通過(guò)選擇專門的專家模型處理輸入的不同部分,擴(kuò)種模型容量卻不增加額外的計(jì)算負(fù)載。

1、首個(gè)MoE架構(gòu)的視頻生成模型,高噪+低噪專家模型“搭檔”

萬(wàn)相2.2模型將MoE架構(gòu)實(shí)現(xiàn)到了視頻生成擴(kuò)散模型(Diffusion Model)中??紤]擴(kuò)散模型的去噪過(guò)程存在階段性差異,高噪聲階段關(guān)注生成視頻的整體布局,低噪聲階段則更關(guān)注細(xì)節(jié)的完善,萬(wàn)相2.2模型根據(jù)去噪時(shí)間步進(jìn)行了專家模型劃分。

相比傳統(tǒng)架構(gòu),通義萬(wàn)相Wan2.2 MoE在減少計(jì)算負(fù)載的同時(shí)有哪些關(guān)鍵效果提升?業(yè)界首個(gè)使用MoE架構(gòu),團(tuán)隊(duì)主要攻克了哪些難點(diǎn)?

通義萬(wàn)相團(tuán)隊(duì)相關(guān)負(fù)責(zé)人告訴智東西,團(tuán)隊(duì)并不是將語(yǔ)言模型中的MoE直接套用到視頻模型,而是用適配了視頻生成擴(kuò)散模型的MoE架構(gòu)。該架構(gòu)將整個(gè)去噪過(guò)程劃分為高噪聲和低噪聲兩個(gè)階段:在高噪聲階段,模型的任務(wù)是生成視頻大體的輪廓與時(shí)空布局;在低噪聲階段,模型主要是用來(lái)細(xì)化細(xì)節(jié)紋理和局部。每個(gè)階段對(duì)應(yīng)一個(gè)不同的專家模型,從而使每個(gè)專家專注特定的任務(wù)。

“我們的創(chuàng)新點(diǎn)是找到高階噪聲和低噪聲階段的劃分點(diǎn)。不合理的劃分會(huì)導(dǎo)致MoE架構(gòu)的增益效果不足。我們引入了一個(gè)簡(jiǎn)單而有效的新指標(biāo)——信噪比來(lái)進(jìn)行指導(dǎo),根據(jù)信噪比范圍對(duì)高噪和低噪的時(shí)間T進(jìn)行劃分。通過(guò)這種MoE的架構(gòu),我們總參數(shù)量相比于2.1版本擴(kuò)大了一倍,但訓(xùn)練和推理每階段的激活值還是14B,所以整體的計(jì)算量和顯存并沒有顯著增加,效果上是有效地提升了運(yùn)動(dòng)復(fù)雜運(yùn)動(dòng)和美學(xué)的生存能力?!边@位負(fù)責(zé)人說(shuō)。

阿里又開源了!電影級(jí)視頻模型,業(yè)界首用MoE架構(gòu),通義App已上線

▲萬(wàn)相2.2的28B版本由高噪專家模型和低噪專家模型組成

2、數(shù)據(jù)擴(kuò)容提高生成質(zhì)量,支撐與美學(xué)精調(diào)

較上一代萬(wàn)相2.1模型,萬(wàn)相2.2模型的訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)了顯著擴(kuò)充與升級(jí),其中圖像數(shù)據(jù)增加65.6%,視頻數(shù)據(jù)增加83.2%。數(shù)據(jù)擴(kuò)容提升了模型的泛化能力與創(chuàng)作多樣性,使得模型在復(fù)雜場(chǎng)景、美學(xué)表達(dá)和運(yùn)動(dòng)生成方面表現(xiàn)更加出色。

模型還引入了專門的美學(xué)精調(diào)階段,通過(guò)細(xì)粒度地訓(xùn)練,使得視頻生成的美學(xué)屬性能夠與用戶給定的Prompt(提示詞)相對(duì)應(yīng)。

萬(wàn)相2.2模型在訓(xùn)練過(guò)程中融合了電影工業(yè)標(biāo)準(zhǔn)的光影塑造、鏡頭構(gòu)圖法則和色彩心理學(xué)體系,將專業(yè)電影導(dǎo)演的美學(xué)屬性進(jìn)行了分類,并細(xì)致整理成美學(xué)提示詞。

因此,萬(wàn)相2.2模型能夠根據(jù)用戶的美學(xué)提示詞準(zhǔn)確理解并響應(yīng)用戶的美學(xué)需求。訓(xùn)練后期,模型還通過(guò)強(qiáng)化學(xué)習(xí)(RL)技術(shù)進(jìn)行進(jìn)一步的微調(diào),有效地對(duì)齊人類審美偏好。

3、高壓縮比視頻生成,5B模型可部署消費(fèi)級(jí)顯卡

為了更高效地部署視頻生成模型,萬(wàn)相2.2探索了一種模型體積更小、信息下降率更高的技術(shù)路徑。

通義萬(wàn)相Wan2.2開源5B版本消費(fèi)級(jí)顯卡可部署,該設(shè)計(jì)如何平衡壓縮率與重建質(zhì)量?

通義萬(wàn)相團(tuán)隊(duì)相關(guān)負(fù)責(zé)人告訴智東西,為了兼顧性能與部署的便捷性,Wan2.2版本開發(fā)了一個(gè)5B小參數(shù)版。這一版本比2.1版本的14B模型小了一半多。同時(shí)團(tuán)隊(duì)采用了自研高壓縮比VAE結(jié)構(gòu),整體實(shí)現(xiàn)了在特征空間上16×16的高壓縮率,是2.1版本壓縮率(8×8)的四倍,從而顯著降低了顯存占用。

為了解決高壓縮比帶來(lái)的問(wèn)題,團(tuán)隊(duì)在這個(gè)VAE的訓(xùn)練中引入了非對(duì)稱的編碼結(jié)構(gòu)以及殘差采樣機(jī)制;同時(shí)其還增加了這個(gè)隱空間的維度,把原來(lái)的2.1版本的16位增加到了48位。這樣使模型在更大的壓縮率下保持了良好的重建質(zhì)量。

此次開源的5B版本采用了高壓縮比VAE結(jié)構(gòu),在視頻生成的特征空間實(shí)現(xiàn)了視頻高度(H)、寬度(W)與時(shí)間(T)維度上32×32×4的壓縮比,有效減少了顯存占用。5B版本可在消費(fèi)級(jí)顯卡上快速部署,僅需22G顯存即可在數(shù)分鐘內(nèi)生成5秒高清視頻。此外,5B版本實(shí)現(xiàn)了文本生成視頻和圖像生成視頻的混合訓(xùn)練,單一模型可滿足兩大核心任務(wù)需求。

此次開源中,萬(wàn)相2.2也同步公開了全新的高壓縮比VAE結(jié)構(gòu),通過(guò)引入殘差采樣結(jié)構(gòu)和非對(duì)稱編解碼框架,在更高的信息壓縮率下依然保持了出色的重建質(zhì)量。

二、60+專業(yè)參數(shù)引入,實(shí)現(xiàn)電影級(jí)美學(xué)控制

本次,阿里通義萬(wàn)相團(tuán)隊(duì)還推出了“電影級(jí)美學(xué)控制系統(tǒng)”,通過(guò)60+專業(yè)參數(shù)賦能,?將專業(yè)導(dǎo)演的光影、色彩、鏡頭語(yǔ)言裝進(jìn)生成模型。用戶通過(guò)直觀選擇美學(xué)關(guān)鍵詞,即可智能生成電影質(zhì)感的視頻畫面。

許多創(chuàng)作者都遇到過(guò)這樣的難題:明明腦海中有充滿電影感的畫面,如王家衛(wèi)式的霓虹夜晚、諾蘭式的硬核實(shí)景、韋斯·安德森式的對(duì)稱構(gòu)圖,實(shí)際生成的效果卻總差強(qiáng)人意——光線平淡像隨手拍、構(gòu)圖隨意缺乏張力、色調(diào)混亂沒有氛圍。

通義萬(wàn)相團(tuán)隊(duì)認(rèn)為,根本原因在于,真正的電影感源于對(duì)光影、色彩、鏡頭語(yǔ)言三大美學(xué)體系的精密控制。這些專業(yè)能力以往需要多年的學(xué)習(xí)和實(shí)踐才能掌握。Wan2.2的全新功能可以解決這一核心痛點(diǎn)。

智能美學(xué)詞響應(yīng)是系統(tǒng)的核心創(chuàng)新。用戶無(wú)需理解復(fù)雜的電影術(shù)語(yǔ),只需在中文界面選擇想要的美學(xué)關(guān)鍵詞,如黃昏、柔光、側(cè)光、冷色調(diào)、對(duì)稱構(gòu)圖、特寫等,系統(tǒng)將自動(dòng)理解并精確響應(yīng),在后臺(tái)智能調(diào)整燈光屬性、攝像機(jī)參數(shù)、色彩濾鏡等數(shù)十項(xiàng)技術(shù)指標(biāo)。

阿里又開源了!電影級(jí)視頻模型,業(yè)界首用MoE架構(gòu),通義App已上線

三、可生成復(fù)雜運(yùn)動(dòng),強(qiáng)化物理世界還原能力

在文生視頻領(lǐng)域,生成基礎(chǔ)、平緩的動(dòng)作已非難事,但如何生成大幅度、高復(fù)雜度、高細(xì)節(jié)的動(dòng)作,如街舞、體操等,始終是技術(shù)躍遷的關(guān)鍵挑戰(zhàn)。

Wan2.2模型針對(duì)面部表情,手部動(dòng)作,單人、多人交互、復(fù)雜動(dòng)作等方面進(jìn)行了專門優(yōu)化,大幅提升了細(xì)微表情、靈巧手勢(shì)、單人與多人交互、復(fù)雜體育運(yùn)動(dòng)等生成能力。

比如,Wan2.2構(gòu)建了人類面部原子動(dòng)作和情緒表情系統(tǒng)。它不僅能生成如“開懷大笑”、“輕蔑冷笑”、“驚恐屏息”等典型情緒表達(dá),更能細(xì)膩刻畫“羞澀微笑中的臉頰微紅”、“思考時(shí)不經(jīng)意的挑眉”、“強(qiáng)忍淚水時(shí)的嘴唇顫抖”等復(fù)雜微表情,從而精準(zhǔn)傳達(dá)復(fù)雜的人物情緒與內(nèi)心狀態(tài)。

比如,Wan2.2還構(gòu)建了豐富的手部動(dòng)作系統(tǒng),能夠生成從力量傳遞的基礎(chǔ)物理操作、精細(xì)器具交互的復(fù)雜控制,到蘊(yùn)含文化語(yǔ)義的手勢(shì)符號(hào)體系,乃至專業(yè)領(lǐng)域的精密動(dòng)作范式等手部動(dòng)作。

此外值得一提的是,Wan2.2模型針對(duì)多項(xiàng)基礎(chǔ)物理定律與現(xiàn)象進(jìn)行了優(yōu)化。這包括對(duì)力學(xué)、光學(xué)以及流體力學(xué)和常見物理狀態(tài)變化的學(xué)習(xí),力求構(gòu)建高度真實(shí)的物理基礎(chǔ)。

在復(fù)雜動(dòng)態(tài)場(chǎng)景的處理上,Wan2.2專門優(yōu)化了多目標(biāo)生成與交互場(chǎng)景。它能夠穩(wěn)定地生成多個(gè)獨(dú)立物體或角色同時(shí)進(jìn)行的復(fù)雜動(dòng)作及其相互影響。此外,Wan2.2 對(duì)復(fù)雜空間關(guān)系的理解與呈現(xiàn)也得到大幅增強(qiáng),能夠精確理解物體在三維空間中的相對(duì)位置、距離、深度、遮擋的空間結(jié)構(gòu)變化。

結(jié)語(yǔ):突破視頻模型規(guī)模瓶頸,推動(dòng)AI視頻生成專業(yè)化演進(jìn)

Wan2.2首創(chuàng)MoE架構(gòu)視頻生成模型,為突破視頻模型規(guī)模瓶頸提供了新路徑;5B版本大幅降低高質(zhì)量視頻生成門檻,加速生成式AI工具普及。

“電影級(jí)美學(xué)控制”將專業(yè)影視標(biāo)準(zhǔn)體系化融入AI,有望推動(dòng)AI視頻生成工具向更加專業(yè)化的方向發(fā)展,助廣告、影視等行業(yè)高效產(chǎn)出專業(yè)內(nèi)容;其復(fù)雜運(yùn)動(dòng)與物理還原能力的提升,顯著增強(qiáng)了生成視頻的真實(shí)感,為教育、仿真等多領(lǐng)域應(yīng)用奠定基礎(chǔ)。