智東西(公眾號:zhidxcom)
作者 | ?陳家陽
編輯 | ?漠影

智東西4月18日消息,通義萬相首尾幀生視頻模型Wan2.1-FLF2V-14B昨日宣布開源,用戶僅需上傳兩張照片作為首幀和尾幀,就能得到一段5秒720p的高清視頻。

該模型還可以開啟靈感模式,通過AI智能擴寫對視頻創(chuàng)意進行描述,提升畫面豐富度與表現(xiàn)力,從而滿足用戶更可控、更個性化的視頻生成需求。

用戶當前可以登陸通義萬相官網(wǎng)免費體驗新發(fā)布的首尾幀生視頻模型,也能到 Github、Hugging Face或魔搭社區(qū)(Modelscope)下載該模型進行二次開發(fā),解鎖更多創(chuàng)意可能。

此外,憑借14B的參數(shù)量,該模型成為全球首個百億參數(shù)規(guī)模的開源首尾幀生視頻模型。

體驗地址:https://tongyi.aliyun.com/wanxiang/

開源地址:

1.Github:https://github.com/Wan-Video/Wan2.1

2.Hugging Face:https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P

3.魔搭社區(qū):https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

一、細節(jié)處理、情感表達、各種運鏡,都不在話下

通義萬相在官方公眾號推文中放出了幾個新鮮的演示案例,展示出新模型出色的工作能力。

阿里開源通義萬相2.1首尾幀生視頻模型

▲提示詞:“黑暗的環(huán)境,一群人站成一列,背對鏡頭,站在一束光前,鏡頭上移,俯拍出光源全貌?!?/p>

阿里開源通義萬相2.1首尾幀生視頻模型

該模型可以真實地還原物理規(guī)律,在光源出現(xiàn)時,地面上的人影會隨著光束移動而發(fā)生變化。

在復雜的動態(tài)場景中,通義萬相首尾幀生視頻模型也能做到對內(nèi)容細節(jié)進行高精度處理。比如女孩的衣服會隨著跑步時的肢體動作而出現(xiàn)褶皺、深褐色的頭發(fā)在光線影響下不時變換顏色等,讓視頻看上去更加逼真。

阿里開源通義萬相2.1首尾幀生視頻模型

▲提示詞:“寫實風格,一個身穿粉色運動服的女生在城市街道中跑步,鏡頭先特寫女生的臉部,然后記錄下女生轉(zhuǎn)過街角向前跑去的背影?!?/p>

阿里開源通義萬相2.1首尾幀生視頻模型

當生成首尾幀銜接畫面時,通義萬相首尾幀生視頻模型能夠根據(jù)不同運鏡方式對視頻場景進行豐富和完善。

阿里開源通義萬相2.1首尾幀生視頻模型

▲提示詞:“漫畫風格,黑暗中,一個男人正在看向一束光,鏡頭逐漸拉遠,展現(xiàn)出四周都是樓梯的環(huán)境全貌?!?/p>

阿里開源通義萬相2.1首尾幀生視頻模型

通義萬相首尾幀生視頻模型也可以滿足用戶對視頻情感表達的訴求。

阿里開源通義萬相2.1首尾幀生視頻模型

▲提示詞:“卡通風格,一個打著紅色雨傘的藍色卡通人物站在雨中。它的眼神充滿憂郁。”

阿里開源通義萬相2.1首尾幀生視頻模型

此外,通義萬相首尾幀生視頻模型可以自主優(yōu)化提術(shù)語指令,幫助創(chuàng)作者快速生成創(chuàng)意視頻,降低使用門檻,使更多用戶能夠輕松生成高質(zhì)量的視頻內(nèi)容。

二、通義萬相2.1首尾幀生視頻模型是如何訓練的

Wan2.1系列模型均采用DiT(Diffusion in Transformer)架構(gòu),將擴散模型的生成能力與Transfomer模型的特征提取和長序列處理能力相結(jié)合,并通過VAE視頻壓縮讓視頻生成過程兼顧清晰度和工作效率。

Wan2.1還借助Full Attension機制,使得生成視頻在時間和空間上都具有很高的一致性,不會出現(xiàn)時間上動作跳躍、不連貫,或者空間上物體異位、形態(tài)變化不合理等情況。

阿里開源通義萬相2.1首尾幀生視頻模型

▲通義萬相模型結(jié)構(gòu)圖

在Wan2.1系列模型的基礎(chǔ)架構(gòu)上,通義萬相首尾幀生視頻模型新增了條件控制分支,以用戶上傳的首、尾幀照片作為控制條件,實現(xiàn)了視頻從首幀到尾幀絲滑準確的過渡效果。

此外,該模型還提取了首幀和尾幀的CLIP語義特征,并將處理結(jié)果反饋到DiT的生成過程中,保證模型生成首尾幀銜接畫面時的穩(wěn)定性。

阿里開源通義萬相2.1首尾幀生視頻模型

▲通義萬相首尾幀生視頻模型架構(gòu)圖

在訓練和推理階段,通義萬相首尾幀生視頻模型采用了線性噪聲軌跡的流匹配(Flow Matching)方法,用于處理噪聲和優(yōu)化視頻生成過程,使高精度的視頻切片訓練成為可能。

為在有限內(nèi)存下支持高清視頻推理,通義萬相首尾幀生視頻模型使用了模型切分策略和序列并行策略。通過多種優(yōu)化在保證推理效果無損的同時,大幅縮短了推理時間。

通義萬相首尾幀生視頻模型的訓練過程總共經(jīng)歷了三個階段,從480p分辨率下的混合任務(wù)訓練,到針對首尾幀生成能力的專項優(yōu)化,最后在720p分辨率下完成高精度訓練。

結(jié)語:首尾幀生視頻模型為使用者提供更多創(chuàng)作自由度

相較于文生視頻和單圖生視頻,首尾幀生視頻具有更強的可控性,用戶可以自主決定開頭和結(jié)尾畫面,并通過提示詞指令對生成內(nèi)容進行描述。

但這無疑提高了訓練首尾幀生視頻模型的難度,既要實現(xiàn)畫面從首幀到尾幀的流暢銜接,又要滿足視頻本身的質(zhì)感和自然表現(xiàn)。

通義萬相首尾幀生視頻模型不僅可以實現(xiàn)對圖像細節(jié)的高精度處理,還能生成和諧自然的動作視頻,展現(xiàn)出了強大的技術(shù)優(yōu)勢和創(chuàng)新性,開源后將為圖生視頻領(lǐng)域帶來更多價值。