智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 心緣

智東西10月27日報道,10月25日,美團開源了其首款視頻生成大模型——LongCat-Video。該模型面向多任務(wù)視頻生成場景,旨在以統(tǒng)一架構(gòu)支持文生視頻、圖生視頻以及視頻續(xù)寫三種能力。

不同于以往針對單一任務(wù)訓(xùn)練的模型,LongCat-Video通過多任務(wù)聯(lián)合訓(xùn)練機制,在同一框架內(nèi)即可處理零幀、單幀及多幀條件輸入。

此外,LongCat-Video重點突破了長視頻生成難題。相比常見模型在長時序生成中易出現(xiàn)的畫面漂移、色彩偏移等問題,該模型通過在視頻續(xù)寫任務(wù)上的原生預(yù)訓(xùn)練,能夠持續(xù)生成數(shù)分鐘視頻內(nèi)容,同時保持較高的時間一致性與視覺穩(wěn)定性。

美團首個視頻大模型開源!速度暴漲900%

在推理效率方面,LongCat-Video借鑒了近年來的高效生成方法,采用“粗到細(xì)”兩階段生成策略:先生成480p、15fps的視頻,再細(xì)化至720p、30fps,并結(jié)合塊稀疏注意力機制和模型蒸餾,顯著降低了高分辨率生成的計算開銷,視頻生成的推理速度提升到原來的10.1倍,提速幅度超900%。

在后訓(xùn)練階段,團隊引入多獎勵強化學(xué)習(xí)(RLHF)優(yōu)化方案,利用組相對策略優(yōu)化(GRPO)方法綜合多維度獎勵信號,進一步提升模型在多樣化任務(wù)下的表現(xiàn)。

美團已在多項公開與內(nèi)部測評中將LongCat-Video與其他視頻生成大模型進行了比較。在VBench公開基準(zhǔn)測試中,LongCat-Video總得分僅次于Veo3和Vidu Q1。值得注意的是,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,也超過了Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora等閉源模型。

美團首個視頻大模型開源!速度暴漲900%

目前,美團LongCat-Video已同步開放代碼、模型權(quán)重及關(guān)鍵模塊,模型技術(shù)報告也已經(jīng)發(fā)布。

項目主頁:

https://meituan-longcat.github.io/LongCat-Video/

模型地址:

https://huggingface.co/meituan-longcat/LongCat-Video

技術(shù)報告:

https://github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf

一、三步走打造高質(zhì)量訓(xùn)練數(shù)據(jù),整體壓縮率高達4×16×16倍

美團認(rèn)為,“世界模型”(World Model)已成為通往下一代智能的核心引擎。作為能夠建模物理規(guī)律、時空演化與場景邏輯的智能系統(tǒng),世界模型賦予AI“看見”世界運行本質(zhì)的能力。

而視頻生成模型有望成為構(gòu)建世界模型的關(guān)鍵路徑——通過視頻生成任務(wù)壓縮幾何、語義、物理等多種形式的知識,AI得以在數(shù)字空間中模擬、推演乃至預(yù)演真實世界的運行。

為打造LongCat-Video,美團LongCat團隊首先在數(shù)據(jù)層面構(gòu)建了一套數(shù)據(jù)處理與標(biāo)注體系。

首先在數(shù)據(jù)預(yù)處理階段,通過多源視頻采集、去重、鏡頭切分及黑邊裁剪,確保視頻片段質(zhì)量與多樣性。

隨后在數(shù)據(jù)標(biāo)注階段,為視頻添加時長、分辨率、美學(xué)分?jǐn)?shù)、動態(tài)信息等多維度屬性,并建立元數(shù)據(jù)數(shù)據(jù)庫以支持靈活數(shù)據(jù)篩選。團隊還基于LLaVA-Video與Qwen2.5VL等模型進行視頻內(nèi)容、鏡頭語言及視覺風(fēng)格標(biāo)注,并通過中英雙語翻譯與摘要生成實現(xiàn)文本增強。

最終,通過文本嵌入聚類對視頻內(nèi)容進行無監(jiān)督分類與均衡優(yōu)化,為模型訓(xùn)練提供高質(zhì)量、多樣化的視頻數(shù)據(jù)基礎(chǔ)。

美團首個視頻大模型開源!速度暴漲900%

在模型架構(gòu)層面,LongCat-Video采用了基于Diffusion Transformer(擴散Transformer)的單流三維結(jié)構(gòu),這一設(shè)計融合了擴散模型的生成能力與Transformer的長時序建模優(yōu)勢。

每個Transformer模塊都包含三維自注意力層、跨模態(tài)注意力層以及帶SwiGLU激活的前饋網(wǎng)絡(luò),并通過RMSNorm與QKNorm保證訓(xùn)練穩(wěn)定性。

模型使用了3D RoPE位置編碼來捕捉時間與空間的信息關(guān)系,同時引入AdaLN-Zero機制以提升任務(wù)間的調(diào)制能力。

在輸入數(shù)據(jù)層面,美團團隊借助WAN2.1模型的VAE將視頻像素壓縮成潛空間token,使視頻數(shù)據(jù)能以更緊湊的形式參與建模,整體壓縮率高達4×16×16倍;文本輸入則由umT5多語言編碼器處理,支持中英文雙語,進一步提升了模型的通用性。

美團首個視頻大模型開源!速度暴漲900%

二、靠“統(tǒng)一任務(wù)框架”一次訓(xùn)出三種能力,稀疏注意力讓推理效率猛增超900%

LongCat-Video采用了三階段的訓(xùn)練流程。模型以Flow Matching框架取代傳統(tǒng)擴散過程,通過預(yù)測噪聲到真實視頻潛變量的速度場提升訓(xùn)練穩(wěn)定性與效率。

訓(xùn)練采用漸進式預(yù)訓(xùn)練策略,從低分辨率圖像到高分辨率多任務(wù)視頻逐步學(xué)習(xí),實現(xiàn)“從靜態(tài)到動態(tài)”的能力積累,并結(jié)合尺寸桶機制優(yōu)化算力利用。

隨后在監(jiān)督微調(diào)階段,模型利用高質(zhì)量、多樣化數(shù)據(jù)集進行精調(diào),強化視覺美學(xué)、運動流暢度與指令理解。

最后通過基于組相對策略優(yōu)化的強化學(xué)習(xí)引入人類偏好優(yōu)化,進一步提升語義一致性與視頻質(zhì)量。

在訓(xùn)練LongCat-Video的過程中,美團LongCat團隊在任務(wù)設(shè)計上進行了創(chuàng)新,這也是LongCat-Video能在單一模型內(nèi)統(tǒng)一文生視頻、圖生視頻和續(xù)寫視頻三類任務(wù)的原因。

美團LongCat團隊沒有為不同的視頻生成任務(wù)單獨設(shè)計模型,而是通過“統(tǒng)一任務(wù)框架”讓三種任務(wù)共用同一套網(wǎng)絡(luò)。模型通過識別輸入中“條件幀”的數(shù)量自動判斷任務(wù)類型:當(dāng)輸入為零幀時執(zhí)行文本生成視頻,一幀時執(zhí)行圖像生成視頻,多幀時則執(zhí)行視頻續(xù)寫。

這種機制不僅大幅降低了模型復(fù)雜度,也讓不同任務(wù)之間共享特征空間與訓(xùn)練經(jīng)驗,從而提升整體表現(xiàn)。

為進一步提高長視頻生成的效率,模型在注意力機制上設(shè)計了可緩存的鍵值特征,使條件幀的表示可以在采樣過程中重復(fù)使用,減少了冗余計算。這種機制尤其適合長視頻生成,因為它能在保持一致性的同時顯著降低計算開銷。

強化學(xué)習(xí)部分是LongCat-Video提升生成質(zhì)量的關(guān)鍵環(huán)節(jié)。美團團隊基于組相對策略優(yōu)化方法進行了多重改進,使其適配視頻擴散任務(wù)。傳統(tǒng)的GRPO在視頻生成中容易出現(xiàn)獎勵信號不穩(wěn)定和時間歸因模糊的問題,團隊通過固定隨機時間步、引入再加權(quán)損失函數(shù)以及最大標(biāo)準(zhǔn)差歸一化機制,有效解決了這些訓(xùn)練瓶頸。

美團首個視頻大模型開源!速度暴漲900%

▲LongCat-Video采用的GRPO方法與基線的生成效果對比

在獎勵模型設(shè)計上,LongCat-Video采用了三重獎勵體系,分別評估視頻的視覺質(zhì)量、運動質(zhì)量和文本一致性。視覺質(zhì)量由HPSv3模型打分,衡量畫面美感與細(xì)節(jié);運動質(zhì)量通過VideoAlign模型評估,確保動作自然流暢;文本一致性則檢驗生成視頻與輸入提示語的語義契合度。

這種多維度的獎勵設(shè)計讓模型在強化學(xué)習(xí)階段能夠平衡地提升表現(xiàn),避免過度優(yōu)化單一指標(biāo)而導(dǎo)致畫面僵化或運動失真。

在高效推理方面,LongCat-Video通過一系列工程創(chuàng)新顯著提升了生成速度與分辨率。團隊采用“粗到細(xì)”的生成策略,先快速生成低分辨率、低幀率的視頻,再由LoRA微調(diào)的精化模塊進行高清復(fù)原,最終可輸出720p、30幀的成片。

與此同時,LongCat-Video引入塊稀疏注意力(Block Sparse Attention)機制,僅計算最相關(guān)的10%注意力塊,將計算成本降至傳統(tǒng)方法的十分之一,幾乎不損失生成質(zhì)量。

這些優(yōu)化使得LongCat-Video在單卡H800 GPU上幾分鐘內(nèi)即可生成一分鐘長的視頻。再結(jié)合一致性模型蒸餾與分類器自由引導(dǎo)(CFG)蒸餾技術(shù),采樣步數(shù)從傳統(tǒng)的50步縮減至16步,推理效率提升至原來的10倍。

美團首個視頻大模型開源!速度暴漲900%

▲LongCat-Video在不同設(shè)置上的推理速度對比

三、多領(lǐng)域測評比肩Veo3,常識理解能力突出

美團LongCat團隊分享了LongCat-Video的多個生成案例。

文生視頻任務(wù)中,LongCat-Video可以根據(jù)提示詞準(zhǔn)確還原不少腦洞大開的畫面,下方案例還顯示出其可能具備風(fēng)格轉(zhuǎn)繪的能力。

美團首個視頻大模型開源!速度暴漲900%

前段時間最火的AI視頻類型——切水果,LongCat-Video也能制作,不過并沒有音效,缺少了一些靈魂。

LongCat-Video原生支持輸出5分鐘級別的長視頻,不過在長時序的任務(wù)上,還是能看到一些“穿幫鏡頭”。例如,下圖人物跳芭蕾的過程中,其肢體在某些大幅度動作的場景中顯得并不自然。

有趣的是,美團分享了LongCat-Video生成行車記錄儀畫面和機器人靈巧手操作畫面的兩個案例。此類畫面或許可以作為合成數(shù)據(jù),用于自動駕駛汽車與機器人的訓(xùn)練。

美團首個視頻大模型開源!速度暴漲900%

在內(nèi)部評測體系中,美團構(gòu)建了一套覆蓋文本生成視頻與圖像生成視頻兩大核心任務(wù)的基準(zhǔn),評估維度包括文本對齊、視覺質(zhì)量、運動質(zhì)量與總體表現(xiàn),并在圖生視頻任務(wù)中額外增加了圖像一致性指標(biāo)。

為確保評測的科學(xué)性,團隊采用人工與自動雙軌評估機制,其中人工評價分為絕對打分與相對偏好兩種方式,所有樣本均由多名標(biāo)注員獨立評分,最終通過加權(quán)平均得出結(jié)果。

自動評測部分則由內(nèi)部訓(xùn)練的多模態(tài)“判官模型”完成,與人工結(jié)果的相關(guān)性高達0.92,保證了客觀性。

評測結(jié)果顯示,LongCat-Video在文生視頻任務(wù)的四個核心指標(biāo)中,視覺質(zhì)量得分幾乎與谷歌的Veo3持平,整體質(zhì)量超越了PixVerse-V5和國內(nèi)領(lǐng)先的開源模型Wan2.2。

美團首個視頻大模型開源!速度暴漲900%

在運動質(zhì)量方面,LongCat-Video生成的視頻動作流暢、鏡頭移動自然,展現(xiàn)出較強的物理合理性。在文本對齊度上,LongCat-Video表現(xiàn)略差于Veo3。

在圖生視頻任務(wù)中,LongCat-Video畫面細(xì)節(jié)豐富、風(fēng)格真實,但在圖像一致性和動作連貫性上仍有改進空間。技術(shù)報告認(rèn)為,模型在處理高精度參考幀時對細(xì)節(jié)的保持較為謹(jǐn)慎,這在視覺質(zhì)量上帶來加分,卻略微影響了動態(tài)平滑度。

美團首個視頻大模型開源!速度暴漲900%

在公開評測平臺VBench 2.0上,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,總分達到62.11%,僅次于谷歌Veo 3與生數(shù)Vidu Q1等商用閉源模型。

美團首個視頻大模型開源!速度暴漲900%

結(jié)語:美團探索世界模型,或與機器人、無人車業(yè)務(wù)產(chǎn)生協(xié)同效應(yīng)

美團稱,LongCat-Video是其開發(fā)世界模型的第一步。高效的長視頻生成能解決世界模型中的渲染問題,使模型能夠通過生成的視頻內(nèi)容表達其對世界的認(rèn)知。

未來,美團計劃在視頻生成中更好地建模物理知識,集成多模態(tài)記憶,融入大語言模型(LLM)和多模態(tài)大模型(MLLM)的知識。在美團分享的演示視頻中,LongCat-Video能較為準(zhǔn)確地輸出機器人操作、汽車駕駛等畫面,這或許預(yù)示著這款模型,有望與美團在機器人、自動駕駛(無人車)領(lǐng)域的業(yè)務(wù)布局產(chǎn)生一定的協(xié)同效應(yīng)。