智東西(公眾號(hào):zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西2月12日?qǐng)?bào)道,千呼萬(wàn)喚始出來(lái),今天午間,字節(jié)跳動(dòng)終于正式發(fā)布其視頻創(chuàng)作模型Seedance 2.0。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

▲Seedance 2.0已正式上線豆包

字節(jié)稱,Seedance 2.0采用統(tǒng)一的多模態(tài)音視頻聯(lián)合生成架構(gòu),支持文字、圖片、音頻、視頻四種模態(tài)輸入,集成了目前業(yè)界最全面的多模態(tài)內(nèi)容參考和編輯能力。該項(xiàng)目的更多的技術(shù)測(cè)評(píng)細(xì)節(jié)及大量案例Demo也隨之公布。

在過(guò)去幾天里,這款在灰度測(cè)試階段的模型已經(jīng)火遍全球。在國(guó)內(nèi),《黑神話·悟空》背后的游戲科學(xué)創(chuàng)始人兼CEO、制作人馮驥盛贊其為“地表最強(qiáng)”,并稱“AIGC的童年時(shí)代,結(jié)束了。”知名導(dǎo)演賈樟柯在昨晚也發(fā)微博稱:“Seedance 2.0確實(shí)厲害,我準(zhǔn)備用它做個(gè)短片。”在各大平臺(tái),網(wǎng)友用Seedance 2.0制作的視頻作品已出現(xiàn)井噴之勢(shì)。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

▲知名導(dǎo)演賈樟柯評(píng)論Seedance 2.0(圖源:新浪微博)

在國(guó)外,a16z的合伙人Justine Moore感嘆“AI視頻模型的圖靈測(cè)試已經(jīng)被攻克了”;就連馬斯克今日也跳出來(lái)贊嘆“事情正快速發(fā)生”,意指技術(shù)發(fā)展太快了;許多電影制作領(lǐng)域?qū)I(yè)人士表示“這個(gè)模型讓人感到害怕”、“所學(xué)習(xí)到的90%技能Seedance2.0都能實(shí)現(xiàn)”。由于該模型在部分國(guó)家和地區(qū)尚未開(kāi)放,甚至不少海外網(wǎng)友費(fèi)盡心思“翻墻”注冊(cè)中國(guó)手機(jī)號(hào)來(lái)體驗(yàn)Seedance2.0。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快 字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

▲馬斯克評(píng)論Seedance 2.0(圖源:社交平臺(tái)X)

Seedance 2.0的爆火頗有當(dāng)年Sora降世時(shí)的沖天態(tài)勢(shì)。而這款模型到底有什么實(shí)質(zhì)性的技術(shù)提升?隨著字節(jié)官方項(xiàng)目細(xì)節(jié)的公布,問(wèn)題也有了更明確答案。

相比1.5版本,Seedance 2.0的生成質(zhì)量大幅提升,其在復(fù)雜交互和運(yùn)動(dòng)場(chǎng)景下的可用率更高,物理準(zhǔn)確度、逼真度、可控性顯著增強(qiáng),更加貼合工業(yè)級(jí)創(chuàng)作場(chǎng)景的需求。

其核心亮點(diǎn)如下:

1、復(fù)雜場(chǎng)景下更高可用率:憑借出色的運(yùn)動(dòng)穩(wěn)定性和物理還原能力,模型在多主體交互和復(fù)雜運(yùn)動(dòng)場(chǎng)景中表現(xiàn)出色,生成可用率達(dá)到業(yè)界SOTA水平。

2、多模態(tài)能力顯著強(qiáng)化:基于統(tǒng)一的多模態(tài)音視頻聯(lián)合架構(gòu)訓(xùn)練,支持混合模態(tài)輸入,允許用戶同時(shí)輸入多達(dá)9張圖片、3段視頻、3段音頻以及自然語(yǔ)言指令,模型可參考輸入素材中的構(gòu)圖、動(dòng)作、運(yùn)鏡、特效、聲音等元素,打破傳統(tǒng)視頻生成的素材邊界。

3、視頻生成可控性大幅提升:模型的指令遵循與一致性表現(xiàn)全面提升,并支持穩(wěn)定可控的視頻延長(zhǎng)、視頻編輯,讓普通用戶也能像導(dǎo)演一樣,輕松掌控視頻創(chuàng)作全流程。

4、深度支持工業(yè)級(jí)內(nèi)容創(chuàng)作:模型支持 15 秒高質(zhì)量多鏡頭音視頻輸出,具備雙聲道音頻能力,可實(shí)現(xiàn)極致擬真的視聽(tīng)效果,配合參考和編輯能力,能大幅降低影視、廣告、電商、游戲等場(chǎng)景的內(nèi)容制作成本。

這與智東西此前在灰度測(cè)試中的一手實(shí)測(cè)體驗(yàn)不謀而合,我們嘗試了從日常場(chǎng)景到超現(xiàn)實(shí)場(chǎng)景的多種創(chuàng)作,發(fā)現(xiàn)模型對(duì)復(fù)雜提示詞的理解能力明顯增強(qiáng),同時(shí)音畫(huà)同步和視覺(jué)效果的呈現(xiàn)也更自然,與前代產(chǎn)品跨代升級(jí)明顯;同時(shí),模型生成目前也會(huì)出現(xiàn)一些細(xì)節(jié)穩(wěn)定性不足、不完全符合物理學(xué)規(guī)律、多人口型匹配欠缺等問(wèn)題。

目前,Seedance 2.0已上線即夢(mèng)AI、豆包、火山方舟體驗(yàn)中心等平臺(tái)。

項(xiàng)目主頁(yè):

https://seed.bytedance.com/seedance2_0

體驗(yàn)入口:
1、即夢(mèng)網(wǎng)頁(yè)端-視頻生成-選擇 Seedance 2.0;
2、豆包 App 對(duì)話框-Seedance2.0-選擇 2.0 模型;
3、火山方舟體驗(yàn)中心-選擇 Doubao-Seedance-2.0。

一、Seedance 2.0評(píng)測(cè)結(jié)果一覽,運(yùn)動(dòng)穩(wěn)定、指令遵循顯著提升

首先來(lái)看看Seedance 2.0評(píng)測(cè)情況,字節(jié)聯(lián)合影視專家構(gòu)建多模態(tài)評(píng)測(cè)體系,聚焦參考生成、指令響應(yīng)、運(yùn)動(dòng)穩(wěn)定、鏡頭語(yǔ)言及音畫(huà)協(xié)同等維度進(jìn)行了模型評(píng)測(cè)。

1、運(yùn)動(dòng)穩(wěn)定、指令遵循提升,細(xì)節(jié)穩(wěn)定及擬真度仍待優(yōu)化

視頻方面,Seedance 2.0在運(yùn)動(dòng)連貫性、指令還原及畫(huà)面質(zhì)感上進(jìn)步顯著,復(fù)雜動(dòng)作細(xì)膩、結(jié)構(gòu)崩壞減少,可精準(zhǔn)呈現(xiàn)大動(dòng)態(tài)場(chǎng)景與微表情,并支持專業(yè)運(yùn)鏡與敘事節(jié)奏。長(zhǎng)腳本響應(yīng)合理,畫(huà)面材質(zhì)、光影與服化道完成度較高。但細(xì)節(jié)穩(wěn)定性、擬真度與動(dòng)態(tài)生動(dòng)性仍有提升空間。

音頻方面,雙聲道音質(zhì)層次豐富,其可依據(jù)提示詞適配音效與旋律,視聽(tīng)協(xié)同更自然,方言、戲曲及演唱場(chǎng)景的指令識(shí)別明顯優(yōu)化。當(dāng)前短板集中于多人口型同步與偶發(fā)音頻失真。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

▲Seedance 2.0文字生成視頻能力評(píng)測(cè)

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

▲Seedance 2.0圖片生成視頻能力評(píng)測(cè)

2、多模態(tài)編輯指令響應(yīng)更完整,多主體一致性待升級(jí)

Seedance 2.0覆蓋更全面的多模態(tài)參考與編輯任務(wù),對(duì)參考內(nèi)容的理解深度和響應(yīng)精度優(yōu)勢(shì)明顯,編輯任務(wù)指令完整度與畫(huà)面真實(shí)感領(lǐng)先競(jìng)品。

其在主體形象、聲音還原及動(dòng)作邏輯、特效風(fēng)格、劇情敘事等方面一致性表現(xiàn)突出,但多主體一致性、文字還原及復(fù)雜編輯效果仍需優(yōu)化。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

▲Seedance 2.0多模態(tài)任務(wù)表現(xiàn)評(píng)測(cè)

二、10大官方案例一覽:多模態(tài)輸入是亮點(diǎn),多人競(jìng)技運(yùn)動(dòng)也能生成

除了測(cè)評(píng)成績(jī),字節(jié)還公布了一大批Seedance 2.0的視頻生成案例。

從這些官方案例可以看到,Seedance 2.0突破前代模型的局限,能實(shí)現(xiàn)多人競(jìng)技等復(fù)雜運(yùn)動(dòng)生成,音頻沉浸感提升,支持多模態(tài)輸入。創(chuàng)作流程更接近導(dǎo)演級(jí)操控,兼具自然度與效率。

1、穩(wěn)定呈現(xiàn)復(fù)雜運(yùn)動(dòng)和交互,真實(shí)還原物理規(guī)律

以雙人花滑為例,模型高保真還原同步起跳、空中轉(zhuǎn)體、落冰等復(fù)雜時(shí)序動(dòng)作,且嚴(yán)格遵循現(xiàn)實(shí)運(yùn)動(dòng)規(guī)律,有效規(guī)避了此前AI視頻常見(jiàn)的物理失真。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

T2V prompt:競(jìng)技級(jí)雙人花樣滑冰現(xiàn)場(chǎng)。開(kāi)場(chǎng)低機(jī)位跟隨冰刀滑行,冰屑與反光細(xì)節(jié)清晰。進(jìn)入旋轉(zhuǎn)段,男選手軸線微偏出現(xiàn)失誤,旋轉(zhuǎn)節(jié)奏短暫塌陷。女選手迅速調(diào)整重心,眼神冷靜并示意“Stay with me”,主動(dòng)引導(dǎo)男選手重新對(duì)齊節(jié)奏。隨后無(wú)縫銜接托舉動(dòng)作,線條干凈穩(wěn)定。高潮為同步跳躍組合,空中姿態(tài)筆直,落冰果斷,音畫(huà)完美對(duì)齊。女選手身著深藍(lán)花滑裙,男選手為競(jìng)技運(yùn)動(dòng)裝。整體呈現(xiàn)從緊張失誤到冷靜完成比賽的完整敘事,體現(xiàn)頂級(jí)雙人花樣滑冰中的技術(shù)能力與心理強(qiáng)度。

在更細(xì)膩的特寫(xiě)鏡頭中,模型精準(zhǔn)還原了光影折射、衣物質(zhì)感重力反饋及人物環(huán)境交互等細(xì)微變化,畫(huà)面細(xì)節(jié)逼真、物理邏輯嚴(yán)密,幾可亂真。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

I2V prompt:女孩優(yōu)雅地曬衣服,曬完接著在桶里拿出另一件,用力抖一抖衣服。

2、支持多模態(tài)“全能參考”,創(chuàng)作自由度大幅提升

Seedance 2.0支持圖文、音視頻等多模態(tài)組合輸入,能精準(zhǔn)解析并調(diào)用其中的構(gòu)圖、運(yùn)鏡、動(dòng)作、音效等元素,甚至可直接遵循文字分鏡生成內(nèi)容,從而拓展創(chuàng)作自由度。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

R2V prompt:@圖片 1 女孩打破次元壁,連續(xù)穿越多幅名畫(huà)世界,保留真實(shí)質(zhì)感,油畫(huà)世界呈現(xiàn) 3D 高飽和度動(dòng)畫(huà)風(fēng)格。她站在 @圖片 2 的旋轉(zhuǎn)星空下神情激動(dòng);接著好奇看著 @圖片 3 的情侶擁抱,情侶不好意思地用被子將頭遮?。浑S后與 @圖片 4 戴珍珠耳環(huán)少女一起自拍;緊接著進(jìn)入 @圖片 5 在兩名武士中間穿過(guò);與 @圖片 6 一起扮鬼臉吶喊;跑到 @圖片 7 蒙娜麗莎身旁,被摸頭貼臉;在 @圖片 8 女人面前轉(zhuǎn)身?yè)Q裝,二人互行禮;隨后與 @圖片 9 中的梵高一起畫(huà)畫(huà);最后背對(duì)鏡頭看夕陽(yáng),隨即轉(zhuǎn)身甜美一笑。對(duì)比度高,電影質(zhì)感,轉(zhuǎn)場(chǎng)絲滑無(wú)縫,人物鮮活。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

R2V prompt:參考 @圖片 1 分鏡頭腳本,參考 @圖片 1 的分鏡、景別、運(yùn)鏡、畫(huà)面和文案,人物角色是 @圖片 2,場(chǎng)景是 @圖片 3,道具是 @圖片 4,創(chuàng)作一段 15s 的治愈片。

3、更強(qiáng)可控性,精準(zhǔn)遵循生成和編輯指令

Seedance 2.0可控性顯著增強(qiáng),對(duì)復(fù)雜腳本的指令還原精準(zhǔn),且能維持主體一致。模型初步具備編導(dǎo)能力,可自主規(guī)劃鏡頭與視覺(jué)模板。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

T2V prompt:馬年新春家庭影像,像翻閱相冊(cè)般快速掃過(guò)一排家庭成員單人照,每張照片在鏡頭掠過(guò)的瞬間“活過(guò)來(lái)”:爺爺、奶奶、父母及孩子伴隨微表情做出一組專屬動(dòng)作(如發(fā)紅包、舉玩偶、貓咪搖鈴)。不同人物間通過(guò)快速平移像翻頁(yè)般連貫銜接。隨著背景中紅燈籠與春聯(lián)動(dòng)態(tài)點(diǎn)亮,畫(huà)面最終匯聚成一張熱鬧的全家福合照,全員全員齊喊“馬年團(tuán)圓,馬上有福”。音效同步配合歡笑聲,氛圍由溫馨轉(zhuǎn)為歡騰,光影自然流動(dòng)。

Seedance 2.0新增視頻編輯功能,支持定向修改片段、角色、動(dòng)作或劇情,并可按提示延長(zhǎng)視頻、生成連貫鏡頭,實(shí)現(xiàn)從“生成”到“續(xù)拍”。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

R2V Prompt:延長(zhǎng)視頻,鏡頭跟拍騎棕馬的橙衣男人,他加快速度跑到前方一棵開(kāi)著橙色花朵的大樹(shù)前,將樹(shù)枝上的兩朵花折下,隨后其他人也陸續(xù)騎著馬跑進(jìn)鏡頭內(nèi)。鏡頭推進(jìn)拍攝這個(gè)橙衣男人翻身下馬,鏡頭快速環(huán)繞他,他轉(zhuǎn)身走向騎著白馬的白衣女子,將花獻(xiàn)給白衣女子。中國(guó)風(fēng)仕女圖風(fēng)格,3D,歡快民樂(lè),皮影風(fēng)格,黑白橙色為主調(diào)。

4、雙聲道音頻能力,高仿真沉浸音效同步生成

Seedance 2.0音頻能力升級(jí),采用雙聲道立體聲技術(shù),支持背景樂(lè)、環(huán)境音、解說(shuō)等多軌并行輸出,音效高保真、沉浸感強(qiáng),并與畫(huà)面節(jié)奏精準(zhǔn)對(duì)齊。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

T2V prompt:武俠風(fēng)格視聽(tīng)大片,竹林里白衣劍客與蓑衣刀客對(duì)峙。鏡頭在兩人之間緩慢推移,焦點(diǎn)在雨滴和劍柄之間切換,氣氛壓抑到極點(diǎn),只能聽(tīng)見(jiàn)雨聲。突然一道驚雷閃過(guò),兩人同時(shí)沖鋒,側(cè)拍鏡頭極速平移,捕捉泥漿飛濺的腳步。雙兵相接瞬間畫(huà)面切換為極慢動(dòng)作,清晰展示刀劍震飛雨水形成的圓環(huán)激波,以及被劍氣切斷的竹葉。隨后恢復(fù)常速兩人背對(duì)背落地,蓑衣刀客的斗笠裂開(kāi),畫(huà)面戛然而止。

模型音效高度擬真,其可細(xì)膩還原玻璃輕刮、織物揉搓等細(xì)微聲響,沉浸感強(qiáng)。音畫(huà)時(shí)序嚴(yán)格同步,滿足專業(yè)視聽(tīng)創(chuàng)作要求。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

T2V prompt:沉浸式第一視角手部 ASMR 視頻。近景特寫(xiě)鏡頭,暖黃柔光下,一雙纖細(xì)的手依次輕輕觸發(fā)不同物品:磨砂玻璃輕刮聲、毛絨織物揉搓聲、亞克力板輕敲聲、氣泡紙輕捏聲、木質(zhì)梳子梳齒輕劃聲。手指動(dòng)作緩慢輕柔,無(wú)背景音樂(lè)純自然觸發(fā)音,畫(huà)面氛圍松弛治愈。

5、全場(chǎng)景廣泛適配,降低專業(yè)內(nèi)容制作門(mén)檻

Seedance 2.0場(chǎng)景適配能力強(qiáng),覆蓋商業(yè)廣告、影視特效、游戲動(dòng)畫(huà)等多領(lǐng)域。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

I2V prompt:畫(huà)中人物心虛,眼睛左右看了看探出畫(huà)框,快速地將手伸出畫(huà)框拿起可樂(lè)喝了一口,并露出一臉滿足的表情。這時(shí)傳來(lái)腳步聲,畫(huà)中的人物趕緊將可樂(lè)放回原位,此時(shí)一位西部牛仔拿起杯子里的可樂(lè)走了。結(jié)尾鏡頭推進(jìn)至純黑背景下的頂光可樂(lè)特寫(xiě),畫(huà)面最下方出現(xiàn)藝術(shù)感字幕和旁白:“宜口可樂(lè),不可不嘗!”。

字節(jié)Seedance 2.0正式發(fā)布!評(píng)測(cè)全面碾壓,馬斯克驚呼發(fā)展太快

T2V prompt:20 年代爵士俱樂(lè)部風(fēng)格的查爾斯頓舞。身著金色流蘇裙的女舞者與穿條紋西裝的男舞者進(jìn)行高強(qiáng)度表演。動(dòng)作包含極速切分音步法、空中拋接與大幅度擺臂。鏡頭采用動(dòng)態(tài)跟隨拍攝,穿插足部特寫(xiě)動(dòng)作。重點(diǎn)表現(xiàn)流蘇隨每一次踢腿瘋狂甩動(dòng)的物理細(xì)節(jié)、皮膚上的汗水光澤以及煙霧繚繞的復(fù)古膠片顆粒電影質(zhì)感。背景爵士樂(lè)隊(duì)與歡呼觀眾烘托出狂熱的派對(duì)氛圍。

結(jié)語(yǔ):AI視頻生成從“玩具”走向“工具”

隨著Seedance 2.0發(fā)布,AI視頻生成正加速?gòu)摹巴婢摺毕颉肮ぞ摺蓖瓿申P(guān)鍵一躍。產(chǎn)業(yè)層面,其統(tǒng)一多模態(tài)架構(gòu)與工業(yè)級(jí)可控性試圖擊穿影視、廣告、電商等內(nèi)容生產(chǎn)的高成本壁壘。正如馮驥所說(shuō),AIGC的“童年時(shí)代”確已結(jié)束,賽道競(jìng)爭(zhēng)正從參數(shù)競(jìng)賽轉(zhuǎn)向場(chǎng)景落地。

從Seedance 1.5的“音畫(huà)一體同步生成”,到 Seedance 2.0 的“統(tǒng)一多模態(tài)音視頻聯(lián)合生成”,字節(jié)在新版本中解決了物理規(guī)律遵循及長(zhǎng)效一致性的難題,同時(shí)也賦予創(chuàng)作者更高的自由度。同時(shí),字節(jié)團(tuán)隊(duì)稱Seedance 2.0也仍未達(dá)到完美,其生成結(jié)果在細(xì)節(jié)穩(wěn)定性、擬真度及動(dòng)態(tài)生動(dòng)性、物理規(guī)律遵循、多人口型匹配等方面仍有優(yōu)化進(jìn)步的空間。