智東西(公眾號(hào):zhidxcom)
作者 | 陳駿達(dá)
編輯 | 李水青

智東西2月11日?qǐng)?bào)道,今天,陸續(xù)有不少用戶發(fā)現(xiàn),字節(jié)跳動(dòng)已在旗下AI助手App豆包內(nèi)開啟視頻生成模型Seedance 2.0的灰度測(cè)試。

用戶只需打開豆包,點(diǎn)擊下方的創(chuàng)作按鈕,進(jìn)入視頻生成功能后,已被納入灰度測(cè)試的用戶就可看到模型2.0(Seedance 2.0)的選項(xiàng)

Seedance 2.0殺入豆包!海外網(wǎng)友翻墻跪求,國內(nèi)用戶免費(fèi)用,附一手實(shí)測(cè)

自2月7日在即夢(mèng)等平臺(tái)灰度上線以來,Seedance 2.0就讓整個(gè)AI視頻圈炸了鍋。

《黑神話·悟空》背后的游戲科學(xué)創(chuàng)始人兼CEO、制作人馮驥在體驗(yàn)后Seedance2.0后,盛贊該模型為“地表最強(qiáng)”,并判斷道:AIGC的童年時(shí)代,結(jié)束了?!盿16z的合伙人Justine Moore則感嘆道:“AI視頻模型的圖靈測(cè)試已經(jīng)被攻克了?!币晃粚W(xué)習(xí)了7年數(shù)字電影制作的網(wǎng)友在體驗(yàn)后說,這個(gè)模型讓他感到害怕,他所學(xué)習(xí)到的90%技能,Seedance2.0都能實(shí)現(xiàn)。

過去,往往是國內(nèi)用戶費(fèi)盡心思去體驗(yàn)國外的AI工具,而這次,Seedance 2.0作反而成為海外網(wǎng)友“爭(zhēng)相體驗(yàn)”的對(duì)象。

由于該模型在部分國家和地區(qū)尚未開放,不少海外網(wǎng)友在社交平臺(tái)頻頻“催上線”、詢問開放時(shí)間;還有人專門制作了詳細(xì)教程,分享如何通過中國手機(jī)號(hào)完成注冊(cè),并一步步體驗(yàn)Seedance 2.0的完整流程。

Seedance 2.0殺入豆包!海外網(wǎng)友翻墻跪求,國內(nèi)用戶免費(fèi)用,附一手實(shí)測(cè)

Seedance 2.0上線豆包App后,智東西也第一時(shí)間進(jìn)行了體驗(yàn)。我們嘗試了從日常場(chǎng)景到超現(xiàn)實(shí)場(chǎng)景的多種創(chuàng)作,發(fā)現(xiàn)模型對(duì)復(fù)雜提示詞的理解能力明顯增強(qiáng),同時(shí)音畫同步和視覺效果的呈現(xiàn)也更自然,較字節(jié)的上一代視頻生成模型,實(shí)現(xiàn)了可感知的大幅提升。

一、實(shí)測(cè)長(zhǎng)提示詞指令遵循,高難度樂器演奏、超現(xiàn)實(shí)場(chǎng)景也能還原

據(jù)字節(jié)官方技術(shù)文檔,Seedance 2.0在物理規(guī)律、動(dòng)作表現(xiàn)、指令遵循等領(lǐng)域均有明顯提升,還支持了圖像、視頻、音頻、文本四種模態(tài)輸入,這意味著用戶能以更多的方式控制模型的輸出,滿足創(chuàng)作需求。

不過,目前在豆包App中,Seedance 2.0暫時(shí)僅支持文本和圖像兩個(gè)模態(tài)的輸入。每個(gè)用戶每天可以獲得200視頻生成積分,而用Seedance 2.0生成一個(gè)10秒的視頻,需要耗費(fèi)20積分,也就是說每個(gè)人可以體驗(yàn)10次。

我們的首個(gè)測(cè)試案例是長(zhǎng)文本提示詞輸入,下方提示詞精確定義了畫面里的主體、動(dòng)作以及音效,看看Seedance 2.0能否準(zhǔn)確還原。

提示詞:突然,前方街角的陰影里,一只漆黑的貓像一道閃電般竄出,身形輕盈而敏捷。女孩被嚇得微微后退一步,雨水順著帽沿落在她的肩膀上,濺起一圈細(xì)小水花。鏡頭側(cè)面緩緩跟隨,捕捉她的手伸出,試圖輕輕觸碰黑貓。貓的耳朵微微豎起,眼睛在昏黃路燈下閃著綠光,它輕巧地一躍,仿佛帶著夜色消失在濕漉漉的街道深處。

女孩愣了一秒,低頭看著自己微濕的手指,嘴角悄悄上揚(yáng),露出一絲忍俊不禁的笑意。她輕輕搖搖頭,雨傘下的臉被燈光映出溫暖的光暈。隨后,她重新調(diào)整步伐,撐開雨傘,加快了前行的腳步,雨水拍打傘面的聲音伴隨著她鞋底濺起的水花,融入夜晚街道的喧囂中。

音效提示詞:貓叫聲輕響,隨即消失;雨點(diǎn)拍打傘面滴答作響;遠(yuǎn)處偶爾傳來汽車轟鳴聲和腳步聲,街道彌漫濕潤(rùn)氣息。

在大約等待了30秒后,豆包向我們發(fā)送了生成結(jié)果。提示詞中描述的幾個(gè)關(guān)鍵動(dòng)作都在視頻中得到了呈現(xiàn),同時(shí),畫面中人物的衣著、樣貌在不同的鏡頭中都保持了一致,視覺效果比較穩(wěn)定。

音效方面,Seedance 2.0的配音與畫面內(nèi)容調(diào)性一致,而像是貓叫聲、腳步聲這些聲音則與畫面內(nèi)容匹配,基本實(shí)現(xiàn)了音畫同步。

美中不足的是,對(duì)于“雨水順著帽沿落在她的肩膀上”這部分的描述,Seedance 2.0未能還原。平心而論,液體的渲染對(duì)大多數(shù)視覺生成模型來說還是較為困難的。

緊接著,我們又嘗試了一個(gè)涉及音畫同步的高難度場(chǎng)景:樂器演奏。此前,在我們的體驗(yàn)中,大部分視頻模型都無法準(zhǔn)確地將音樂與畫面的演奏動(dòng)作同步,要么節(jié)奏對(duì)不上,要么手指動(dòng)作與音符不符,要么整體演奏顯得生硬、不自然。

Seedance 2.0拿到的提示詞如下:

街頭音樂表演,鼓手敲擊節(jié)奏、吉他手彈奏旋律,觀眾隨節(jié)奏輕拍手,音樂是拉美風(fēng)格。

Seedance 2.0的生成結(jié)果可以說是較為驚艷的,在音樂風(fēng)格上,它滿足了我們的“拉美風(fēng)格”限定詞,背景中的人物、建筑風(fēng)格也符合拉美風(fēng)的要求。

樂器演奏方面,鼓手的桶鼓輪奏動(dòng)作與音樂的鼓點(diǎn),基本達(dá)到了8成的契合度,這要比我們之前測(cè)試的字節(jié)視頻生成模型好得多。

而在吉他手的演奏中,畫面中手部按壓的和弦和視頻里模型生成的音樂也是基本契合的,左右手的手法都是自然、連貫且細(xì)節(jié)豐富,琴弦撥動(dòng)與音符節(jié)奏高度對(duì)應(yīng)。

細(xì)看還可以注意到,背景中觀眾拍手的動(dòng)作和視頻里的聲音是精準(zhǔn)卡點(diǎn)的。

我們的最后一個(gè)純文本提示詞考察的是一個(gè)超現(xiàn)實(shí)場(chǎng)景,這種場(chǎng)景在模型訓(xùn)練數(shù)據(jù)里可能分布較少,考察的是對(duì)罕見視覺元素、超現(xiàn)實(shí)組合和非日常場(chǎng)景的生成能力。

畫面開場(chǎng)是一座夜晚的城市,全景俯拍,城市燈光閃爍,街道像河流般流動(dòng)。隨后,鏡頭慢慢拉近,出現(xiàn)幾棟建筑緩緩離地漂浮,建筑底部閃爍著微光能量??罩衅〉钠囅耵~群般游動(dòng),偶爾從建筑間穿梭而過。主角是一位身穿銀色風(fēng)衣的少年,腳下踩著懸浮板,從高樓之間穿行而過。

鏡頭切換至近景,少年伸手觸碰漂浮的建筑,觸碰瞬間建筑表面出現(xiàn)液態(tài)光紋,建筑緩緩旋轉(zhuǎn)、折疊,隨后化作光粒飛向夜空。背景出現(xiàn)巨大月亮,月亮上投射出城市倒影,光線折射在漂浮建筑和人物身上。

Seedance 2.0遵循了我們的鏡頭提示詞“全景俯拍”,而提示詞中相對(duì)少見的“懸浮板”、“漂浮汽車”這些元素,模型也能做到合理、真實(shí)地呈現(xiàn)。

而在最后一個(gè)動(dòng)作中,像是“液態(tài)光紋”、“化作光粒飛向夜空”這些復(fù)雜的畫面要求,Seedance 2.0也能準(zhǔn)確還原。

二、圖生視頻出現(xiàn)物理Bug,結(jié)合豆包模板后玩法更多

在日常使用中,還有一大需求就是輸入圖像,生成視頻。相比純文本生成,圖生視頻往往對(duì)模型的結(jié)構(gòu)理解能力、主體一致性保持能力以及動(dòng)作補(bǔ)全能力提出更高要求。

模型不僅要“看懂”圖像中的人物、環(huán)境和構(gòu)圖關(guān)系,還要在此基礎(chǔ)上合理延展動(dòng)作與鏡頭。同時(shí),如何在生成過程中保持人物樣貌、服飾細(xì)節(jié)與整體風(fēng)格不發(fā)生偏移,也是衡量圖生視頻能力的重要標(biāo)準(zhǔn)。

我們首先上傳了一個(gè)沙灘場(chǎng)景和一位小男孩的肖像,要求Seedance 2.0生成圖中男孩在沙灘上奔跑的畫面。上傳圖片作為輸入后,可以明顯感覺到模型的生成速度變慢了一些。

Seedance 2.0殺入豆包!海外網(wǎng)友翻墻跪求,國內(nèi)用戶免費(fèi)用,附一手實(shí)測(cè)

其實(shí),這輪對(duì)話中Seedance 2.0的生成效果并沒有此前那么超乎預(yù)期。在沒有明確要求的情況下,模型生成的畫面是慢動(dòng)作的,這是不少AI視頻生成模型的常見問題。

從畫面內(nèi)容來看,我們上傳的沙灘、男孩的特征基本都得到了保留,不過從物理準(zhǔn)確性上來看,男孩在跑過沙灘的時(shí)候并沒有留下腳印,有點(diǎn)穿幫了。

并且,在上傳圖片后,豆包會(huì)提示無法自定義模型比例,它將根據(jù)參考圖自行選擇比例。在這次案例中,它默認(rèn)選擇了男孩肖像圖的豎版比例,其實(shí)并不符合我們的需求。

于是,我們更換了提示詞的順序,把沙灘這一背景前置了。不過,最后模型還是選擇了豎版的視頻比例,而且,第二次生成的畫面出現(xiàn)了更為嚴(yán)重的物理規(guī)律Bug:男孩踢球的力道明顯不足以讓足球在天空中飛那么久。

上線豆包后,Seedance 2.0還可以與豆包原有的多種視頻生成玩法結(jié)合,提供新的體驗(yàn)。

Seedance 2.0殺入豆包!海外網(wǎng)友翻墻跪求,國內(nèi)用戶免費(fèi)用,附一手實(shí)測(cè)

比如,我們?cè)囍w驗(yàn)了由Seedance 2.0驅(qū)動(dòng)的AI采訪玩法,這一玩法支持上傳人物圖像,或者選擇已經(jīng)保存好的“分身”出鏡。

Seedance 2.0殺入豆包!海外網(wǎng)友翻墻跪求,國內(nèi)用戶免費(fèi)用,附一手實(shí)測(cè)

一開始,我們想試著讓Seedance 2.0生成馬斯克與阿爾特曼這兩位AI圈頂流爭(zhēng)論的畫面,但是或許是由于觸及模型的安全機(jī)制,這類需求被模型直接拒絕了。

Seedance 2.0殺入豆包!海外網(wǎng)友翻墻跪求,國內(nèi)用戶免費(fèi)用,附一手實(shí)測(cè)

于是,我們換了一位相對(duì)沒有那么知名的人物,上傳了其照片。拿到生成結(jié)果后,可以明顯感覺到這一模板是偏惡搞向的,畫面左側(cè)的受訪者突然蹲下,頭部被夸張地“拉長(zhǎng)”,隨后又像彈簧一樣猛地“彈”回原位。這樣的變形效果雖然充滿戲劇性,但突兀而荒誕,觀感上多少有些“掉San值”。

之后,我們又上傳了扎克伯格的畫面,并采用官方的全息投影模板。畫面中,扎克伯格帶上了一個(gè)類似蘋果Vision Pro的VR頭顯,隨后整個(gè)人物逐漸轉(zhuǎn)為半透明質(zhì)感,背景中浮現(xiàn)出粒子光效,整體呈現(xiàn)出明顯的“全息投影”視覺風(fēng)格。

我們又嘗試了另一個(gè)模板“游戲追逐”,這個(gè)模板會(huì)生成一則猛獸追逐畫面中主角的視頻,我們上傳了一只小狗的畫面作為參考圖。

不過,可能由于這一模板是針對(duì)人類的,對(duì)動(dòng)物作為主角的畫面并不適配,小狗跑起來的樣子不太符合生物規(guī)律。

結(jié)語:視頻制作工作流,或?qū)⒈籄I重塑

整體體驗(yàn)下來,Seedance 2.0的表現(xiàn)確實(shí)有明顯提升。無論是長(zhǎng)文本指令的理解與還原、復(fù)雜音畫同步場(chǎng)景的精準(zhǔn)匹配,還是超現(xiàn)實(shí)畫面的穩(wěn)定生成,它都展現(xiàn)出了明顯強(qiáng)于以往模型的綜合能力。

當(dāng)然,它仍存在一些可以改進(jìn)的地方,其中物理細(xì)節(jié)還有明顯的優(yōu)化空間。但在動(dòng)作連貫性、人物一致性與鏡頭語言執(zhí)行力上,Seedance 2.0已經(jīng)開始接近成為可商用的創(chuàng)作工具。

隨著Seedance 2.0開始進(jìn)入豆包這樣的大眾產(chǎn)品,普通用戶也開始能低成本、高頻率地嘗試視頻創(chuàng)作。未來,視頻的生產(chǎn)方式、創(chuàng)作門檻乃至內(nèi)容形態(tài),都可能被重新定義。