智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影

剛剛過去的國慶假期,將視頻生成領(lǐng)域的技術(shù)競賽推向全新高度。

OpenAI率先拋出重磅炸彈,旗艦視頻生成模型Sora 2,直言其正“直奔視頻領(lǐng)域的GPT-3.5時刻”,并隨之推出Sora應(yīng)用程序。憑“Cameo(引用角色功能)”首周下載量超ChatGPT;隨后,馬斯克xAI亮出Imagine v0.9,以20秒內(nèi)快速生成、全用戶免費開放的優(yōu)勢予以回應(yīng);本月底,國內(nèi)AI視頻創(chuàng)業(yè)公司生數(shù)科技的Vidu Q2參考生功能也即將重磅亮相……

在這一系列密集的行業(yè)動向中,其中尤為突出的是Sora應(yīng)用的Cameo和Vidu的參考生功能,我們可以窺探到視頻生成賽道的新共識,“引用角色形象”正成為技術(shù)探索與應(yīng)用落地的關(guān)鍵方向。

相比于OpenAI,生數(shù)科技在參考生視頻領(lǐng)域的布局更早。作為全球“參考生視頻”概念的首個提出者和開創(chuàng)者,早在2024年9月Vidu就已提出了參考生視頻功能。而隨著Sora應(yīng)用程序的落地,中美在AI視頻領(lǐng)域的技術(shù)與產(chǎn)品較量,也正式進(jìn)入正面PK的關(guān)鍵階段。

本月底,Vidu Q2參考生視頻即將登場,不僅對于To C小白用戶友好,使用門檻大幅降低,而且作為生產(chǎn)力工具,其對于專業(yè)、半專業(yè)創(chuàng)作者也非常能打,同時對于一致性、精準(zhǔn)性、性價比要求較高的廣告電商、影視動漫等To B領(lǐng)域的要求也能滿足。

下面是創(chuàng)作者陳暢率先借助Vidu Q2參考生功能生成的高燃大片,已經(jīng)讓我們提前感受了Vidu Q2參考生的技術(shù)實力。

一、直擊視頻生成核心痛點,“角色引用”成主流解法,Vidu早有布局

不同于文字、圖像生成技術(shù)已實現(xiàn)高穩(wěn)定性、高可控性的生成效果,當(dāng)前視頻生成技術(shù)雖正在快速迭代,卻仍受多個核心痛點制約,尚未迎來大規(guī)模商業(yè)化落地的爆發(fā)時刻。

首先,文字之間的連接可通過語法、上下文,圖像只需明確單一場景的核心信息,而視頻的核心價值在于通過連續(xù)畫面?zhèn)鬟f完整敘事,往往視頻時長增加,就會出現(xiàn)情節(jié)割裂、角色行為矛盾、空間錯位等問題

其次,可控性缺失。若視頻生成包含元素過多,會受限于模型的理解能力和記憶能力等,再加上普通用戶難以通過提示詞傳達(dá)準(zhǔn)確的專業(yè)術(shù)語,會進(jìn)一步導(dǎo)致生成內(nèi)容出現(xiàn)偏差。

從當(dāng)下主流視頻生成模型企業(yè)的布局來看,引用角色形象這一核心思路,成為解決上述痛點的有效路徑,也就是Sora App中的Cameo以及Vidu的參考生功能。

其共同點是支持上傳參考圖生成視頻,能在一定程度上使得最后視頻生成都圍繞這一元素展開,避免中間出現(xiàn)較大的情節(jié)偏差。再加上其有固定的角色特征作為參照,用戶可以以畫面中內(nèi)容為核心結(jié)合提示詞生成同一角色不同的視頻畫面。

但不同之處在于,Vidu的參考生功能范疇覆蓋更為廣泛。

Sora App中的Cameo功能,允許用戶在應(yīng)用中進(jìn)行一次簡短的音視頻錄制,即可以將自己或者授權(quán)的其他人直接帶入任何Sora生成的場景中。一定程度上可以認(rèn)為,Cameo的功能是使生成視頻中的主體角色與上傳圖片的主體保持一致,也就是“角色參考”。

而Vidu的“參考生”功能,涵蓋了角色、環(huán)境、道具等諸多要素來生成視頻,參考類型更多,可以為創(chuàng)作者提供更高的自由度和控制力。

AI原生的參考生功能已經(jīng)成為這場視頻生成競賽中搶占先機(jī)的關(guān)鍵,就在本月底,Vidu即將發(fā)布的Q2參考生版本,將進(jìn)一步強化這一優(yōu)勢。

二、從一致性到精細(xì)控制:Vidu Q2參考生與Sora 2逐維度拆解

相同參考圖片下,Sora 2與Vidu Q2參考生的生成效果各有優(yōu)劣。
首先明確下OpenAI Sora App中的Cameo與Vidu Q2參考生的具體功能。

從OpenAI的官方博客可以看出,Cameo生成的角色由用戶的短視頻和音頻捕獲構(gòu)建而成,可以被重復(fù)使用。且錄制視頻和音頻時,用戶需要尋找效果較好的光線、干凈的背景、摘下帽子、保持周圍環(huán)境安靜等,才能確保最后生成的主體角色質(zhì)量更高。

Vidu Q2的參考生功能則支持上傳最多7張照片,可以是人物、物體、場景、特效的不同組合,也可以是多個人物,并且能在保持參考圖特征的同時,更貼近用戶原始輸入。

下面就是同樣的參考圖片、提示詞下,Sora 2與Vidu Q2參考生生成的視頻實際效果對比,提示詞為介紹皇冠:

參考圖(由AI生成):

參考生開創(chuàng)者Vidu正面硬剛Sora 2,月底推Q2新版本

Sora 2生成的視頻效果:

Vidu Q2生成的視頻效果:

參考生開創(chuàng)者Vidu正面硬剛Sora 2,月底推Q2新版本

可以看到,兩個視頻中都切換了遠(yuǎn)景、近景。Sora 2的優(yōu)勢在于可以音視頻直出,畫面搭配實時解說,并自動補充大量不同分鏡,幾乎做到一鍵成片,但其中不足的地方在于,Sora 2的視頻中皇冠樣式略微發(fā)生改變,還出現(xiàn)了皇冠憑空漂浮在空中的反常理畫面。

相比之下,Vidu Q2參考生生成的視頻中,主體人物始終手握皇冠,且人物的形象、嘴邊的麥克、皇冠的樣式始終保持一致,同時人物的眼神也在跟隨皇冠的位置變化而移動,使得人物與物品更具有互動感,但不足之處在于,雖然人物的嘴形也在變化,卻沒有相應(yīng)的音頻生成。

第二個的提示詞為:女孩閉上眼睛,身后的云朵飛舞,發(fā)出金光。

參考圖(由AI生成):

參考生開創(chuàng)者Vidu正面硬剛Sora 2,月底推Q2新版本

Sora 2生成的視頻效果:

參考生開創(chuàng)者Vidu正面硬剛Sora 2,月底推Q2新版本

Vidu Q2生成的視頻效果:

參考生開創(chuàng)者Vidu正面硬剛Sora 2,月底推Q2新版本

這一案例中,Sora 2生成的人臉與參考圖相差較大。Vidu Q2則更好地保持了與參考圖人物的完全一致。

總結(jié)來看,Vidu參考生的核心優(yōu)勢為突破單一角色引用局限,實現(xiàn)了覆蓋角色、道具、場景、特效等創(chuàng)作全要素參考,同時在主體一致性上保持更好。

基于此,創(chuàng)作者無需在多工具間切換尋找資源,僅通過Vidu參考生就能直接引用所需的各類創(chuàng)作要素,并基于這些要素快速生成視頻,最終簡化創(chuàng)作流程并賦予創(chuàng)作者更高的創(chuàng)作自由度與細(xì)節(jié)控制力。

三、Vidu Q2參考生三大亮點曝光,月底正式亮相

據(jù)了解,Vidu Q2模型的升級讓AI視頻從視頻生成直接邁向演技生成新階段,而這次參考生功能的Q2版本更新也在原有功能上實現(xiàn)了質(zhì)的突破,生成的視頻一致性依舊保持全球領(lǐng)先、生成速度更快、價格更優(yōu)惠,同時作為國產(chǎn)AI視頻,對于國內(nèi)用戶來說,直接上手可用。

智東西也率先拿到了Vidu Q2參考生的內(nèi)測資格,提前體驗了一波參考生功能的升級。

話不多說,先上實例。

第一個案例是廣告電商類的美妝產(chǎn)品多步驟演示。

提示詞:圖1坐在圖3前,先拿起圖2的粉底液,用美妝蛋以“點涂+輕拍”動作均勻上臉(特寫手部發(fā)力細(xì)節(jié)),接著對著鏡子微笑展示妝效(捕捉嘴角上揚+眼神亮澤的表情)。鏡頭從“手部操作近景→面部上妝中景→微笑特寫”切換,全程保持博主妝容、梳妝臺物品位置不變。

參考圖(由AI生成):

參考生開創(chuàng)者Vidu正面硬剛Sora 2,月底推Q2新版本

Vidu Q2生成的視頻:

參考生開創(chuàng)者Vidu正面硬剛Sora 2,月底推Q2新版本

最后生成的視頻中美妝博主眼睛上的亮片也都進(jìn)行了復(fù)現(xiàn),且使用的美妝蛋、臥室梳妝臺與參考圖內(nèi)容均一致,在人物運動、鏡頭切換時也沒有變形。

第二個案例是知識科普類,科普某手工制品的制作教程等。

提示詞:圖1在演示皮具縫制:先將圖2的皮革對齊,再用針線回針縫(特寫針腳密度),全程保持皮革紋理、工具擺放位置不變。

參考圖(由AI生成):

參考生開創(chuàng)者Vidu正面硬剛Sora 2,月底推Q2新版本

Vidu Q2生成的視頻:

參考生開創(chuàng)者Vidu正面硬剛Sora 2,月底推Q2新版本

這一視頻中全程的皮革紋理、工具擺放位置并沒有發(fā)生變化,并且精準(zhǔn)的拉近鏡頭切換特寫,人物還有用針線的相應(yīng)動作。

第三個案例是寵物擬人化劇情:

圖1坐在圖3的迷你書桌前,前爪搭在圖2的筆記本上假裝寫字(爪子輕劃紙面的動態(tài)),偶爾抬頭歪頭(呆萌表情)。鏡頭先用低角度仰拍模擬寵物視角,再用緩慢推近聚焦寫字動作,最后用俯視運鏡展示書桌全貌;全程保持柯基帽子不掉、道具位置合理。

參考圖(由AI生成):

參考生開創(chuàng)者Vidu正面硬剛Sora 2,月底推Q2新版本

Vidu Q2生成的視頻:

參考生開創(chuàng)者Vidu正面硬剛Sora 2,月底推Q2新版本

這一視頻中客廳背景的綠植、沙發(fā)造型,小桌子上的筆記本、筆、橡皮以及柯基頭上佩戴的藍(lán)色帽子位置都與參考圖一致,且鏡頭也符合提示詞要求的的先用低角度仰拍再全景展示。

三個體驗案例中的共同點就是,利用Vidu Q2參考生生成的視頻均保持了智東西上傳圖片的一致性,同時能滿足各種鏡頭角度轉(zhuǎn)換、人物動作變化的需求。Q2參考生在生成速度上也更快,只需十幾秒即能快速生成一段5秒視頻片段。

這一波Vidu Q2的升級,將再次使得參考生的實用性更進(jìn)一步,大幅降低視頻制作的技術(shù)門檻。

Vidu Q2參考生視頻已進(jìn)入發(fā)布倒計時,本月底即將揭曉答案,其將用實力證明,中國視頻大模型更能打,不只停留在技術(shù)層面,更在于落地價值。