智東西(公眾號:zhidxcom)
作者 | 江宇
編輯 | 漠影

智東西1月30日報道,今日,來自生數(shù)科技的AI視頻模型Vidu Q3 Pro登上國際權(quán)威AI基準平臺Artificial Analysis榜單,位列中國第一,全球第二。

這是最新榜單內(nèi),首個打入國際第一梯隊的國產(chǎn)視頻生成模型。

它僅次于馬斯克旗下xAI的Grok,領(lǐng)先于Runway Gen-4.5、Google Veo 3.1和OpenAI Sora 2。

硬剛馬斯克,超越Sora2的國產(chǎn)模型強勢登場了!支持16秒聲畫同出

▲國際權(quán)威AI基準平臺Artificial Analysis最新榜單

而這項排名的背后,是國產(chǎn)AI視頻生成技術(shù)邁出的關(guān)鍵一步——模型已經(jīng)突破“能出畫”的門檻,具備“會講故事的導(dǎo)演感”。

在這個人人都能把文字變成視頻的階段,看似創(chuàng)作門檻降低了,真正想做出一條有情緒、有節(jié)奏、有表達的短片,卻依然難度不小。

最常見的問題有三:

一是靜音啞片,不能同步輸出聲音,畫面與音效相對割裂;

二是鏡頭語言單一、節(jié)奏缺失,難以表達復(fù)雜情緒

三是文字缺席,沒有文字,臺詞、字幕、廣告語全靠后期補救。

它們分別卡在AI生成視頻環(huán)節(jié)的不同節(jié)點,直接限制了AI視頻模型從生成工具走向內(nèi)容創(chuàng)作引擎的能力。

如今,這個缺口正被Vidu Q3填補。新一代視頻生成模型Vidu Q3,完成了三項關(guān)鍵突破:全球首個支持16s音視頻直出的模型、鏡頭自由切換控制、畫面內(nèi)精準文字渲染——聲音、鏡頭、語言三者齊發(fā)。

它不僅能講出完整的臺詞、控制好節(jié)奏,還能直接在畫面中“寫”下表達,具備導(dǎo)演級的調(diào)度能力,專門為“劇”而生。

自此,一款具備“導(dǎo)演感”的AI視頻生成模型來了。

一、從“生成視頻”到“調(diào)度鏡頭”,三塊短板正被補上

對很多AI視頻創(chuàng)作者來說,“把畫面做出來”已經(jīng)不是問題,難的是“怎么讓它講得通順、看得下去”。

這次,Vidu Q3升級為一款將聲音、鏡頭、節(jié)奏與字體渲染打包生成的創(chuàng)作引擎,具備更接近專業(yè)導(dǎo)演的視聽表達能力,開始補上AI視頻創(chuàng)作長期缺失的三塊關(guān)鍵能力:

首先,是音畫同步這一技術(shù)難題的突破,讓AI視頻終于能“講完整的話”了。

Vidu Q3支持最長16秒的音視頻一體生成,語音、旁白、對話、音效和音樂可以同步輸出,還能精準對口型

目前,該模型已覆蓋中文、英文、日文,是全球首個在這一時長內(nèi)實現(xiàn)高質(zhì)量聲畫同出的生成模型。

其次,鏡頭調(diào)度不再呆板,開始具備戲劇張力。

Vidu Q3能夠根據(jù)內(nèi)容自動切換鏡頭視角,從遠景到特寫,不同情緒、動作、節(jié)奏的變化都能驅(qū)動鏡頭語言的調(diào)整,模擬專業(yè)導(dǎo)演的調(diào)度方式,讓AI生成的故事更有視覺語言,而不只是“畫在動”。

最后,長久困擾生成視頻的文字渲染問題也得到解決

Vidu Q3可直接在畫面中生成中、英、日三種語言的文字內(nèi)容,支持廣告語、環(huán)境標(biāo)識等多種文字場景自然融入畫面,無需再靠貼圖拼接,整體排版風(fēng)格統(tǒng)一,省去了大量后期工作。

當(dāng)這三塊短板被補上后,AI視頻的表達力開始具備“講故事”的能力,而不再只是片段的拼貼。

二、實測體驗:我們讓AI“導(dǎo)”了一支16秒短片

我們設(shè)定了一個國漫風(fēng)格的創(chuàng)意場景,測試Vidu Q3是否能夠在“導(dǎo)演視角”下同時調(diào)度語音、鏡頭與畫面文字。

提示詞:深山竹林中,一男一女兩位劍客正在對峙。男性劍客(聲音沉緩):“真的沒有挽回的余地了嗎?”鏡頭切至女性劍客特寫,她一身紅衣,嘴角挑起一抹不屑的冷笑。女性劍客(語氣桀驁):“你我二人早已恩斷義絕,看招!”她身形如閃電般竄出,兩人劍光交錯,招式行云流水,劍刃碰撞的清脆錚鳴與古風(fēng)鼓點交織,在竹林間激蕩出凌厲的交鋒節(jié)奏。背景疊加古風(fēng)氛圍音樂以及冷兵器碰撞摩擦的聲音。

整體觀感上,本次生成節(jié)奏自然,鏡頭切換清晰,角色對白與口型匹配度較高,畫面構(gòu)圖和氛圍也較為協(xié)調(diào),基本還原了古風(fēng)劍客對峙的場景。

進一步觀察細節(jié),不同鏡頭間的切換能夠精準對應(yīng)動作轉(zhuǎn)換節(jié)點,劍光交錯、人物移動與鏡頭運轉(zhuǎn)的節(jié)奏保持一致,未出現(xiàn)跳幀、錯位等干擾體驗的問題。

背景音樂層次分明,冷兵器碰撞聲與角色臺詞均有良好呈現(xiàn)。

在實際生成過程中,出片效率較高,畫面渲染穩(wěn)定,交互過程清晰。用戶可通過提示詞對人物對白、畫面風(fēng)格、動作節(jié)奏等多維度進行控制,可控感明顯提升。

綜合來看,Vidu Q3已具備基礎(chǔ)的“導(dǎo)演感”,能夠勝任短劇創(chuàng)作、影視劇情、廣告營銷等多種場景。

三、能拍短劇、能出廣告、也能做動漫,內(nèi)容創(chuàng)作的地基在悄悄重構(gòu)

當(dāng)視頻生成開始承擔(dān)內(nèi)容生產(chǎn)的完整鏈條,我們看到的幾個實際應(yīng)用方向,已經(jīng)能串起從劇本到出片的全過程。

通過聲音、動作與鏡頭的協(xié)同生成,Vidu Q3能夠還原較為復(fù)雜的情節(jié)表達,支持分鏡與情緒變化,是目前較為適合敘事類創(chuàng)作的應(yīng)用方向之一,可以被用于制作短劇、漫劇等故事內(nèi)容。

與此同時,在廣告與產(chǎn)品展示場景中,自動出片能力也顯著提升了創(chuàng)作效率。

該模型適合帶解說的產(chǎn)品視頻、人物出鏡介紹等形式,“語音+鏡頭”聯(lián)動生成,免去了“腳本-拍攝-剪輯”的多輪反復(fù)。

此外,Vidu Q3也在自媒體和播客等輕制作領(lǐng)域展現(xiàn)出較強的實用性。

Vidu Q3支持風(fēng)格設(shè)定與人物設(shè)定,搭配對白和動態(tài)鏡頭,讓播客或短視頻內(nèi)容也具備足夠好的觀看體驗,且能夠批量生產(chǎn)。

作為新一代專門為“劇”而生的視頻模型,Vidu Q3的目標(biāo)用戶就不止是內(nèi)容創(chuàng)作者,還有廣告人、營銷人、產(chǎn)品人,創(chuàng)作角色也正在被重新定義。

結(jié)語:“導(dǎo)演感”落地了,AI視頻進入工業(yè)級內(nèi)容生產(chǎn)新階段

短短一年時間,AI視頻的生成能力完成了從“能動”到“會講”的關(guān)鍵跨越。

Vidu Q3同樣是一種創(chuàng)作方式的升級:從聲音、畫面、鏡頭到字幕,它把一個視頻創(chuàng)作的完整能力交到創(chuàng)作者的手里。

無論是敘事驅(qū)動的短劇、新意爆棚的廣告、風(fēng)格鮮明的動漫,還是自媒體視頻等多個領(lǐng)域,AI都正在轉(zhuǎn)向一位合格的創(chuàng)作伙伴。

如果說之前的AI視頻模型還像是“攝像機”,那么現(xiàn)在,它開始像個真正的“導(dǎo)演”了。

接下來,它還能講出怎樣的故事,也值得我們繼續(xù)期待。