智東西(公眾號(hào):zhidxcom
作者?|?香草
編輯?|?李水青

全量上線,免費(fèi)可用!

智東西7月26日?qǐng)?bào)道,今天一早,大模型獨(dú)角獸智譜AI正式發(fā)布視頻生成工具清影,可支持文生、圖生6秒時(shí)長的視頻,即日起在PC端、手機(jī)App端以及小程序端面向所有C端用戶免費(fèi)開放。

先來看看效果,以下是幾個(gè)官方放出的文生和圖生視頻案例,覆蓋人像、動(dòng)物、3D卡通等場景:

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

從Demo來看,清影的生成效果雖然相比Sora等還有一定進(jìn)步空間,但就整體而言流暢度、運(yùn)動(dòng)幅度等都很不錯(cuò),無論是人物表情、動(dòng)作,還是光影變化、鏡頭移動(dòng),都沒有明顯的卡頓和突兀感,對(duì)運(yùn)動(dòng)幅度的把控也恰到好處,不會(huì)看起來像PPT也不會(huì)過于夸張。

此外,雖然生成是完全免費(fèi)的,但生成視頻需要排隊(duì),智譜AI提供了兩種加速排隊(duì)的訂閱方式,包括5元加速1天、199元加速1年。

清影API今天也同步上線,企業(yè)和開發(fā)者都可以通過調(diào)用API的方式,體驗(yàn)并使用清影的文生、圖生視頻能力,據(jù)稱這也是國內(nèi)上線的首個(gè)視頻生成API。

據(jù)智譜AI CEO張鵬解讀,清影基于自研的底座視頻生成模型CogVideoX打造,能將文本、時(shí)間、空間三個(gè)維度融合起來。該模型參考Sora算法設(shè)計(jì),采用了DiT架構(gòu),相比前代CogVideo模型推理速度提升了6倍。

智譜AI成立于2019年6月,起源于清華大學(xué)計(jì)算機(jī)系知識(shí)工程實(shí)驗(yàn)室,專注于開發(fā)新一代認(rèn)知智能大模型。一直以來,智譜AI以對(duì)標(biāo)OpenAI全模型產(chǎn)品線為線索,陸續(xù)研發(fā)了包括文本、代碼、圖像、Agent等方面的自研模型和產(chǎn)品矩陣。此次發(fā)布基于CogVideoX的清影,使其大模型矩陣又?jǐn)U充類一個(gè)模態(tài)。

值得一提的是,這也是國內(nèi)做語言大模型起家的大模型獨(dú)角獸,首次推出視頻生成產(chǎn)品——之前這個(gè)賽道更多的是字節(jié)、快手等短視頻大廠,以及愛詩科技、生數(shù)科技等專注于視頻生成模型的創(chuàng)企。

清影具體有哪些特點(diǎn)?其底層模型在哪些方面做了創(chuàng)新?具體效果如何?智東西第一時(shí)間上手實(shí)測了一番,有以下幾點(diǎn)發(fā)現(xiàn):

1、簡短的提示詞效果更好,復(fù)雜指令下會(huì)丟失細(xì)節(jié)。

2、人手仍是重災(zāi)區(qū),容易出現(xiàn)畫面閃爍的現(xiàn)象。

3、生成很快,但加上排隊(duì)等待時(shí)間仍達(dá)到1-2分鐘。

4、相比圖生視頻,文生視頻的穩(wěn)定性更高。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

當(dāng)然,有限次的體驗(yàn)無法做到全面,也歡迎感興趣的讀者朋友,在評(píng)論區(qū)分享體驗(yàn)感受和新發(fā)現(xiàn)~

一、半分鐘生成6秒視頻,復(fù)雜指令、內(nèi)容連貫

清影主要有4個(gè)特點(diǎn):生成速度快、復(fù)雜指令遵從能力強(qiáng)、內(nèi)容連貫性高以及畫面調(diào)度幅度大。

首先在生成速度上,清影AI據(jù)稱可以在30秒內(nèi)生成一段6秒、幀率16fps、分辨率1440*960的視頻。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

▲實(shí)時(shí)演示視頻生成(動(dòng)圖有加速)

其次,在復(fù)雜指令遵從能力上,智譜AI自研了視頻理解模型,用于為視頻數(shù)據(jù)生成高度吻合的文本描述,進(jìn)而構(gòu)建了海量高質(zhì)量視頻文本對(duì),提升了指令遵循度。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

▲復(fù)雜指令演示

清影的第三個(gè)特點(diǎn)是內(nèi)容連貫性,能夠比較好地還原物理世界當(dāng)中的一些運(yùn)動(dòng)的過程。

例如基于這張大家熟悉的杜甫畫作,清影讓杜甫不僅動(dòng)了起來,而且非常自然順滑地端起了一杯咖啡。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

▲內(nèi)容連貫性

最后在畫面調(diào)度方面,清影采用文本、時(shí)間、空間融合的Diffusion Transformer架構(gòu),可生成遵循特定運(yùn)動(dòng)規(guī)則的動(dòng)態(tài)視頻。

智譜AI豪邁地放出了幾十個(gè)Demo,其中不乏有一些效果驚艷,比如這個(gè):木頭上長出兩朵奇特的透明塑料花。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

“透明塑料花”不是真實(shí)存在的,清影的想象力和審美在這個(gè)案例中得以展現(xiàn)。

再比如這個(gè):比得兔開小汽車,游走在馬路上,臉上的表情充滿開心喜悅,全景畫面。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

清影繪制的兔子表情很豐富,沒有出現(xiàn)五官扭曲的情況,前后景別還加了景深處理。

人像案例清影也拿捏住了,比如這個(gè)提示詞:油畫風(fēng)格,美麗的少女側(cè)顏,光透過樹形成斑駁的影子,柔光落在她臉上。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

整個(gè)畫面光影對(duì)比鮮明,不過漏失了“油畫”、“斑駁的影子”等細(xì)節(jié)。

二、實(shí)測上手有驚艷也有翻車,付費(fèi)加速有些雞肋

官方演示雖好,但清影到底好不好用,還是得自己試一下才能知道。打開清影網(wǎng)頁端,可以看到有文生、圖生視頻兩種功能。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

▲清影網(wǎng)頁端

文生視頻中,我可以選擇視頻風(fēng)格,包括卡通3D、黑白老照片、油畫等;也可以選擇情感氛圍,包括溫馨和諧、生動(dòng)活潑、緊張刺激、凄涼寂寞等;運(yùn)鏡方式包括水平、垂直、推近、拉遠(yuǎn)四種。

圖生視頻中,我可以為圖片添加文字描述,如果不知道寫什么也可以空著,或是讓系統(tǒng)隨機(jī)生成一個(gè)提示詞。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

▲兩種模式

首先我嘗試了一組動(dòng)物場景的提示詞,第一個(gè)為:一只藍(lán)貓?jiān)谪埮兰苌?,正在吃主人遞過來的芝士漢堡,情感氛圍選擇了溫馨和諧。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

可以看到,清影準(zhǔn)確理解了提示詞,整體效果還是很不錯(cuò)的。對(duì)于提示詞中細(xì)節(jié),包括貓的品種、漢堡的種類以及“遞過來”的動(dòng)作等,都表達(dá)得比較精準(zhǔn),人手也沒有翻車。

第二個(gè)提示詞為:一只橘貓把鼠標(biāo)推下桌子,情感氛圍為生動(dòng)活潑。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

這次清影表現(xiàn)得一般,鼠標(biāo)上莫名其妙拴了一只小老鼠就算了,“推下桌子”的動(dòng)作也是完全沒有體現(xiàn)。

前兩個(gè)提示詞都屬于寫實(shí)場景,第三個(gè)提示詞則有些“魔幻現(xiàn)實(shí)”:一只白貓?jiān)谲嚴(yán)锺{駛,穿過繁忙的市區(qū)街道,背景是高樓和行人,情感氛圍為緊張刺激。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

清影對(duì)于這個(gè)提示詞的理解和呈現(xiàn)都還比較準(zhǔn)確,背景中動(dòng)態(tài)場景的運(yùn)動(dòng)幅度、一致性也比較高,但是穩(wěn)定性還有所欠缺,畫面會(huì)出現(xiàn)抖動(dòng)的情況。

第二組提示詞我嘗試了人物場景。首先來試試經(jīng)典的吃面:一個(gè)男人坐在桌邊吃面條,情感氛圍為凄涼寂寞。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

在這個(gè)經(jīng)典難題上,清影的表現(xiàn)還算可以,乍一看沒什么錯(cuò)誤。但細(xì)看之下,男人吃面的餐具用的是勺子,面條的形態(tài)也有些僵硬。

第二個(gè)提示詞是:一個(gè)女孩坐在米色沙發(fā)上,專心地用鉤針勾著一頂淺藍(lán)色帽子,情感氛圍為溫馨和諧。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

這條提示詞中我加入了色彩的細(xì)節(jié),清影都準(zhǔn)確地表現(xiàn)了出來。女孩的鉤織動(dòng)作也比較真實(shí),就是人手非?!肮硇蟆?。

第三個(gè)提示詞為:漂亮的水色瞳孔特寫,寫實(shí)風(fēng)格,超清,情感氛圍為凄涼寂寞。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

清影生成的視頻基本上滿足了我的預(yù)期,不過在特寫鏡頭下,人物的皮膚和毛發(fā)都顯得有些“油膩”。

最后我嘗試了讓清影自己生成提示詞,它直接整了這么長一段:雨天的咖啡館,以窗戶為媒介拍攝一個(gè)英式咖啡館內(nèi)部,要清晰的拍攝咖啡館內(nèi)部,捕捉咖啡館內(nèi)的溫馨氛圍,然后變焦,對(duì)焦在雨滴拍打的窗戶上。細(xì)節(jié)上,注意捕捉顧客們的交談和笑容,以及雨水在窗戶上形成的光影效果,營造出舒適而寧靜的氛圍。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

結(jié)果很遺憾,清影自己給自己挖了個(gè)坑,生成的不能說是視頻,稱之為動(dòng)圖都有些為難。畫面僅僅是平移放大了一圈,也沒能體現(xiàn)提示詞中的大部分內(nèi)容。

體驗(yàn)完文生視頻后,我又嘗試了圖生視頻

首先在上傳圖片時(shí),清影會(huì)提醒我對(duì)圖片進(jìn)行裁切,且只能裁成進(jìn)行固定比例的橫圖,這就造成了一定的局限性。上傳圖片之后,我輸入提示詞:花瓣在風(fēng)中搖動(dòng)。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

生成效果還是比較準(zhǔn)確的,不過這個(gè)提示詞本身的難度也不算大。

接著我上傳了一張靜物圖,這次沒有輸入提示詞,看看清影會(huì)如何自由發(fā)揮。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

這張圖上有很多獨(dú)立的物體,清影并沒有讓它們整體運(yùn)動(dòng)而是為每個(gè)“小團(tuán)子”添加了不同動(dòng)態(tài),整體畫面比較生動(dòng)活潑。

第三張圖我上傳了一張戴著墨鏡的人像,提示詞為:男孩把墨鏡摘下來。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

這個(gè)提示詞的難度很大,而且涉及到“無中生有”的部分。清影成功表現(xiàn)了“摘墨鏡”這一動(dòng)作,不過摘了是摘了,但沒完全摘,墨鏡還在人臉上掛著,視頻后半段還出現(xiàn)了人體不自然的扭曲。

如果不要求它憑空生成人臉又會(huì)如何?我有上傳了一張舉著攝像機(jī)的人像照片,提示詞改為:男孩轉(zhuǎn)身面向鏡頭。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

結(jié)果這次清影反而整了個(gè)人臉出來,就是沒有眼白有些嚇人……不過忽略臉的話,這次生成的效果轉(zhuǎn)身幅度更大,人物的頭發(fā)也隨風(fēng)飄動(dòng),就是他手中的器材變了個(gè)模樣,人手也有些不自然。

一番體驗(yàn)下來,清影生成視頻的效果有的驚艷到我,比如第一個(gè)小貓吃漢堡的例子,文字理解十分準(zhǔn)確;也有的翻車嚴(yán)重,比如咖啡廳、橘貓的例子中,失誤都比較大。

整體來看,清影在生成速度上確實(shí)比較快,雖然較宣傳的30秒還有些偏差,但差不多1分鐘左右就能生成視頻;在運(yùn)動(dòng)幅度、語義理解等方面,會(huì)比較看運(yùn)氣,不過這也是所有視頻生成工具的通病。與市面上其他公開可用的工具相比,清影在生成時(shí)長、清晰度方面還有一定的進(jìn)步空間,不支持畫面比例的選擇也是一大遺憾。

值得一提的是,清影目前的視頻生成是完全免費(fèi)的,不需要會(huì)員訂閱也沒有數(shù)量限制。不過在排隊(duì)生成的過程中,清影提醒我可以加速。點(diǎn)擊加速的按鈕,可以看到它提供了兩種訂閱方式:5塊錢加速1天,或是199元加速1年。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

▲加速排隊(duì)

該說不說,這個(gè)價(jià)格還是很實(shí)惠的,但為啥我加完速排隊(duì)時(shí)間一點(diǎn)也沒減少呢……唯一的變化就是,從“排隊(duì)中”變成了“加速排隊(duì)中”??赡苜M(fèi)用太便宜了,大家都加速就相當(dāng)于沒加速吧(doge)。

三、自研端到端視頻模型,首個(gè)API同步上線

清影基于智譜AI自研的底層模型CogVideoX打造,具有內(nèi)容連貫、可控性高等特點(diǎn)。

內(nèi)容連貫性方面,智譜AI自研了一個(gè)高效的三維變分自編碼器結(jié)構(gòu),稱之為3D VAE。它能夠?qū)⒃曨l空間壓縮至2%的大小,大大減少視頻擴(kuò)散生成模型的訓(xùn)練成本和難度,再配合3D RoPE(旋轉(zhuǎn)位置編碼)模塊,有利于在時(shí)間維度上捕捉幀間關(guān)系,建立食品中的長程依賴。

可控性方面,智譜AI自研了一個(gè)端到端的視頻理解模型,用于為海量的視頻數(shù)據(jù)生成詳細(xì)的、貼合內(nèi)容的描述文本,從而增強(qiáng)模型的文本理解和指令遵循的能力,使生成視頻更符合用戶的輸入,理解超長的復(fù)雜指令。

模型結(jié)構(gòu)上,CogVideoX采用了將文本、時(shí)間、空間三個(gè)維度全部融合起來的Transformer架構(gòu),摒棄了傳統(tǒng)的交叉注意力(Cross-Attention)模塊,將文本和視頻兩個(gè)不同模態(tài)的空間進(jìn)行對(duì)齊,能夠更好地進(jìn)行模態(tài)交互。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

▲CogVideoX特點(diǎn)

張鵬稱,在CogVideoX的研發(fā)過程中,智譜AI有一次驗(yàn)證了Scaling Law在視頻生成方面的有效性和可靠性,未來團(tuán)隊(duì)會(huì)在繼續(xù)擴(kuò)大數(shù)據(jù)規(guī)模和模型規(guī)模的同時(shí),尋找更具突破式創(chuàng)新的模型架構(gòu)。

智譜AI又一次實(shí)現(xiàn)了對(duì)OpenAI全模型產(chǎn)品線的對(duì)標(biāo)。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

▲智譜AI對(duì)標(biāo)OpenAI全模型產(chǎn)品線

在算力方面,清影是在北京亦莊AI公共算力平臺(tái)上訓(xùn)練而來的。數(shù)據(jù)層面,智譜AI與Bilibili、華策影視等進(jìn)行了合作。

張鵬談道,雖然視頻生成模型才剛剛起步,但已經(jīng)受到了很多產(chǎn)業(yè)和客戶側(cè)的需求,涉及電商產(chǎn)品宣傳、影視特效等領(lǐng)域。

今天起,清影AI也同步在智譜AI大模型開放平臺(tái)上線了API,企業(yè)和開發(fā)者都可以通過調(diào)用API的方式體驗(yàn)并使用CogVideoX的文生、圖生視頻能力,據(jù)稱這也是國內(nèi)上線的首個(gè)視頻生成API。

隨著清影能力的加入,智譜AI旗下的AI助手清言App在功能的全面上再下一城,覆蓋對(duì)話、生圖、代碼、Agent和視頻。

智譜AI還準(zhǔn)備了一個(gè)One more thing——視頻生視頻能力。不過準(zhǔn)確來說,這相當(dāng)于是一個(gè)手動(dòng)視頻生視頻的能力:基于智譜AI近日開源的視頻理解模型CogVLM2-Video,用戶可以上傳視頻并提取出詳細(xì)的文字描述,再將文字輸入清影,實(shí)現(xiàn)“視頻生視頻”的效果。

智譜AI“中國版Sora”實(shí)測:6秒視頻排隊(duì)2分鐘,貓貓很可愛,人手很翻車

▲視頻生視頻

結(jié)語:又一強(qiáng)力玩家入局AI視頻生成

Sora發(fā)布后,AI視頻生成迎來“第二春”,無論是技術(shù)、產(chǎn)品的迭代,還是資本市場的關(guān)注,都達(dá)到了新的高度。光是本周,就有快手宣布全球上線、愛詩科技發(fā)布第二代模型,以及今天智譜AI入局等重磅進(jìn)展。(視頻生成大戰(zhàn)2.0!大廠狂卷底層模型,創(chuàng)企5個(gè)月吸金44億

不同于此前的文本、圖像模型賽道,國內(nèi)長期處于追逐OpenAI等海外企業(yè)進(jìn)展的狀態(tài)。在視頻生成領(lǐng)域,國內(nèi)的大廠、創(chuàng)企在短短幾個(gè)月內(nèi)實(shí)現(xiàn)彎道超車,不僅打磨出了高質(zhì)量的底層模型,而且個(gè)個(gè)公開可用甚至免費(fèi),給至今仍是期貨的Sora上了一課。