??頭圖由AI生成

智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影

AI視頻的競爭焦點開始轉(zhuǎn)移——

不再局限于單一畫面效果的比拼,而是聚焦可用性與開箱即用的突破。

9月底Sora 2的橫空出世便清晰傳遞出這一趨勢:其不僅以精彩紛呈的動態(tài)生成效果刷新行業(yè)認知,更通過能引入現(xiàn)實角色、提升物理模擬逼真度 、集成創(chuàng)編傳播工具等的綜合性“成片智能體”,展現(xiàn)了向易用性、實用性發(fā)展的趨勢。

這一行業(yè)趨勢逐漸明晰的當下,國產(chǎn)平臺商湯Seko早已率先布局,以實際行動重新定義AI視頻的應(yīng)用邊界。

下面的視頻就直觀展示了Seko的成片能力,這一視頻從劇本、分鏡、配音到后期均由Seko完成,并且精細到每一個細節(jié)都符合導演和編劇要求,畫面以及動畫效果也都拉到專業(yè)級。Seko用戶@聽白AIGC 生成了下面的視頻,將動漫形象與現(xiàn)實環(huán)境相結(jié)合且毫無違和感,使得整體畫面質(zhì)感提升。


▲基于Seko創(chuàng)作的商品廣告

還有下面的恐怖氛圍短片,Seko用戶@不會畫畫的美術(shù)生、@liuker?生成的視頻中呈現(xiàn)了醫(yī)院場景,從陰森的空間布局到冷冽的燈光風格,所有視覺元素全程在線、精準配合,成功營造出壓抑、驚悚的恐怖氛圍。


▲基于Seko創(chuàng)作的AI英文短劇

作為國內(nèi)首個創(chuàng)編一體的短片創(chuàng)作Agent平臺,Seko用戶規(guī)模與作品數(shù)量的快速爆發(fā)增長證明了產(chǎn)品的價值。

從工具到智能體、從畫面到成片,AI正從根本上降低內(nèi)容生產(chǎn)的門檻、提升創(chuàng)作效率、拓展表達邊界。在這場由Sora2引領(lǐng)的變革中,國產(chǎn)平臺商湯Seko是亦步亦趨的追隨者,還是另辟蹊徑的破局者?我們試圖拆解Sora 2與Seko,找到其在這場變革中搶占先機的關(guān)鍵要素。

一、“成片智能體”風起:從技術(shù)炫技到應(yīng)用為王

回溯AI視頻產(chǎn)業(yè)的發(fā)展脈絡(luò),早期產(chǎn)品多停留在技術(shù)驗證層面,往往會通過生成各類逼真、新奇的視頻內(nèi)容來滿足用戶好奇心,如今隨著營銷、短劇、自媒體等領(lǐng)域的剛性需求爆發(fā),其定位正逐漸向生產(chǎn)力工具轉(zhuǎn)移,而能否覆蓋從創(chuàng)意到成片的全流程,也成為衡量產(chǎn)品價值的核心標準。

9月底爆火的Sora 2以及OpenAI伴隨其發(fā)布的Sora應(yīng)用就清晰表明了這一趨勢。

具體來看,在核心生成能力上,Sora 2實現(xiàn)了全維度的性能提升。

物理模擬層面,其優(yōu)化動力學與材質(zhì)還原的可信度,能精準呈現(xiàn)對象體積、遮擋關(guān)系與光照交互,例如模擬液體潑灑時的流動軌跡、織物飄動的重力反饋均更貼近真實物理邏輯;音頻能力實現(xiàn)了音畫一體化生成,環(huán)境音、動作音效可隨畫面場景自動匹配;口型同步技術(shù)能根據(jù)對白內(nèi)容實現(xiàn)聲音與唇形的精準對齊,支持多語言對話;敘事連貫性上,強化多鏡頭邏輯銜接。

提示詞:吉卜力工作室動畫風格,畫面中一個男孩和他的狗跑上長滿青草的風景優(yōu)美的山坡,頭頂是絕美的云朵,遠處背景中還能眺望到一個村莊(in the style of a studio ghibli anime, a boy and his dog run up a grassy scenic mountain with gorgeous clouds, overlooking a village in the distant background)。


▲Sora 2生成視頻

其次是產(chǎn)品形態(tài)方面,OpenAI伴隨Sora 2推出的獨立Sora App社交平臺,通過內(nèi)置的Cameo(角色引入)功能,用戶可創(chuàng)建高度逼真的個人數(shù)字分身,無縫植入任意Sora 2的生成場景,還能授權(quán)好友使用自己的形象實現(xiàn)多人同框創(chuàng)作。

相比上一代產(chǎn)品,Sora 2正向著更符合用戶實際創(chuàng)作需求的工具轉(zhuǎn)型。

但值得注意的是,Sora 2的生成本質(zhì)上仍是“黑盒式”輸出,因為用戶輸入指令后需等待系統(tǒng)完整輸出,無法對中間環(huán)節(jié)進行干預(yù)調(diào)整,即便使用千字級的詳細提示詞,也可能出現(xiàn)與預(yù)期偏差的生成結(jié)果。

因此在實際應(yīng)用場景,這對追求精準表達的商業(yè)創(chuàng)作而言,無疑意味著不可預(yù)知的時間損耗與修改成本。

反觀國內(nèi),商湯科技今年8月推出的Seko就在成片智能體的基礎(chǔ)上,實現(xiàn)了“可控式閉環(huán)”。

Seko可以做到自動劇本拆解、分鏡生成、角色一致性控制等,來生成高質(zhì)量AI視頻,與Sora 2在成片智能體核心能力上實現(xiàn)對標。下面Seko用戶@豆芽AI筆記本 生成的視頻中主體角色整體一致,畫面跟隨人物移動時也沒有出現(xiàn)偏差。

基于Seko創(chuàng)作的AI短劇

與Sora 2不同的是,Seko支持實時可編輯,非一次輸入、一次輸出,甚至可對分鏡畫布局部修改,消除、重繪、元素添加等,讓用戶通過精細化編輯實現(xiàn)“所見即所得”。

不止于Sora 2!商湯Seko再次定義“成片智能體”,AI視頻生成迎來殺手級應(yīng)用

▲Seko分鏡畫布局部修改功能

盡管當下AI視頻發(fā)展距離規(guī)模化應(yīng)用還有一定距離,但當下我們可以確定的是,其行業(yè)競爭正在從單一效果比拼轉(zhuǎn)向全鏈路價值競爭,也就是“成片智能體”在AI視頻工具中逐漸成為共識。

二、解碼“成片智能體”概念,讓AI視頻開箱即用的關(guān)鍵

以“成片智能體”應(yīng)具備的能力為標準,我們看到Sora 2和Seko的部分能力設(shè)定高度趨同,都朝著讓AI視頻生成開箱即用視頻、零門檻出成片的目標進階。

需要注意的是,即便二者在降低創(chuàng)作難度、覆蓋全流程需求等方向上高度趨同,但實現(xiàn)路徑呈現(xiàn)鮮明差異,Sora 2強調(diào)的是端到端直接輸出,Seko則看重生成過程中各環(huán)節(jié)進行可控性編輯。

先來具體看下兩大平臺的相似與不同之處。

首先,降低使用門檻的前提是,讓AI能聽懂用戶的日常表達,減少對專業(yè)工具的依賴。

Sora 2和Seko都可以理解用戶的日常用語,不需要更為專業(yè)的術(shù)語即可生成相應(yīng)的視頻內(nèi)容,打破AI視頻創(chuàng)作對專業(yè)知識的依賴。

在實測體驗時,當智東西輸入“小羊介紹新疆伊犁的美麗景色,一只擬人化的小羊羔,超寫實風格”的提示詞,其就會生成策劃摘要、美術(shù)風格、角色主體、場景概念、音樂風格、分鏡劇本。

不止于Sora 2!商湯Seko再次定義“成片智能體”,AI視頻生成迎來殺手級應(yīng)用

此外眾所周知視頻的創(chuàng)作需要不同的工具進行音畫比配、物理模擬等,Seko將復(fù)雜技術(shù)環(huán)節(jié)全部封裝為后臺自動流程,用戶無需手動調(diào)試參數(shù),更無需借助剪輯、配音等第三方工具,就可以實現(xiàn)輸入想法就能得到視頻的體驗。

Seko近日上線的新功能還支持一鍵制作多人對口型視頻,基于SekoTalk這個商湯自研的圖生視頻對口型算法,在音樂MV、劇情視頻、廣告等領(lǐng)域都可以應(yīng)用。在下面的視頻中,它支持中英文等多種語言、多人對口型,包括輪流說話或者同時說話的情況,即使是語速超快的說唱也不會出現(xiàn)偏差,已明顯優(yōu)于Sora 2的效果。

基于SekoTalk創(chuàng)作的多人對口型視頻

其次是端到端直接輸出與極致的可編輯性,這也是Sora 2和Seko兩大成片智能體最核心的區(qū)別。

Sora 2和Seko均可以覆蓋創(chuàng)作的全鏈路,其支持多模態(tài)輸入,用戶能通過文本描述構(gòu)建場景、上傳參考圖定義角色外觀,可一次性完成從創(chuàng)意拆解、理解復(fù)雜指令到成片輸出的端到端貫通。值得一提的是,此次Sora應(yīng)用新增的Cameo與Seko的主體功能類似,都是通過生成統(tǒng)一的角色,保證后續(xù)生成內(nèi)容的主體穩(wěn)定、一致。

不止于Sora 2!商湯Seko再次定義“成片智能體”,AI視頻生成迎來殺手級應(yīng)用

▲Sora 2的Cameo功能(左)、Seko的主體功能(右)

在此之上,Seko還進一步將生成內(nèi)容進行了細化拆解,打造了“先靜后動”流程,將創(chuàng)作分為分鏡確認、細節(jié)修改、視頻生成幾個階段,具體來說就是,平臺先根據(jù)用戶創(chuàng)意生成靜態(tài)分鏡序列,經(jīng)用戶逐幀檢查畫面內(nèi)容后,可以直接通過自然語言指令重繪角色、調(diào)整臺詞或鏡頭角度,最后都確認無誤后再一鍵轉(zhuǎn)視頻。

為了進一步確保成片的可控性,Seko還具備分鏡靜態(tài)預(yù)覽、分鏡畫布局部修改等功能,允許用戶在每個環(huán)節(jié),對生成內(nèi)容進行修改,如直接要求“把圖中的小羊換成牧羊犬”等,系統(tǒng)能精準完成修改。

不止于Sora 2!商湯Seko再次定義“成片智能體”,AI視頻生成迎來殺手級應(yīng)用

Seko還支持一鍵修改背景,如要求更換背景為咖啡廳等。

不止于Sora 2!商湯Seko再次定義“成片智能體”,AI視頻生成迎來殺手級應(yīng)用

▲Seko局部修改功能

當用戶確認了分鏡的主體、視頻內(nèi)容、文字內(nèi)容,就可以在右上方點擊一鍵轉(zhuǎn)視頻。相比于Sora 2的一鍵成片,Seko的成片方式給予了用戶更大的自由創(chuàng)作空間。

最后是成片質(zhì)量方面,相比于早期的工具,Sora 2、Seko在視頻生成內(nèi)容的鏡頭穿幫、音畫不同步等問題上,已經(jīng)基本實現(xiàn)了超長分鏡的穩(wěn)定輸出。

在此基礎(chǔ)上,Seko平臺還更進一步,集成了商湯日日新、即夢、可靈、海螺等多款業(yè)界主流生圖模型,用戶基于該平臺能精準控制多角色、多場景的復(fù)雜劇本輸出,確保角色形象、光線風格、動作邏輯全程穩(wěn)定。下面Seko用戶@不會畫畫的美術(shù)生 生成的視頻中,Seko將背景音樂、鏡頭轉(zhuǎn)換等諸多設(shè)定都與劇本內(nèi)容相呼應(yīng)。

▲基于Seko創(chuàng)作的AI英文短劇

這些技術(shù)突破共同指向,AI視頻生成正朝著“成片智能體”進化,其核心是通過極簡交互、全流程貫通與高質(zhì)量輸出降低創(chuàng)作門檻。

商湯科技的Seko在此基礎(chǔ)上基于分鏡預(yù)覽、可控式流程等關(guān)鍵能力,在視頻生成的可控性與商業(yè)可行性兩大關(guān)鍵維度上率先落地,讓“成片智能體”真正從技術(shù)概念變?yōu)橛|手可及的生產(chǎn)力工具。

三、從不可控到可落地:Seko重構(gòu)AI視頻商業(yè)化價值邏輯

Sora 2和Seko的發(fā)展讓我們看到了AI視頻商業(yè)化落地的潛力,但當我們將視野放大到整個生成式AI行業(yè)會發(fā)現(xiàn),想要讓AI視頻生成真正實現(xiàn)拿來即用,遠比圖文生成復(fù)雜得多。

視頻創(chuàng)作需同步處理畫面渲染的時序邏輯、音頻合成的情緒適配、物理模擬的真實反饋等多重難題,任何環(huán)節(jié)的斷層都會讓生成的視頻出現(xiàn)偏差。

正因為這種復(fù)雜性,Sora 2與商湯Seko在“成片智能體”的定位上,也呈現(xiàn)出了差異化的思路,前者聚焦從輸入到輸出的高質(zhì)量端到端交付,后者則在保證成片質(zhì)量的基礎(chǔ)上,強化了全流程創(chuàng)作的自主、可編輯與可控性。下面Seko用戶@林龍 生成的視頻中,伴隨著鏡頭的變化將拯救公主的故事進行了完整呈現(xiàn),還融入了逼真的特效。

▲基于Seko創(chuàng)作的AI短片

正如前面所提到的,創(chuàng)作可控性在AI視頻生成中至關(guān)重要,這也是Seko相比Sora 2等其他工具的顯著優(yōu)勢,其核心可概括為創(chuàng)意可控、風格可控、成本可控。

創(chuàng)意可控基本貫穿了前期用戶創(chuàng)作的全流程。

用戶輸入核心創(chuàng)意后可進入編輯模式,對畫面細節(jié)不滿意可直接修改提示詞重繪單幀分鏡,覺得臺詞生硬能逐句調(diào)整文案并同步更新配音,想優(yōu)化敘事節(jié)奏可直接增減分鏡或調(diào)整鏡頭結(jié)構(gòu)。

不止于Sora 2!商湯Seko再次定義“成片智能體”,AI視頻生成迎來殺手級應(yīng)用

這種先確認靜態(tài)效果、再生成動態(tài)視頻的設(shè)計,可以幫助用戶在早期修正創(chuàng)意偏差。

其次是風格可控,Sora 2的模型體系相對單一,Seko采用了多模型集成和智能匹配策略,集成了全行業(yè)主流生成模型,支持用戶自主選擇相應(yīng)模型。

最后是成本,Sora 2雖能生成高質(zhì)量畫面,但其千卡級算力消耗帶來的隱性成本,讓中小商家和個人創(chuàng)作者難以負擔。

根據(jù)實際用戶反饋,Seko已將單分鐘動畫成本從傳統(tǒng)方式的數(shù)萬元降至千元級別,降幅超99.5%以上,讓中小企業(yè)和個人創(chuàng)作者也能負擔專業(yè)級制作。

此外還需注意的是,Sora 2目前仍采用邀請制,并沒有免費向大眾開放,導致大量潛在用戶無法直觀體驗。再加上用戶紛紛在社交平臺上傳Sora 2生成的短視頻,涉及諸多熱門影視節(jié)目角色,使得其在版權(quán)方面的監(jiān)管被廣泛質(zhì)疑。

目前,Seko已經(jīng)全面向用戶開放,其上線1個月就擁有超10萬名創(chuàng)作者,生成視頻內(nèi)容超50萬條。這些真實的用戶案例和數(shù)據(jù),是Seko開箱即用潛力最有力的證明,其讓AI視頻創(chuàng)作變?yōu)榭深A(yù)期、可調(diào)整、可落地的過程,這也成為其區(qū)別于同類產(chǎn)品的核心競爭力。

結(jié)語:AI視頻競爭回歸實用價值,Seko憑可控+普惠領(lǐng)跑

當下AI視頻產(chǎn)業(yè)的發(fā)展意味著,其競爭正在回歸到價值本身,即能否以更低門檻、更可控過程和更低成本為用戶交付可用成果。

Sora 2與商湯Seko共同指向的“成片智能體”,正是破解視頻生成普及難題的關(guān)鍵。商湯Seko通過創(chuàng)作可控性和商業(yè)普惠性,正在將這一藍圖變?yōu)橛|手可及的商業(yè)現(xiàn)實。這條本土超越之路,或許正是AI視頻普及的關(guān)鍵路徑。

此外,Seko還有一大獨特優(yōu)勢是集合多種大模型,未來或許也會接入更多模型的能力,為用戶提供1+1>2的更優(yōu)成片效果。