智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西10月1日報道,今日凌晨,OpenAI發(fā)布了旗艦視頻和音頻生成模型Sora 2,并推出“AI版抖音”——Sora應(yīng)用程序。

OpenAI將Sora 2稱作“正直奔視頻領(lǐng)域的GPT-3.5時刻”。相比之前的Sora,Sora 2能更加精準逼真地模擬物理世界,并且更易于控制,還支持同步對話和音效。

從官方公布的視頻Demo來看,它可以完成一些對于之前的視頻生成模型難以完成的事情:奧運會體操動作、精準模擬浮力和槳板上后空翻,以及花滑運動員頭頂貓咪的三周半跳。

▲提示詞:花樣滑冰運動員頭頂一只貓表演三周半跳

Sora應(yīng)用程序定位一款社交App,支持用戶將自己生成的視頻上傳,并通過“客串”功能讓用戶參與到好友視頻創(chuàng)作中。OpenAI的目標是試圖打造一種全新獨特的人際溝通方式。

剛剛,Sora 2來了!OpenAI還發(fā)了“AI抖音”,阿爾特曼被“玩壞”

▲OpenAI推出社交App Sora

目前,Sora iOS應(yīng)用程序現(xiàn)已開放下載,以邀請制的形式在美國和加拿大推出。獲得邀請碼的用戶也可在Sora官網(wǎng)免費體驗Sora 2,ChatGPT Pro用戶可以體驗更高質(zhì)量的Sora 2 Pro模型。

Sora 2一經(jīng)發(fā)布就在外網(wǎng)炸開了鍋,有大部分人是求邀請碼的,有小部分人已拿到邀請碼。社交平臺X上立馬出現(xiàn)了不少Sora 2生成視頻,甚至連OpenAI CEO薩姆·阿爾特曼都被“玩壞了”。

剛剛,Sora 2來了!OpenAI還發(fā)了“AI抖音”,阿爾特曼被“玩壞”

同時也有不少人感到擔(dān)憂,X上的一位用戶稱:“幾個月后,我們將無法區(qū)分什么是真實的,什么不是真實的,那將是一個可怕的時代?!?/p>

剛剛,Sora 2來了!OpenAI還發(fā)了“AI抖音”,阿爾特曼被“玩壞”

▲社交平臺X的網(wǎng)友評論

一、Sora 2來了:“視頻領(lǐng)域的GPT-3.5時刻”

OpenAI稱,2024年2月發(fā)布的Sora在很多方面都堪稱視頻領(lǐng)域的“GPT-1 時刻”——視頻生成首次開始顯現(xiàn)成效,通過擴展預(yù)訓(xùn)練計算能力,物體持久性等需求得以實現(xiàn)。

OpenAI將Sora 2稱作“正直奔視頻領(lǐng)域的GPT-3.5時刻”。先前的視頻模常常使得物體變形并扭曲現(xiàn)實,以便成功執(zhí)行文本提示。例如,如果籃球運動員投籃不中,球可能會自動傳送到籃筐。但在Sora 2中,如果籃球運動員投籃不中,球會從籃板上反彈。

還比如,下面這個Sora 2生成的后空翻視頻,表演者甚至在落地后有一些踉蹌,且臉上出現(xiàn)了因小失誤有些尷尬的表情,很像真實生活中的場景。

▲提示詞:一個人做后空翻

有趣的是,該模型犯下的“錯誤”往往看起來像是Sora 2 隱式建模的內(nèi)部智能體所犯的錯誤;盡管它仍然不完美,但與先前的系統(tǒng)相比,它在遵循物理定律方面做得更好。

OpenAI認為,對于任何有用的世界模擬器來說,這都是一項極其重要的能力——你必須能夠模擬失敗,而不僅僅是成功。

該模型在可控性方面也實現(xiàn)了巨大的飛躍,能夠執(zhí)行跨越多個鏡頭的復(fù)雜指令,同時精準地保留世界狀態(tài)。它擅長處理寫實、電影和動漫風(fēng)格。

▲提示詞:維京人參戰(zhàn)——北海發(fā)射(10.0 秒,冬季涼爽的日光/中世紀早期)……

作為通用的視頻音頻生成系統(tǒng),它能夠創(chuàng)建具有高度真實感的復(fù)雜背景音景、語音和音效。

▲提示詞:兩名身穿亮色技術(shù)盔甲的登山探險者,臉上結(jié)滿冰霜,瞇著眼睛,急切地在雪地里喊叫,一次一個

用戶還可以將現(xiàn)實世界的元素直接注入Sora 2。例如,通過觀察我們一位隊友的視頻,該模型可以將其插入到任何由Sora生成的環(huán)境中,并準確刻畫其外貌和聲音。這項功能非常通用,適用于任何人類、動物或物體。

▲提示詞:大腳對他真的很好,有點兒太好了,好得有點兒古怪。大腳想跟他一起玩,但他想玩得太多了。

OpenAI稱,該模型遠非完美,并且存在很多錯誤,但它證實了進一步擴大視頻數(shù)據(jù)上的神經(jīng)網(wǎng)絡(luò)將使我們更接近模擬現(xiàn)實。

二、AI版抖音推出,真人“客串”視頻,新社交神器?

今天,OpenAI還推出了一款名為“Sora”的全新iOS社交應(yīng)用,該應(yīng)用由Sora 2提供支持。

在應(yīng)用中,用戶可以創(chuàng)作、混錄彼此的創(chuàng)作風(fēng)格,在可自定義的Sora動態(tài)中發(fā)現(xiàn)新視頻,并通過“客串(Cameos)”功能將自己或好友引入到視頻中。使用客串功能,用戶只需在應(yīng)用中進行一次簡短的音視頻錄制,即可以驚人的保真度將自己直接帶入任何Sora場景。

剛剛,Sora 2來了!OpenAI還發(fā)了“AI抖音”,阿爾特曼被“玩壞”

這看起來像一款A(yù)I版的抖音或TikTok,而OpenAI認為,圍繞這項“客串”功能構(gòu)建的社交應(yīng)用是Sora 2體驗的魅力所在。

幾個月前,OpenAI在Sora團隊開始嘗試“上傳自己生成的視頻”的功能,他們都玩得很開心。OpenAI稱,這感覺就像是溝通方式的自然演變——從短信到表情符號,再到語音備忘錄,再到現(xiàn)在的視頻。

上周,OpenAI向全體員工內(nèi)部發(fā)布了這款應(yīng)用。已經(jīng)有同事反饋,他們通過這項功能在公司結(jié)識了新朋友。

三、邀請制推出,Sora 2免費可用,Pro用戶體驗更高級

OpenAI將Sora應(yīng)用以邀請制的形式推出,確保用戶能與好友一同使用。

收到邀請后,用戶還可以通過sora.com訪問Sora 2 。Sora 2最初將免費提供,但這些功能仍受計算能力限制。ChatGPT Pro用戶還可以在sora.com上使用實驗性的、更高質(zhì)量的Sora 2 Pro模型。

OpenAI還計劃在API中發(fā)布Sora 2。Sora 1 Turbo將繼續(xù)可用,用戶創(chuàng)建的所有內(nèi)容也將繼續(xù)存在于sora.com中。

為了防止上癮等問題,OpenAI將采取一系列措施。

一是其將為用戶提供工具和自主選擇權(quán),讓他們能夠掌控信息流中的內(nèi)容。利用OpenAI現(xiàn)有的大型語言模型,其開發(fā)了一類新的推薦算法,可以通過自然語言進行指導(dǎo);還內(nèi)置了定期調(diào)查用戶健康狀況的機制,并主動為他們提供調(diào)整信息流的選項。

默認情況下,OpenAI會向用戶顯示主要針對關(guān)注或互動的人的內(nèi)容,并優(yōu)先顯示模型認為用戶最有可能用作創(chuàng)作靈感的視頻;不會針對用戶在動態(tài)信息流中花費的時間進行優(yōu)化,明確設(shè)計這款應(yīng)用的初衷是最大限度地提升創(chuàng)作量,而非消費量。

在青少年保護方面,OpenAI將通過ChatGPT推出Sora家長控制功能,以便家長可以覆蓋無限滾動限制、關(guān)閉算法個性化以及管理私信設(shè)置。

在客串功能方面,用戶可以與Sora端到端地掌控肖像。只有用戶本人才能決定誰可以使用自己的客串,并且可以隨時撤銷訪問權(quán)限或移除包含該客串的任何視頻。用戶可以隨時查看包含您客串的視頻,包括其他人創(chuàng)建的草稿。

OpenAI在這款應(yīng)用中處理了許多安全問題,例如肖像使用方面的知情同意、出處確認、防止有害內(nèi)容的生成等等。

剛剛,Sora 2來了!OpenAI還發(fā)了“AI抖音”,阿爾特曼被“玩壞”

其他應(yīng)用的很多問題都源于其盈利模式。OpenAI目前唯一的計劃是,如果需求量相對于可用計算能力過大,最終允許用戶選擇支付一定金額來生成額外的視頻。

結(jié)語:Sora 2憋大招,或推動視頻生成產(chǎn)業(yè)洗牌

自O(shè)penAI在2024年2月發(fā)布Sora已經(jīng)過去超一年半時間,Sora 2終于到來。從效果來看,這款模型在模擬真實性、可控性及音效方面都有比較大的進展,有望推動視頻生成產(chǎn)業(yè)格局加速洗牌。

視頻模型正在飛速發(fā)展,通用世界模擬器不僅提供了新的內(nèi)容生成方式,還有望重塑人際溝通方式。OpenAI正通過全新的Sora社交App靠近這一目標,也標志視頻生成模型在落地應(yīng)用上更加成熟。