智東西(公眾號(hào):zhidxcom)
作者 | GenAICon 2024

2024中國(guó)生成式AI大會(huì)于4月18-19日在北京舉行,在大會(huì)第二天的主會(huì)場(chǎng)AI Infra專(zhuān)場(chǎng)上,新加坡國(guó)立大學(xué)校長(zhǎng)青年教授、潞晨科技創(chuàng)始人兼董事長(zhǎng)尤洋以《技術(shù)共享:類(lèi)Sora開(kāi)源架構(gòu)模型與訓(xùn)練細(xì)節(jié)》為題發(fā)表演講。

潞晨科技在今年3月開(kāi)源的全球首個(gè)類(lèi)Sora視頻生成模型Open-Sora,是迄今GitHub上獲得星標(biāo)數(shù)最高的開(kāi)源視頻大模型項(xiàng)目之一,截至發(fā)稿前已有1.6萬(wàn)個(gè)星標(biāo),用戶群體遍及全球。

值得一提的是,這個(gè)模型在低成本下訓(xùn)練而成,相比Sora耗費(fèi)數(shù)千張H100 GPU、花費(fèi)數(shù)千萬(wàn)美元乃至數(shù)億美元,Open-Sora的訓(xùn)練成本僅不到1萬(wàn)美元。

尤洋認(rèn)為,視頻生成正處于“GPT-2時(shí)刻”,還沒(méi)有出現(xiàn)成熟的應(yīng)用。對(duì)于視頻生成模型來(lái)說(shuō),數(shù)據(jù)可能是最核心的資產(chǎn)。他還談到,模型開(kāi)源是有意義且重要的。正如Meta最新發(fā)布的Llama 3,極大地調(diào)動(dòng)了開(kāi)源社區(qū)的積極性,不但造福大量開(kāi)發(fā)者,更有助于開(kāi)源社區(qū)整體的繁榮。

因此,Open-Sora模型也進(jìn)行了全面的訓(xùn)練流程開(kāi)源,開(kāi)源了包括模型架構(gòu)、模型權(quán)重、訓(xùn)練細(xì)節(jié)、數(shù)據(jù)處理在內(nèi)的多項(xiàng)技術(shù)細(xì)節(jié),讓更多的開(kāi)發(fā)者可以嘗試Open-Sora模型,共同迭代與升級(jí)。

在演講期間,他詳細(xì)解讀了成功復(fù)現(xiàn)類(lèi)Sora視頻生成模型的四個(gè)關(guān)鍵要素,并分享了Open-Sora的底層架構(gòu)、demo和教程。

在他看來(lái),考慮到成本壓力,視頻生成模型將分為大規(guī)模圖像預(yù)訓(xùn)練、大規(guī)模視頻預(yù)訓(xùn)練、高質(zhì)量視頻數(shù)據(jù)微調(diào)三個(gè)階段。在模型設(shè)計(jì)上,時(shí)空分割處理將是顯著降低視頻生成模型計(jì)算成本和內(nèi)存壓力的關(guān)鍵一步。他還提到,Open-Sora未來(lái)的發(fā)展方向主要在于完善數(shù)據(jù)處理流程以及訓(xùn)練視頻壓縮Encoder

以下為尤洋的演講實(shí)錄:

我演講的主題是最近做的Open-Sora,希望幫助更多中小企業(yè)以及研究人員去快速地復(fù)現(xiàn)類(lèi)似Sora這樣的視頻生成模型。

首先簡(jiǎn)要介紹一下我的技術(shù)背景。這張照片拍攝自我博士畢業(yè)答辯時(shí),圖中的人物包括我在加州大學(xué)伯克利分校的幾位教授,他們的專(zhuān)業(yè)背景主要集中在高性能計(jì)算(HPC)和計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域。HPC的目標(biāo)是提高模型訓(xùn)練的效率,即用成百上千的處理器卡來(lái)加快訓(xùn)練速度。CV則是視頻生成模型的關(guān)鍵技術(shù)之一,這與我的個(gè)人技術(shù)背景非常相似。

潞晨科技尤洋:如何用低成本做出類(lèi)Sora?成功復(fù)現(xiàn)有四個(gè)要素,時(shí)空分割是關(guān)鍵一步|GenAICon2024

目前,我們了解到大模型對(duì)計(jì)算能力的需求非常高,特別是在今天的Infra專(zhuān)場(chǎng)中,我們可以預(yù)見(jiàn),未來(lái)對(duì)算力要求最高的模型可能會(huì)是視頻生成模型

今天我的分享旨在拋磚引玉,我認(rèn)為視頻生成模型目前還處于一個(gè)相對(duì)早期的發(fā)展階段,其情形有點(diǎn)類(lèi)似于視頻領(lǐng)域的GPT-2時(shí)期。市場(chǎng)上尚未出現(xiàn)一個(gè)完全成熟且廣泛可用的視頻生成應(yīng)用。因此,我將分享我們?cè)谶@一領(lǐng)域的一些初步探索成果,并希望這能激發(fā)大家的興趣,進(jìn)而深入探討。

本次演講將分為幾個(gè)部分。首先,我會(huì)簡(jiǎn)單介紹Open-Sora模型,以及與之相關(guān)的OpenAI Sora。需要明確的是,盡管我們稱(chēng)之為Open-Sora,也確實(shí)采用了類(lèi)似于OpenAI技術(shù)報(bào)告中類(lèi)似的技術(shù),但它實(shí)際上是一個(gè)不同的模型。然后我將介紹Open-Sora的技術(shù)要點(diǎn)、性能表現(xiàn),以及我們對(duì)未來(lái)發(fā)展的規(guī)劃。

一、未來(lái)人人都能成為導(dǎo)演,視頻生成有顛覆教育和技術(shù)傳播的潛力

大家都看過(guò)Sora的Demo視頻,其效果確實(shí)令人震撼。未來(lái),我們可能會(huì)進(jìn)入一個(gè)每個(gè)人都能成為導(dǎo)演的時(shí)代,每個(gè)人都能夠迅速生成自己想要的視頻或故事,并且通過(guò)視頻這種形式進(jìn)行學(xué)習(xí),這很可能比傳統(tǒng)的文字學(xué)習(xí)效率要高得多。

如果我們需要了解某個(gè)問(wèn)題,能否讓AI為我們生成一段視頻,以便快速掌握相關(guān)知識(shí)呢?我認(rèn)為視頻生成技術(shù)有潛力顛覆教育和技術(shù)傳播領(lǐng)域。

在Sora模型之前,市場(chǎng)上已經(jīng)存在一些視頻生成工具,例如Pika、RunwayML、Stable Video等。然而,Sora在視頻長(zhǎng)度上實(shí)現(xiàn)了顯著的突破,超越了之前所有頂尖產(chǎn)品,因此其效果還是非常驚艷的。Sora的應(yīng)用前景非常可觀,可以涵蓋游戲、藝術(shù)、媒體創(chuàng)作、藥物研發(fā)、市場(chǎng)營(yíng)銷(xiāo)和教育等多個(gè)領(lǐng)域。甚至在未來(lái),許多物理模擬領(lǐng)域也可能采用視頻生成模型。

盡管如此,視頻生成技術(shù)目前尚未廣泛普及。我們希望能大幅降低制作電影或視頻的成本。以今天的標(biāo)準(zhǔn),制作一部?jī)?yōu)秀的電影可能需要高達(dá)五千萬(wàn)美元的投資,這顯然限制了普通人參與的可能性。但如果未來(lái)有了先進(jìn)的視頻生成模型,我們只需向AI描述我們的想法,它就能為我們生成一部高質(zhì)量的動(dòng)畫(huà)片或電影。

只有達(dá)到這樣的水平,視頻生成模型的真正價(jià)值才能得到最大化的體現(xiàn)。

二、介紹首個(gè)類(lèi)Sora開(kāi)源視頻生成模型,成功復(fù)現(xiàn)Sora有四個(gè)關(guān)鍵要素

在介紹了Sora及其影響力后,第二部分介紹一下Open-Sora。

Open-Sora是一個(gè)開(kāi)源的視頻生成模型項(xiàng)目,我們的目標(biāo)是將模型的重要部分都公之于眾,以便社區(qū)能進(jìn)一步發(fā)展這一技術(shù)。

潞晨科技尤洋:如何用低成本做出類(lèi)Sora?成功復(fù)現(xiàn)有四個(gè)要素,時(shí)空分割是關(guān)鍵一步|GenAICon2024

要成功復(fù)現(xiàn)視頻生成模型,主要包括幾個(gè)部分。

首先,需要了解模型的架構(gòu),比如我到底用的是Diffusion、Llama、GPT還是BERT,不同的架構(gòu)決定我模型基本的骨架。

其次,一旦模型訓(xùn)練完成,分享訓(xùn)練得到的權(quán)重也是非常重要的。這意味著其他人可以直接拿來(lái)用,而不需要從頭開(kāi)始訓(xùn)練模型。例如Meta剛剛開(kāi)放了Llama 3,盡管4000億參數(shù)版本還沒(méi)有完全訓(xùn)練完成,但已經(jīng)可以從中看到很好的效果。通過(guò)分享這些權(quán)重,社區(qū)可以快速地將模型部署到各種應(yīng)用中。

通過(guò)這種開(kāi)放的方式,我們希望能夠促進(jìn)視頻生成技術(shù)的創(chuàng)新和普及,讓更多有興趣的研究者和開(kāi)發(fā)者能夠參與進(jìn)來(lái),共同推動(dòng)這一領(lǐng)域的發(fā)展。

第三點(diǎn)非常關(guān)鍵,它涉及到開(kāi)源模型的透明度和可控性。

雖然現(xiàn)有的一些開(kāi)源模型,如Llama 1和Llama 2,已經(jīng)公開(kāi)了模型參數(shù)和使用方式,但它們并沒(méi)有公開(kāi)訓(xùn)練過(guò)程的具體細(xì)節(jié),包括超參數(shù)的設(shè)置。這導(dǎo)致了我們無(wú)法完全復(fù)現(xiàn)其預(yù)訓(xùn)練過(guò)程,也就是說(shuō),模型的預(yù)訓(xùn)練并不是百分百自主可控的。

我們認(rèn)為,如果未來(lái)的視頻生成大模型能夠?qū)崿F(xiàn)百分之百的自主可控,那么將能更有效地激發(fā)和調(diào)動(dòng)整個(gè)行業(yè)的生產(chǎn)力。

此外,數(shù)據(jù)處理也是決定模型性能的一個(gè)關(guān)鍵因素。

通過(guò)審視OpenAI的技術(shù)報(bào)告,我們可以發(fā)現(xiàn),盡管在模型架構(gòu)和算法方面,OpenAI并沒(méi)有特別強(qiáng)調(diào)其創(chuàng)新性,沿用了如Video Diffusion等現(xiàn)有模型,但OpenAI在數(shù)據(jù)方面做得非常出色。高質(zhì)量的數(shù)據(jù)是決定視頻生成效果的直接因素,因此,數(shù)據(jù)處理方式和數(shù)據(jù)集的質(zhì)量極為關(guān)鍵。

三、解讀STDiT架構(gòu)核心思想,將成本控制在1萬(wàn)美元

我將展示一些我們的demo和教程,這將涵蓋開(kāi)源模型的幾個(gè)重要組成部分。

從技術(shù)角度來(lái)看,Open-Sora模型采用了STDiT架構(gòu)。我們選擇STDiT的主要原因是考慮到成本效益。我們的目標(biāo)是將Open-Sora的成本控制在1萬(wàn)美金或者更少。

STDiT架構(gòu)的核心思想在于它包含時(shí)間維度的Self Attention和空間維度的Self Attention,這兩個(gè)方面是分開(kāi)處理的,而不是合并計(jì)算,這樣的設(shè)計(jì)可以顯著降低模型的訓(xùn)練和推理成本。相比于DiT模型,STDiT在成本上有著顯著的優(yōu)勢(shì),而且在相同的硬件條件下,其吞吐量也更高,這對(duì)于提升模型效率來(lái)說(shuō)是非常有利的。

潞晨科技尤洋:如何用低成本做出類(lèi)Sora?成功復(fù)現(xiàn)有四個(gè)要素,時(shí)空分割是關(guān)鍵一步|GenAICon2024

在架構(gòu)方面,我們的創(chuàng)新點(diǎn)并不是特別多,核心思想仍然與DiT的架構(gòu)相似。具體來(lái)說(shuō),處理視頻的流程是這樣的:首先,我們獲取一個(gè)視頻,然后通過(guò)Encoder將其壓縮到Latent Space中,這樣視頻就可以在這個(gè)空間中進(jìn)行交互和處理。這種方法實(shí)際上與文本到圖像生成的技術(shù)非常相似。

我們對(duì)文生圖的概念并不陌生。我們首先對(duì)視頻進(jìn)行壓縮,目的是為了將其轉(zhuǎn)換到潛在空間中。壓縮有兩個(gè)主要目的:首先,原始視頻文件可能非常大,直接處理它們成本太高;其次,我們的目標(biāo)是生成特定的視頻內(nèi)容,比如一只狗在雪地里追雪球的場(chǎng)景。如果我們不進(jìn)行壓縮,而是直接在原始視頻上操作,可能會(huì)生成不符合要求的內(nèi)容,比如生成了一只老虎或一只貓,即使視頻質(zhì)量再高,如果內(nèi)容不是我們想要的,那么這樣的結(jié)果顯然是不可接受的。

潞晨科技尤洋:如何用低成本做出類(lèi)Sora?成功復(fù)現(xiàn)有四個(gè)要素,時(shí)空分割是關(guān)鍵一步|GenAICon2024

通過(guò)這種方式,我們可以更有效地控制視頻生成的過(guò)程,確保生成的視頻內(nèi)容符合我們的預(yù)期和需求。這種方法不僅降低了處理成本,而且提高了生成視頻的準(zhǔn)確性和相關(guān)性。

在潛在空間中,我們需要融入人類(lèi)的指令,這些指令通常通過(guò)自然語(yǔ)言處理來(lái)實(shí)現(xiàn)。然而,自然語(yǔ)言數(shù)據(jù)類(lèi)型并不能直接與視頻信息進(jìn)行交互。因此,潛在空間的第二個(gè)關(guān)鍵作用是將自然語(yǔ)言也轉(zhuǎn)換到這個(gè)空間中。這樣潛在空間就包含了視覺(jué)信息和文本信息,使得這兩類(lèi)信息能夠在該空間內(nèi)進(jìn)行交互。這是我們壓縮視頻并將其轉(zhuǎn)換到潛在空間的兩個(gè)主要目的。

完成這一過(guò)程后,我們的工作流程與文本到圖像生成技術(shù)非常相似。文本到視頻生成本質(zhì)上是文本到圖像生成的一種擴(kuò)展,因?yàn)橐曨l可以被視為一系列圖片的集合。在這種情況下,我們?nèi)匀恍枰梃b許多文本到圖像生成的技術(shù)。

具體到實(shí)現(xiàn)方式,與擴(kuò)散模型的做法非常相似,我們通過(guò)引入高斯噪聲來(lái)生成所需的視頻。首先,在潛在空間中隨機(jī)采樣一個(gè)高斯噪聲,然后將這個(gè)噪聲與人類(lèi)的指令一起輸入模型,模型據(jù)此生成視頻。最后,我們將生成的視頻從潛在空間解碼回原始的三維空間,完成整個(gè)生成過(guò)程。

四、視頻生成模型三階段:圖像預(yù)訓(xùn)練,視頻預(yù)訓(xùn)練,高質(zhì)量視頻數(shù)據(jù)微調(diào)

至于如何實(shí)現(xiàn)這一技術(shù),考慮到成本的壓力,我們可以將其分為三個(gè)階段進(jìn)行。

盡管今天介紹的技術(shù)在未來(lái)十年或二十年可能會(huì)被新的技術(shù)所取代,但在當(dāng)前算力有限的情況下,我們可能需要采取分階段的方法來(lái)訓(xùn)練高質(zhì)量的視頻模型。直接使用高質(zhì)量視頻數(shù)據(jù)訓(xùn)練視頻模型的成本可能高達(dá)數(shù)千萬(wàn)甚至數(shù)億美元,這顯然限制了大多數(shù)人參與的可能性。

在成本受限的現(xiàn)實(shí)條件下,我們的策略是,首先找到一個(gè)不錯(cuò)的文本到圖像生成模型,這類(lèi)模型目前比較容易獲取,市場(chǎng)上也有很多選擇,當(dāng)然我們也可以自己訓(xùn)練一個(gè)。

第二階段,有了文生圖模型,再給它大量視頻做初始訓(xùn)練,讓它對(duì)視頻世界有很好的理解。

第三階段,用高質(zhì)量、精挑的視頻提升它的視頻質(zhì)量。這種思想在大模型領(lǐng)域已經(jīng)用了七八年,早在2018年、我們訓(xùn)練BERT的時(shí)候,BERT訓(xùn)練也是分兩個(gè)階段,第一階段sequence是128,第二階段的sequence是512。短序列上讓它對(duì)自然語(yǔ)言有基本的理解,再在長(zhǎng)序列上微調(diào),給它一個(gè)更好的生成效果,這些其實(shí)都是出于成本的壓力才這樣操作的。

理論上我們有無(wú)限算力的話,我們應(yīng)該直接拿最好的數(shù)據(jù)讓它去訓(xùn)練。包括Llama、GPT,它們訓(xùn)練時(shí)也都參考了類(lèi)似的思路,先在短序列上大規(guī)模訓(xùn)練,之后再在長(zhǎng)序列或者更好的數(shù)據(jù)上去做微調(diào),提升最終的模型生成質(zhì)量。

具體而言,我們可以看一下三個(gè)階段究竟是怎么操作的

第一個(gè)階段還比較簡(jiǎn)單,現(xiàn)在有很多文生圖的模型,即便不自己訓(xùn)練,也可能找一些不錯(cuò)的文生圖模型,它其實(shí)就是我的基準(zhǔn),我從起點(diǎn)開(kāi)始去構(gòu)造我的整個(gè)方案。我們改造Stable Diffusion,可以快速把這件事完成。

潞晨科技尤洋:如何用低成本做出類(lèi)Sora?成功復(fù)現(xiàn)有四個(gè)要素,時(shí)空分割是關(guān)鍵一步|GenAICon2024

第二階段,現(xiàn)在有了基本對(duì)三維世界的理解,文生圖本質(zhì)上還是對(duì)自然語(yǔ)言指令信息轉(zhuǎn)到三維世界,有一個(gè)基本的能力之后,現(xiàn)在我希望它每秒鐘能生成很多圖,每秒鐘生成60張圖就是一個(gè)視頻了。這種情況下,再進(jìn)一步給它很多視頻數(shù)據(jù)讓它訓(xùn)練。

我們的創(chuàng)新點(diǎn)有兩部分,用了STDiT,有時(shí)間信息和空間信息,我們新加了時(shí)間上的Attention模塊,因?yàn)楸旧硪呀?jīng)有空間上的Attention模塊。比如空間上就是S,時(shí)間上就是T,現(xiàn)在有一個(gè)S和T,S是已經(jīng)訓(xùn)得差不多了,T剛剛開(kāi)始。S相當(dāng)于是一個(gè)初中生,T相當(dāng)于是一個(gè)嬰兒,但現(xiàn)在我們希望S和T都能達(dá)到大學(xué)生的水平。

有時(shí)我們會(huì)采用一種混合訓(xùn)練的方法,即將成熟度不同的模型一起訓(xùn)練。這種方法聽(tīng)起來(lái)可能有些冒險(xiǎn),因?yàn)镾可能已經(jīng)相當(dāng)于一個(gè)初中生,而T可能還只是一個(gè)剛剛起步的嬰兒。如果將它們放在一起訓(xùn)練,可能會(huì)擔(dān)心它們無(wú)法跟上對(duì)方學(xué)習(xí)的節(jié)奏。

然而,現(xiàn)代的大型模型擁有龐大的參數(shù)量,這使得它們能夠通過(guò)適當(dāng)?shù)恼{(diào)整迅速自適應(yīng)不同的學(xué)習(xí)速度。在這種情況下,盡管S模型最初學(xué)習(xí)速度較慢,但T模型可以快速增長(zhǎng),最終兩者都能迅速達(dá)到相同的水平,最終都能達(dá)到相當(dāng)于大學(xué)生的能力水平

即使我們沒(méi)有自己的S模型,也可以利用一些現(xiàn)有的資源。當(dāng)我們引入T模型后,通過(guò)適當(dāng)?shù)恼虾驼{(diào)整,可以顯著提升整體系統(tǒng)的性能。

潞晨科技尤洋:如何用低成本做出類(lèi)Sora?成功復(fù)現(xiàn)有四個(gè)要素,時(shí)空分割是關(guān)鍵一步|GenAICon2024

這種策略體現(xiàn)了深度學(xué)習(xí)模型訓(xùn)練的靈活性和適應(yīng)性,通過(guò)合理的設(shè)計(jì)和調(diào)整,即使是成熟度不同的模型也能夠協(xié)同工作,最終實(shí)現(xiàn)性能的共同提升。

當(dāng)我們擁有了視頻生成模型之后,接下來(lái)的第三部分工作是使用更高質(zhì)量的視頻數(shù)據(jù)對(duì)模型進(jìn)行精調(diào)。

這里的核心區(qū)別在于,第三部分生成的視頻在質(zhì)量上將顯著優(yōu)于第二部分。盡管第二部分的模型已經(jīng)對(duì)三維視覺(jué)世界有了一定的理解,但其生成的視頻質(zhì)量仍有提升空間,這也正是我們進(jìn)行第三階段工作的原因。

在這一過(guò)程中,還有一個(gè)關(guān)鍵點(diǎn)值得注意,即我們?cè)贠penAI的技術(shù)報(bào)告中發(fā)現(xiàn),他們使用了多模態(tài)版本的GPT-4來(lái)進(jìn)行視頻描述,但這種方法的成本較高。為了降低成本,我們轉(zhuǎn)而采用了開(kāi)源的LLaVA 1.6模型來(lái)進(jìn)行視頻描述任務(wù)。LLaVA 1.6是基于E34B數(shù)據(jù)集訓(xùn)練的,如果大家對(duì)此感興趣,可以進(jìn)一步了解和探索。

通過(guò)使用LLaVA 1.6,我們能夠在保持描述質(zhì)量的同時(shí),減少計(jì)算資源的消耗。這種方法不僅有助于提升最終視頻產(chǎn)品的質(zhì)量,也使得整個(gè)視頻生成過(guò)程更加高效和經(jīng)濟(jì),從而為更廣泛的應(yīng)用場(chǎng)景和用戶群體提供了可能性。

潞晨科技尤洋:如何用低成本做出類(lèi)Sora?成功復(fù)現(xiàn)有四個(gè)要素,時(shí)空分割是關(guān)鍵一步|GenAICon2024

五、如何將成本降到最低?時(shí)空分割是關(guān)鍵一步

介紹完整體的模型、算法、設(shè)計(jì)流程之后,接下來(lái)考慮如何把成本降到最低。

要想把成本控制在1萬(wàn)美金左右,顯然我們不能用太多的GPU,我們可以簡(jiǎn)單地做一筆數(shù)學(xué)計(jì)算。現(xiàn)在H800一臺(tái)月租8萬(wàn)-10萬(wàn)人民幣,假設(shè)有8臺(tái)H800,每月的租金就要80萬(wàn),如果用20臺(tái),每月的租金大概需要200萬(wàn)。要想一次性試驗(yàn)成本控制在10萬(wàn)以下,只能用8臺(tái)H800 64個(gè)H800GPU,就需要把速度、效率破到最高。

之前我們打造了Colossal-AI系統(tǒng),從三個(gè)角度,高效的內(nèi)存優(yōu)化、N維并行系統(tǒng)、低延遲推理,通過(guò)Colossal-AI進(jìn)一步實(shí)現(xiàn)2-4倍的加速。

訓(xùn)練過(guò)程中,一個(gè)關(guān)鍵因素是它們需要處理的序列長(zhǎng)度通常非常長(zhǎng)。無(wú)論是國(guó)內(nèi)還是美國(guó)的大模型,研究者們都在努力擴(kuò)展模型的序列長(zhǎng)度,以期獲得更高的預(yù)測(cè)精度。以GPT模型為例,其損失函數(shù)依賴(lài)于一個(gè)窗口的信息來(lái)預(yù)測(cè)下一個(gè)詞的概率,窗口越大,即包含的信息越多,預(yù)測(cè)的準(zhǔn)確性也就越高。

對(duì)于視頻生成模型而言,即便是較短的視頻,其序列長(zhǎng)度,這里指的是幀數(shù),即每秒鐘包含的畫(huà)面數(shù)量,也可能是巨大的。例如,即便是每秒24幀的視頻,如果幀率提高到60,那么在數(shù)據(jù)訓(xùn)練中的長(zhǎng)度可能達(dá)到150萬(wàn)tokens,這將導(dǎo)致計(jì)算和內(nèi)存開(kāi)銷(xiāo)急劇增加。

因此,將時(shí)間信息和空間信息進(jìn)行分割處理是非常關(guān)鍵的一步。通過(guò)時(shí)空分割,我們可以顯著降低計(jì)算成本和內(nèi)存壓力。具體來(lái)說(shuō),這意味著我們不是同時(shí)計(jì)算時(shí)間信息和空間信息,而是分步驟進(jìn)行,先處理時(shí)間維度,再處理空間維度,這樣可以大幅提升處理效率。

通過(guò)這種方法,我們可以更高效地訓(xùn)練視頻生成模型,同時(shí)控制計(jì)算資源的消耗,使得模型訓(xùn)練變得更加可行,即使是在資源有限的情況下。

潞晨科技尤洋:如何用低成本做出類(lèi)Sora?成功復(fù)現(xiàn)有四個(gè)要素,時(shí)空分割是關(guān)鍵一步|GenAICon2024

經(jīng)過(guò)我們的優(yōu)化之后,訓(xùn)練策略提升了很大。從右圖可以看出,即使在8個(gè)GPU上訓(xùn)練速度也提升了16%,尤其在Encoder部分,計(jì)算密集型任務(wù)也實(shí)現(xiàn)了顯著加速。

潞晨科技尤洋:如何用低成本做出類(lèi)Sora?成功復(fù)現(xiàn)有四個(gè)要素,時(shí)空分割是關(guān)鍵一步|GenAICon2024

六、低成本模型能生成20秒視頻,Open-Sora已獲得1.4萬(wàn)個(gè)GitHub星標(biāo)

最后展示下我們的demo。我們的demo遠(yuǎn)差于OpenAI,主要有兩個(gè)原因:

首先,我們的demo是在低成本條件下完成的,OpenAI使用了2000到4000個(gè)H100 GPU,花費(fèi)了五千萬(wàn)美元到兩億美元,而我們僅用了不到1萬(wàn)美金進(jìn)行試驗(yàn)。在如此有限的預(yù)算下,我們?nèi)〉玫男Ч强山邮艿摹?/p>

其次,我們沒(méi)有使用大量的數(shù)據(jù)。通常數(shù)據(jù)質(zhì)量越高,生成的視頻質(zhì)量越好。如果我們采用更好的數(shù)據(jù)集,我們目前的內(nèi)部版本能夠生成大約20秒的視頻。這是一個(gè)在成本受限條件下的演示版本,感興趣的朋友可以在我們GitHub頁(yè)面上查看更多信息。

Open-Sora目前在視頻大模型開(kāi)源領(lǐng)域中是GitHub上獲得星標(biāo)數(shù)最高的項(xiàng)目之一。自從我們?cè)?月3日開(kāi)源以來(lái),已經(jīng)獲得了1.6萬(wàn)個(gè)星標(biāo),用戶群體遍布全球,包括中國(guó)、美國(guó)、歐洲、印度和東南亞。

我們的發(fā)展方向包括完善數(shù)據(jù)處理流程。我再次強(qiáng)調(diào),對(duì)于視頻生成模型來(lái)說(shuō),數(shù)據(jù)可能是最核心的資產(chǎn)。雖然算法大多是公開(kāi)的,比如STDiT、DiT或Video Diffusion,大家使用的算法和模型結(jié)構(gòu)相似,結(jié)果也不會(huì)有太大差異。但是,如果數(shù)據(jù)質(zhì)量有顯著差異,那么模型的質(zhì)量也會(huì)有很大差別。因此數(shù)據(jù)處理流程非常關(guān)鍵。

此外,視頻壓縮和編碼也非常重要,如何將視覺(jué)信息有效地轉(zhuǎn)換到潛在空間,以及潛在空間是否能夠準(zhǔn)確表達(dá)視頻內(nèi)容的所有信息,這對(duì)于模型的推理和學(xué)習(xí)過(guò)程至關(guān)重要。

以上是尤洋演講內(nèi)容的完整整理。