智東西(公眾號(hào):zhidxcom)
編譯 | 楊蕊伃
編輯 |?漠影

智東西10月11日消息,據(jù)VentureBeat報(bào)道,北京大學(xué)、北京郵電大學(xué)和快手科技在本周聯(lián)合開源了一款名為Pyramid Flow的高清視頻生成模型。Pyramid Flow能根據(jù)文本描述制作長(zhǎng)達(dá)10秒、分辨率為1280×768、每秒24幀的視頻。

Pyramid Flow采用了金字塔流匹配算法,優(yōu)化了視頻生成的效率和質(zhì)量。這一算法將視頻生成過程分解為多個(gè)階段,每個(gè)階段對(duì)應(yīng)著不同的分辨率。

在推理階段,Pyramid Flow模型能夠以相當(dāng)快的速度生成視頻。具體來說,它可以在56秒內(nèi)生成一段時(shí)長(zhǎng)為5秒、分辨率為384p的視頻,這一速度與市面上許多全序列擴(kuò)散模型相當(dāng),甚至更快。

目前,該項(xiàng)目已經(jīng)在Hugging Face和GitHub上開源。

開源地址:

1、https://github.com/jy0205/Pyramid-Flow

2、https://huggingface.co/rain1011/pyramid-flow-sd3

一、金字塔流匹配算法:高質(zhì)量AI視頻新技術(shù),逐層提高分辨率

文生視頻領(lǐng)域有一個(gè)非常難的技術(shù)挑戰(zhàn),就是如何有效地處理和生成高維度的視頻數(shù)據(jù)。

針對(duì)這一技術(shù)挑戰(zhàn),Pyramid Flow研發(fā)團(tuán)隊(duì)提出了金字塔流匹配算法。

金字塔流匹配算法的核心思想是將視頻生成過程分解為多個(gè)階段來有效處理高維度的視頻數(shù)據(jù)。這些階段從低分辨率開始,逐步升級(jí)到高分辨率,從而逐步提升視頻的清晰度。

這個(gè)過程就像是先畫一個(gè)簡(jiǎn)單的草圖,然后一點(diǎn)點(diǎn)地加上顏色和細(xì)節(jié),直到畫出一幅完整的畫。

北大、快手開源視頻生成模型Pyramid Flow,1分鐘生成5秒視頻

▲金字塔流匹配算法:視頻的生成是在不同的分辨率層次上逐步進(jìn)行的(圖源:arxiv論文截圖)

二、開源數(shù)據(jù)集訓(xùn)練,Pyramid Flow生成5-10秒高清視頻

Pyramid Flow模型通過分階段的方式生成視頻,大大減少了計(jì)算成本。

▲Pyramid Flow生成的視頻展示(圖源:Pyramid Flow官網(wǎng))

與傳統(tǒng)的擴(kuò)散模型相比,Pyramid Flow的金字塔流匹配算法將token數(shù)量減少了4倍。

▲Pyramid Flow生成的視頻展示(圖源:Pyramid Flow官網(wǎng))

據(jù)官網(wǎng)介紹,該模型可以在768p分辨率和每秒24幀的條件下生成5至10秒的視頻,并且是基于開源數(shù)據(jù)集進(jìn)行訓(xùn)練的。

▲Pyramid Flow生成的視頻展示(圖源:Pyramid Flow官網(wǎng))

具體來說,Pyramid Flow在訓(xùn)練時(shí)用到的數(shù)據(jù)集包括LAION-5B、CC-12M、SA-1B以及WebVid-10M和OpenVid-1M等。

1、LAION-5B:一個(gè)用于多模態(tài)AI研究的大型數(shù)據(jù)集。

2、CC-12M:一個(gè)由網(wǎng)絡(luò)爬蟲收集的圖像文本對(duì)的數(shù)據(jù)集。

3、SA-1B:具有高質(zhì)量、無模糊圖像的數(shù)據(jù)集。

4、WebVid-10M和OpenVid-1M:兩個(gè)被廣泛用于文本到視頻生成的視頻數(shù)據(jù)集。

三、寬松許可,Pyramid Flow開源商業(yè)用途,輕松實(shí)現(xiàn)視頻微調(diào)

Pyramid Flow是開源的AI視頻生成工具,它允許用戶用在商業(yè)項(xiàng)目里,但須保留版權(quán)聲明。

▲Pyramid Flow生成的視頻展示(圖源:Pyramid Flow官網(wǎng))

通過使用Pyramid Flow,用戶可以免費(fèi)調(diào)整視頻細(xì)節(jié),這項(xiàng)功能對(duì)于電影制片廠來說很有吸引力。

電影制片廠可以通過使用Pyramid Flow來提高視頻制作效率、降低視頻制作成本,并探索新的視頻創(chuàng)意工具。

不過,要想充分利用好這一模型,電影制片廠還需要具備一定的開發(fā)人才和計(jì)算資源。

目前,Pyramid Flow缺乏像Runway Gen-3 Alpha這樣的模型所具備的一些高級(jí)微調(diào)功能,比如精確控制攝像機(jī)角度、關(guān)鍵幀和人體姿態(tài)等電影元素。

▲Pyramid Flow生成的視頻展示(圖源:Pyramid Flow官網(wǎng))

▲Pyramid Flow生成的視頻展示(圖源:Pyramid Flow官網(wǎng))

▲Pyramid Flow生成的視頻展示(圖源:Pyramid Flow官網(wǎng))

來源:VentureBeat、Pyramid Flow官網(wǎng)、arxiv