智東西(公眾號(hào):zhidxcom)
作者 | 程茜
編輯 | 心緣

智東西7月19日?qǐng)?bào)道,今日下午,在字節(jié)跳動(dòng)AI技術(shù)菁英論壇上,字節(jié)跳動(dòng)豆包大模型視覺(jué)基礎(chǔ)研究團(tuán)隊(duì)負(fù)責(zé)人馮佳時(shí)主持,多位視覺(jué)大模型研究的關(guān)鍵人物集中演講,詳細(xì)解讀字節(jié)跳動(dòng)在視頻生成和3D圖像生成模型的一系列創(chuàng)新技術(shù)。

作為國(guó)內(nèi)短視頻王者,字節(jié)跳動(dòng)是國(guó)內(nèi)最受關(guān)注的AI視頻生成玩家之一,從去年11月發(fā)布高動(dòng)態(tài)視頻生成研究成果PixelDance、今年發(fā)布AI視頻生成模型MagicVideo-V2和開(kāi)啟AI創(chuàng)作工具即夢(mèng)Dreamina視頻生成功能的測(cè)試,每次進(jìn)展都吸引了大量開(kāi)發(fā)者關(guān)注。

今天,字節(jié)跳動(dòng)研究科學(xué)家周大權(quán)回顧了字節(jié)跳動(dòng)過(guò)視頻生成模型的三年發(fā)展歷程,以及字節(jié)在連續(xù)高動(dòng)態(tài)長(zhǎng)視頻生成技術(shù)上的探索。

此外,字節(jié)研究科學(xué)家Bingyi Kang、張健鋒、廖俊豪分別分享了單目深度估計(jì)基礎(chǔ)模型Depth Aything、多視角條件擴(kuò)散模型Magic-Boost、拖拽式圖像編輯工具InstaDrag的最新成果。

一、視頻生成一分為二,先文生圖、再圖生視頻

字節(jié)跳動(dòng)研究科學(xué)家周大權(quán)的演講主題是《連續(xù)高動(dòng)態(tài)的長(zhǎng)視頻生成方案探索》,為了讓生成視頻中主要角色的運(yùn)動(dòng)范圍擴(kuò)大,字節(jié)跳動(dòng)將這一過(guò)程分為文生圖、圖生視頻兩步,使得模型生成所需的GPU資源和訓(xùn)練數(shù)據(jù)減少。

2022年,字節(jié)跳動(dòng)發(fā)布了視頻生成模型的第一個(gè)版本,在這之后,研究人員開(kāi)始在移動(dòng)算法、硬件效率等維度進(jìn)行模型優(yōu)化。在運(yùn)動(dòng)算法優(yōu)化方面,研究人員需要?jiǎng)?chuàng)建長(zhǎng)視頻數(shù)據(jù)集。

字節(jié)跳動(dòng)科學(xué)家組團(tuán)演講,揭秘AI視頻生成大招!

目前,視頻生成效果中運(yùn)動(dòng)范圍都較小,如下圖中人物的運(yùn)動(dòng)軌跡實(shí)際上在整個(gè)畫(huà)面中只占很小的位置。

字節(jié)跳動(dòng)科學(xué)家組團(tuán)演講,揭秘AI視頻生成大招!

想實(shí)現(xiàn)更加動(dòng)態(tài)的視頻效果,需要繁重的GPU資源以及大量訓(xùn)練數(shù)據(jù)。

字節(jié)跳動(dòng)科學(xué)家組團(tuán)演講,揭秘AI視頻生成大招!

研究人員通過(guò)保持給定Token一致性,就可以確保生成不同時(shí)刻的剪輯是相同Token。

通用視頻生成模型的最終目標(biāo)是希望不投入太多GPU資源以及大量數(shù)據(jù),同時(shí)生成過(guò)程可控。把這些結(jié)合起來(lái)就是字節(jié)跳動(dòng)研究人員的最終解決方案。

他們將文生視頻分為兩個(gè)過(guò)程,從文本到圖像的處理過(guò)程只需要文本和圖像數(shù)據(jù),第二步是圖像到視頻。在文生圖的過(guò)程中讓不同圖像持有相同ID,就可以降低訓(xùn)練難度。

字節(jié)跳動(dòng)科學(xué)家組團(tuán)演講,揭秘AI視頻生成大招!

周大權(quán)稱(chēng),有時(shí)用戶(hù)只需要輸入一句話就可以獨(dú)立生成六個(gè)不同圖像,將這些圖像組合起來(lái)成為一段視頻就可以降低學(xué)習(xí)的復(fù)雜性以及模型實(shí)現(xiàn)的難度。

在這之中,研究人員修改了圖像相似度計(jì)算過(guò)程中的注意力,它們只需要計(jì)算單個(gè)圖像內(nèi)的相似度。研究人員現(xiàn)在只將上下文擴(kuò)展到相鄰圖像中,利用這種新的自注意力機(jī)制,就可以進(jìn)行文生圖像以及圖像到視頻的組合。

同時(shí),在基于獨(dú)立文本生成圖像時(shí),其還可以保留細(xì)節(jié)。圖像轉(zhuǎn)換為視頻時(shí),該模型可以預(yù)測(cè)這兩個(gè)圖像之間的中間幀,然后生成中間視頻,從而生成擁有無(wú)限鏡頭的視頻。

字節(jié)跳動(dòng)科學(xué)家組團(tuán)演講,揭秘AI視頻生成大招!

二、DepthAything,成高質(zhì)量2D轉(zhuǎn)3D圖像新思路

字節(jié)跳動(dòng)研究科學(xué)家Bingyi Kang的演講主題是《DepthAnything:?jiǎn)文可疃裙烙?jì)的基礎(chǔ)模型》,該模型可以更有效地從2D圖像中識(shí)別出深度信息圖,讓普通手機(jī)拍攝的2D影像也能快速轉(zhuǎn)3D。

基于語(yǔ)言和視覺(jué)的基礎(chǔ)模型可以提供很強(qiáng)的現(xiàn)實(shí)泛化能力,其背后的難題就是數(shù)據(jù)方案和模型方案。DepthAything提出了一種單目深度估計(jì)技術(shù),能更有效地從2D圖像中識(shí)別出深度信息圖。

字節(jié)跳動(dòng)科學(xué)家組團(tuán)演講,揭秘AI視頻生成大招!

基于此,字節(jié)跳動(dòng)的研究人員進(jìn)行了數(shù)據(jù)縮放,Bingyi Kang談道,首先是匯總所有的數(shù)據(jù),研究人員集成了6個(gè)公共數(shù)據(jù)集和大約1500萬(wàn)張圖片。隨后基于這些數(shù)據(jù)訓(xùn)練模型。研究人員在標(biāo)記圖像上單獨(dú)訓(xùn)練教師模型,并通過(guò)這個(gè)教師網(wǎng)絡(luò)對(duì)所有圖像進(jìn)行適當(dāng)處理。

為了讓數(shù)據(jù)標(biāo)記更有效,研究人員采取了兩種措施,第一種是將數(shù)據(jù)增強(qiáng)添加到未標(biāo)記的圖像中,第二種是使用非知識(shí)論文損失函數(shù)。

字節(jié)跳動(dòng)科學(xué)家組團(tuán)演講,揭秘AI視頻生成大招!

此外,真實(shí)數(shù)據(jù)有一定噪聲,會(huì)出現(xiàn)錯(cuò)誤匹配的情況且成本很高。因此,他們首先在純合成圖像上訓(xùn)練一個(gè)教師模型,然后使用這個(gè)教師模型對(duì)所有未標(biāo)記的圖像進(jìn)行工作室標(biāo)記,然后只使用真實(shí)圖像的學(xué)生標(biāo)簽來(lái)改變學(xué)生模型。

DepthAnything技術(shù)的應(yīng)用有望使得短視頻平臺(tái)上的2D影像轉(zhuǎn)化為3D影像,或?qū)?yīng)用于XR產(chǎn)業(yè)。

字節(jié)跳動(dòng)科學(xué)家組團(tuán)演講,揭秘AI視頻生成大招!

三、Magc-Boost:15分鐘優(yōu)化三維圖像生成,復(fù)雜紋理、幾何結(jié)構(gòu)都能重現(xiàn)

字節(jié)跳動(dòng)研究科學(xué)家張健鋒的演講主題是《Magic-Boost:通過(guò)多視圖條件擴(kuò)散提升3D生成》,可以在15分鐘內(nèi)優(yōu)化生成結(jié)果,從而保留復(fù)雜的紋理或者幾何結(jié)構(gòu)。

三維技術(shù)在電影視覺(jué)特效、AR等場(chǎng)景中擁有廣泛應(yīng)用,人們可以自定義自己的角色、視覺(jué)效果,城市生成技術(shù)可以應(yīng)用于城市規(guī)劃、工業(yè)設(shè)計(jì)等。目前,研究人員多利用二維擴(kuò)散模型生成多視角圖像,然后再將這些圖像轉(zhuǎn)化為精準(zhǔn)3D模型。

字節(jié)跳動(dòng)科學(xué)家組團(tuán)演講,揭秘AI視頻生成大招!

張健鋒談道,首先可以給定文本或圖像的輸入內(nèi)容,通過(guò)多個(gè)不同模型生成,然后使用快速重建模型從多個(gè)圖像中重建相應(yīng)的城市對(duì)象。這一過(guò)程通??梢栽?0秒內(nèi)完成。

但這一生成的圖像與原始輸入之間仍會(huì)存在明顯的性能差距,字節(jié)跳動(dòng)的研究人員提出了多視角條件擴(kuò)散模型Magc-Boost,可以利用多個(gè)圖像來(lái)優(yōu)化成本生成結(jié)果,這一優(yōu)化時(shí)間大約為15分鐘,其目的在于讓圖像中能盡可能多包含對(duì)象的細(xì)節(jié)信息。

字節(jié)跳動(dòng)科學(xué)家組團(tuán)演講,揭秘AI視頻生成大招!

在與其他結(jié)果進(jìn)行比較中,Magc-Boost可以實(shí)現(xiàn)快速精化,并保留過(guò)程中的內(nèi)容特性,并能在短時(shí)間內(nèi)快速改進(jìn)細(xì)節(jié)。

四、InstaDrag:拖拽一下,1秒搞定照片編輯

字節(jié)跳動(dòng)研究科學(xué)家廖俊豪的演講主題是《InstaDrag:從視頻數(shù)據(jù)中學(xué)習(xí)快且精準(zhǔn)的拖拽式編輯》,InstaDrag可以使得用戶(hù)進(jìn)行圖像編輯時(shí)速度最快提升百倍,在大約1秒內(nèi)完成高質(zhì)量拖拽式編輯圖像,還能保留無(wú)需編輯區(qū)域的特征。

目前,一些圖像編輯工具中,用戶(hù)精確控制將其移動(dòng)到特定位置等基礎(chǔ)功能還無(wú)法實(shí)現(xiàn)。廖俊豪稱(chēng),因此,一個(gè)快速高效的基于拖拽的圖像編輯方案十分必要。

在圖像編輯工具中,字節(jié)跳動(dòng)的四個(gè)目標(biāo)就是快、未編輯區(qū)域不會(huì)產(chǎn)生變化、外觀不變、 將圖片信息移動(dòng)到目標(biāo)位置。

相比于此前的方式,InstaDrag的圖片編輯可以實(shí)現(xiàn)10-100倍的速度提升,同時(shí)編輯更準(zhǔn)確。同時(shí),自然視頻中會(huì)包含大量的運(yùn)動(dòng)線索,這些視頻數(shù)據(jù)就可以形成配對(duì)監(jiān)督來(lái)訓(xùn)練模型。

為了保證未編輯區(qū)域不發(fā)生變化,研究人員提供了一個(gè)遮罩,可以確保遮罩外的每個(gè)像素保持不變只拖動(dòng)遮罩內(nèi)區(qū)域。

字節(jié)跳動(dòng)科學(xué)家組團(tuán)演講,揭秘AI視頻生成大招!

在Demo演示中,用戶(hù)選擇遮罩區(qū)域并進(jìn)行相應(yīng)拖動(dòng)后,會(huì)出現(xiàn)4個(gè)結(jié)果以便從中選擇。

結(jié)語(yǔ):視頻、3D生成模型爆發(fā)機(jī)遇已來(lái)

世界模型,被認(rèn)為是通往AGI的關(guān)鍵路徑之一。想要真正理解物理世界,也就意味著需要更多視覺(jué)信號(hào),如二維、三維圖像、視頻等。

近一年來(lái),AI視頻、3D生成領(lǐng)域的熱度持續(xù)攀升,多家AI公司推出了新的視頻生成模型,引發(fā)了行業(yè)內(nèi)的激烈競(jìng)爭(zhēng),從圖像生成、圖像編輯到更為復(fù)雜的長(zhǎng)視頻、三維信息生成等模型問(wèn)世,徹底引爆了這條賽道。

在短視頻、AI領(lǐng)域等積累頗深的字節(jié)跳動(dòng),或許會(huì)在這條路上帶來(lái)更多的驚喜。