智東西(公眾號(hào):zhidxcom)
編譯 | 王涵
編輯 | 漠影

智東西10月17日?qǐng)?bào)道,昨晚,李飛飛團(tuán)隊(duì)發(fā)布全新實(shí)時(shí)生成式世界模型RTFM(Real-Time Frame Model),只需單張H100 GPU就能運(yùn)行!

該模型支持單圖像生成3D場(chǎng)景,能處理多樣化的場(chǎng)景類型、視覺(jué)風(fēng)格及光影效果,包括鏡面反射、光澤表面、動(dòng)態(tài)陰影和鏡頭光暈。

李飛飛造了個(gè)「永不消逝的世界」!單張GPU就能跑

▲李飛飛推文截圖(來(lái)源:X)

RTFM能在用戶交互時(shí)實(shí)時(shí)生成視頻,可用于探索生成的3D世界真實(shí)場(chǎng)景定位,現(xiàn)已開(kāi)放研究預(yù)覽版。

DEMO體驗(yàn)地址:https://rtfm.worldlabs.ai/

除了前后左右移動(dòng)以外,RTFM還可以進(jìn)行推拉變焦、重現(xiàn)魚眼失真等鏡頭效果,能夠像在一間真正的房間中漫步一樣,真實(shí)感拉滿。

李飛飛團(tuán)隊(duì)在博客中透露,RTFM圍繞三大核心原則設(shè)計(jì):

1、高效性:僅需單張H100 GPU即可實(shí)現(xiàn)交互級(jí)幀率的推理運(yùn)算;

2、可擴(kuò)展性:采用不依賴顯式3D表征的建模方式,通過(guò)通用端到端架構(gòu)從大規(guī)模視頻數(shù)據(jù)中學(xué)習(xí),隨算力數(shù)據(jù)增長(zhǎng)持續(xù)進(jìn)化;

3、持久性:支持無(wú)限時(shí)長(zhǎng)交互,構(gòu)建的3D世界具有永久記憶——即使轉(zhuǎn)身離開(kāi),場(chǎng)景依然存在。

在李飛飛的推文下,很多網(wǎng)友都覺(jué)得這個(gè)模型的DEMO效果非常驚艷。

李飛飛造了個(gè)「永不消逝的世界」!單張GPU就能跑

▲網(wǎng)友評(píng)論截圖(來(lái)源:X)

也有比較專業(yè)的網(wǎng)友解釋稱,這個(gè)模型并不是直接生成3D世界,而是通過(guò)一張2D圖片,補(bǔ)充這張圖片場(chǎng)景下其他角度的2D圖片。

李飛飛造了個(gè)「永不消逝的世界」!單張GPU就能跑

▲網(wǎng)友評(píng)論截圖(來(lái)源:X)

AI數(shù)據(jù)平臺(tái)公司Manifolds AI聯(lián)合創(chuàng)始人Ziyang Xie體驗(yàn)后稱,RTFM的空間一致性令人印象深刻,但速度過(guò)快時(shí)仍然會(huì)崩潰。

李飛飛造了個(gè)「永不消逝的世界」!單張GPU就能跑

▲Ziyang Xie評(píng)論截圖(來(lái)源:X)

有網(wǎng)友體驗(yàn)完感嘆道:“或許我們身處的世界也是運(yùn)行在‘單張’H100 GPU上的?!?/p>

李飛飛造了個(gè)「永不消逝的世界」!單張GPU就能跑

▲網(wǎng)友評(píng)論截圖(來(lái)源:X)

一、單張H100 GPU就能運(yùn)行,還能保持交互幀率和持久性

李飛飛團(tuán)隊(duì)發(fā)現(xiàn),在技術(shù)發(fā)展過(guò)程中,生成式世界模型對(duì)算力的需求將遠(yuǎn)超當(dāng)前大語(yǔ)言模型。

若直接套用現(xiàn)有視頻架構(gòu),實(shí)現(xiàn)60幀4K交互視頻流需每秒生成超10萬(wàn)token(相當(dāng)于首部《哈利·波特》的文本量),維持一小時(shí)以上持久交互更需處理超1億token的上下文。以當(dāng)前算力基礎(chǔ),這既不可行也不經(jīng)濟(jì)。

他們從中吸取了“教訓(xùn)”:隨著算力成本指數(shù)級(jí)下降,那些能適應(yīng)算力增長(zhǎng)的簡(jiǎn)潔方法終將主導(dǎo)AI發(fā)展,而生成式世界模型正處在享受未來(lái)算力紅利的最佳位置。

這就帶了一個(gè)關(guān)鍵的問(wèn)題:生成式世界模型是否會(huì)被當(dāng)前硬件條件束縛?是否存在技術(shù)路徑讓我們現(xiàn)在就能預(yù)覽未來(lái)?

為此,李飛飛團(tuán)隊(duì)設(shè)定了一個(gè)簡(jiǎn)單目標(biāo),即設(shè)計(jì)一個(gè)足夠高效、當(dāng)下即可部署的生成式世界模型,并能隨算力提升持續(xù)擴(kuò)展。

他們的具體目標(biāo)是構(gòu)建可在單張H100 GPU上運(yùn)行的模型,既保持交互級(jí)幀率,又能實(shí)現(xiàn)無(wú)限持久的世界交互。

這一目標(biāo)貫穿了他們從任務(wù)設(shè)定到模型架構(gòu)的整個(gè)系統(tǒng)設(shè)計(jì)。通過(guò)精心優(yōu)化推理?xiàng)5拿總€(gè)環(huán)節(jié),融合架構(gòu)設(shè)計(jì)、模型蒸餾和推理優(yōu)化的最新突破,李飛飛團(tuán)隊(duì)在當(dāng)今硬件上實(shí)現(xiàn)了對(duì)下一代模型最高保真度的前瞻。

三、能自主掌握反射陰影的渲染,RTFM是“學(xué)習(xí)型渲染器”

傳統(tǒng)3D圖形管線通過(guò)顯式3D表征(如三角網(wǎng)格、高斯?jié)姙R)構(gòu)建世界并渲染為2D圖像。它們采用手工設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)與算法來(lái)建模3D幾何、材質(zhì)、光照、陰影和反射等。這些方法數(shù)十年來(lái)一直是計(jì)算機(jī)圖形學(xué)的支柱,但難以隨算力數(shù)據(jù)自然擴(kuò)展。

RTFM另辟蹊徑,他們基于生成式視頻建模的最新進(jìn)展,訓(xùn)練單一神經(jīng)網(wǎng)絡(luò)來(lái)輸入場(chǎng)景的一張或多張2D圖像,無(wú)需構(gòu)建任何顯式3D表征即可生成新視角的2D畫面。該模型采用自回歸擴(kuò)散Transformer架構(gòu)處理幀序列,通過(guò)大規(guī)模視頻數(shù)據(jù)端到端訓(xùn)練實(shí)現(xiàn)幀間預(yù)測(cè)。

RTFM還可以被認(rèn)為是“學(xué)習(xí)型渲染器”,輸入幀可以被轉(zhuǎn)化為隱含世界信息的神經(jīng)網(wǎng)絡(luò)激活值(KV緩存),生成新幀時(shí),網(wǎng)絡(luò)通過(guò)注意力機(jī)制讀取該表征,創(chuàng)建與輸入視角一致的新視圖。

從輸入視圖到世界表征的轉(zhuǎn)換機(jī)制,再到基于表征的新幀渲染,全程通過(guò)數(shù)據(jù)端到端學(xué)習(xí)獲得,無(wú)需人工設(shè)計(jì),RTFM僅需在訓(xùn)練中觀察即可自主掌握反射、陰影等復(fù)雜效果的建模。

重建(在已有視角間插值)與生成(創(chuàng)造輸入視角未可見(jiàn)內(nèi)容)在計(jì)算機(jī)視覺(jué)領(lǐng)域向來(lái)被視為兩個(gè)獨(dú)立的課題,但RTFM模糊了這二者之間的界限。當(dāng)輸入多視角圖像時(shí),模型更傾向于重建;當(dāng)輸入視角稀缺時(shí),模型則被迫進(jìn)行外推生成。

四、以位姿幀作為空間記憶,RTFM擁有持久記憶

現(xiàn)實(shí)世界的核心特性在于其持久性,當(dāng)你移開(kāi)視線時(shí),世界不會(huì)消失或徹底改變。無(wú)論相隔多久,你總能重返曾經(jīng)到過(guò)的地方。

這對(duì)自回歸幀模型來(lái)說(shuō)可不太容易。由于世界僅通過(guò)2D圖像幀隱式表征,要實(shí)現(xiàn)持久性,模型必須在用戶探索過(guò)程中對(duì)持續(xù)增長(zhǎng)的幀序列進(jìn)行推理。這意味著生成每一幀的成本會(huì)遞增,模型對(duì)世界的記憶實(shí)際上被算力預(yù)算所束縛。

為突破這一桎梏,RTFM為每幀畫面都賦予三維空間中的位姿(位置與朝向)。通過(guò)輸入目標(biāo)幀的位姿生成新畫面,模型對(duì)世界的記憶就會(huì)具備空間結(jié)構(gòu),因?yàn)檫@些帶位姿的幀構(gòu)成了空間記憶系統(tǒng)。

這為模型注入了弱先驗(yàn),即其所建模的世界是三維歐幾里得空間,同時(shí)無(wú)需強(qiáng)制模型顯式預(yù)測(cè)該空間中物體的三維幾何。

生成新幀時(shí),系統(tǒng)會(huì)從位姿幀構(gòu)成的空間記憶中檢索鄰近幀,構(gòu)建定制化上下文。這種“上下文調(diào)度”技術(shù)使模型能在空間不同區(qū)域生成時(shí)調(diào)用不同的上下文幀,從而無(wú)需對(duì)持續(xù)增長(zhǎng)的幀序列進(jìn)行推理,即可在長(zhǎng)期交互中維持世界的持久性。

結(jié)語(yǔ):世界模型突破算力限制,可在多行業(yè)中落地

李飛飛團(tuán)隊(duì)認(rèn)為,RTFM的推出實(shí)現(xiàn)了在當(dāng)今硬件上部署世界模型的愿景,并確立了將世界模型視為端到端數(shù)據(jù)驅(qū)動(dòng)渲染器的技術(shù)路徑。

RTFM的架構(gòu)具備天然可擴(kuò)展性,未來(lái)將會(huì)有更多的發(fā)展空間,比如它可以擴(kuò)展為動(dòng)態(tài)世界建模,允許用戶與生成世界實(shí)時(shí)交互。

世界模型能實(shí)時(shí)重建、生成并模擬具有物理精確性的持久交互世界,這類模型或許將徹底改變從媒體到機(jī)器人等眾多行業(yè)。