又紧又爽又粗精品一区二,色综合久久激情综合久久

智東西（公眾號(hào)：zhidxcom）
編譯 | 王涵
編輯 | 漠影

智東西10月17日?qǐng)?bào)道，昨晚，李飛飛團(tuán)隊(duì)發(fā)布全新實(shí)時(shí)生成式世界模型RTFM（Real-Time Frame Model），只需單張H100 GPU就能運(yùn)行！

該模型支持單圖像生成3D場(chǎng)景，能處理多樣化的場(chǎng)景類型、視覺(jué)風(fēng)格及光影效果，包括鏡面反射、光澤表面、動(dòng)態(tài)陰影和鏡頭光暈。

李飛飛造了個(gè)「永不消逝的世界」！單張GPU就能跑

▲李飛飛推文截圖（來(lái)源：X）

RTFM能在用戶交互時(shí)實(shí)時(shí)生成視頻，可用于探索生成的3D世界和真實(shí)場(chǎng)景定位，現(xiàn)已開(kāi)放研究預(yù)覽版。

DEMO體驗(yàn)地址：https://rtfm.worldlabs.ai/

除了前后左右移動(dòng)以外，RTFM還可以進(jìn)行推拉變焦、重現(xiàn)魚眼失真等鏡頭效果，能夠像在一間真正的房間中漫步一樣，真實(shí)感拉滿。

李飛飛團(tuán)隊(duì)在博客中透露，RTFM圍繞三大核心原則設(shè)計(jì)：

1、高效性：僅需單張H100 GPU即可實(shí)現(xiàn)交互級(jí)幀率的推理運(yùn)算；

2、可擴(kuò)展性：采用不依賴顯式3D表征的建模方式，通過(guò)通用端到端架構(gòu)從大規(guī)模視頻數(shù)據(jù)中學(xué)習(xí)，隨算力數(shù)據(jù)增長(zhǎng)持續(xù)進(jìn)化；

3、持久性：支持無(wú)限時(shí)長(zhǎng)交互，構(gòu)建的3D世界具有永久記憶——即使轉(zhuǎn)身離開(kāi)，場(chǎng)景依然存在。

在李飛飛的推文下，很多網(wǎng)友都覺(jué)得這個(gè)模型的DEMO效果非常驚艷。

李飛飛造了個(gè)「永不消逝的世界」！單張GPU就能跑

▲網(wǎng)友評(píng)論截圖（來(lái)源：X）

也有比較專業(yè)的網(wǎng)友解釋稱，這個(gè)模型并不是直接生成3D世界，而是通過(guò)一張2D圖片，補(bǔ)充這張圖片場(chǎng)景下其他角度的2D圖片。

李飛飛造了個(gè)「永不消逝的世界」！單張GPU就能跑

▲網(wǎng)友評(píng)論截圖（來(lái)源：X）

AI數(shù)據(jù)平臺(tái)公司Manifolds AI聯(lián)合創(chuàng)始人Ziyang Xie體驗(yàn)后稱，RTFM的空間一致性令人印象深刻，但速度過(guò)快時(shí)仍然會(huì)崩潰。

李飛飛造了個(gè)「永不消逝的世界」！單張GPU就能跑

▲Ziyang Xie評(píng)論截圖（來(lái)源：X）

有網(wǎng)友體驗(yàn)完感嘆道：“或許我們身處的世界也是運(yùn)行在‘單張’H100 GPU上的?！?/p>

李飛飛造了個(gè)「永不消逝的世界」！單張GPU就能跑

▲網(wǎng)友評(píng)論截圖（來(lái)源：X）

一、單張H100 GPU就能運(yùn)行，還能保持交互幀率和持久性

李飛飛團(tuán)隊(duì)發(fā)現(xiàn)，在技術(shù)發(fā)展過(guò)程中，生成式世界模型對(duì)算力的需求將遠(yuǎn)超當(dāng)前大語(yǔ)言模型。

若直接套用現(xiàn)有視頻架構(gòu)，實(shí)現(xiàn)60幀4K交互視頻流需每秒生成超10萬(wàn)token（相當(dāng)于首部《哈利·波特》的文本量），維持一小時(shí)以上持久交互更需處理超1億token的上下文。以當(dāng)前算力基礎(chǔ)，這既不可行也不經(jīng)濟(jì)。

他們從中吸取了“教訓(xùn)”：隨著算力成本指數(shù)級(jí)下降，那些能適應(yīng)算力增長(zhǎng)的簡(jiǎn)潔方法終將主導(dǎo)AI發(fā)展，而生成式世界模型正處在享受未來(lái)算力紅利的最佳位置。

這就帶了一個(gè)關(guān)鍵的問(wèn)題：生成式世界模型是否會(huì)被當(dāng)前硬件條件束縛？是否存在技術(shù)路徑讓我們現(xiàn)在就能預(yù)覽未來(lái)？

為此，李飛飛團(tuán)隊(duì)設(shè)定了一個(gè)簡(jiǎn)單目標(biāo)，即設(shè)計(jì)一個(gè)足夠高效、當(dāng)下即可部署的生成式世界模型，并能隨算力提升持續(xù)擴(kuò)展。

他們的具體目標(biāo)是構(gòu)建可在單張H100 GPU上運(yùn)行的模型，既保持交互級(jí)幀率，又能實(shí)現(xiàn)無(wú)限持久的世界交互。

這一目標(biāo)貫穿了他們從任務(wù)設(shè)定到模型架構(gòu)的整個(gè)系統(tǒng)設(shè)計(jì)。通過(guò)精心優(yōu)化推理?xiàng)５拿總€(gè)環(huán)節(jié)，融合架構(gòu)設(shè)計(jì)、模型蒸餾和推理優(yōu)化的最新突破，李飛飛團(tuán)隊(duì)在當(dāng)今硬件上實(shí)現(xiàn)了對(duì)下一代模型最高保真度的前瞻。

三、能自主掌握反射陰影的渲染，RTFM是“學(xué)習(xí)型渲染器”

傳統(tǒng)3D圖形管線通過(guò)顯式3D表征（如三角網(wǎng)格、高斯?jié)姙R）構(gòu)建世界并渲染為2D圖像。它們采用手工設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)與算法來(lái)建模3D幾何、材質(zhì)、光照、陰影和反射等。這些方法數(shù)十年來(lái)一直是計(jì)算機(jī)圖形學(xué)的支柱，但難以隨算力數(shù)據(jù)自然擴(kuò)展。

RTFM另辟蹊徑，他們基于生成式視頻建模的最新進(jìn)展，訓(xùn)練單一神經(jīng)網(wǎng)絡(luò)來(lái)輸入場(chǎng)景的一張或多張2D圖像，無(wú)需構(gòu)建任何顯式3D表征即可生成新視角的2D畫面。該模型采用自回歸擴(kuò)散Transformer架構(gòu)處理幀序列，通過(guò)大規(guī)模視頻數(shù)據(jù)端到端訓(xùn)練實(shí)現(xiàn)幀間預(yù)測(cè)。

RTFM還可以被認(rèn)為是“學(xué)習(xí)型渲染器”，輸入幀可以被轉(zhuǎn)化為隱含世界信息的神經(jīng)網(wǎng)絡(luò)激活值（KV緩存），生成新幀時(shí)，網(wǎng)絡(luò)通過(guò)注意力機(jī)制讀取該表征，創(chuàng)建與輸入視角一致的新視圖。

從輸入視圖到世界表征的轉(zhuǎn)換機(jī)制，再到基于表征的新幀渲染，全程通過(guò)數(shù)據(jù)端到端學(xué)習(xí)獲得，無(wú)需人工設(shè)計(jì)，RTFM僅需在訓(xùn)練中觀察即可自主掌握反射、陰影等復(fù)雜效果的建模。

重建（在已有視角間插值）與生成（創(chuàng)造輸入視角未可見(jiàn)內(nèi)容）在計(jì)算機(jī)視覺(jué)領(lǐng)域向來(lái)被視為兩個(gè)獨(dú)立的課題，但RTFM模糊了這二者之間的界限。當(dāng)輸入多視角圖像時(shí)，模型更傾向于重建；當(dāng)輸入視角稀缺時(shí)，模型則被迫進(jìn)行外推生成。

四、以位姿幀作為空間記憶，RTFM擁有持久記憶

現(xiàn)實(shí)世界的核心特性在于其持久性，當(dāng)你移開(kāi)視線時(shí)，世界不會(huì)消失或徹底改變。無(wú)論相隔多久，你總能重返曾經(jīng)到過(guò)的地方。

這對(duì)自回歸幀模型來(lái)說(shuō)可不太容易。由于世界僅通過(guò)2D圖像幀隱式表征，要實(shí)現(xiàn)持久性，模型必須在用戶探索過(guò)程中對(duì)持續(xù)增長(zhǎng)的幀序列進(jìn)行推理。這意味著生成每一幀的成本會(huì)遞增，模型對(duì)世界的記憶實(shí)際上被算力預(yù)算所束縛。

為突破這一桎梏，RTFM為每幀畫面都賦予三維空間中的位姿（位置與朝向）。通過(guò)輸入目標(biāo)幀的位姿生成新畫面，模型對(duì)世界的記憶就會(huì)具備空間結(jié)構(gòu)，因?yàn)檫@些帶位姿的幀構(gòu)成了空間記憶系統(tǒng)。

這為模型注入了弱先驗(yàn)，即其所建模的世界是三維歐幾里得空間，同時(shí)無(wú)需強(qiáng)制模型顯式預(yù)測(cè)該空間中物體的三維幾何。

生成新幀時(shí)，系統(tǒng)會(huì)從位姿幀構(gòu)成的空間記憶中檢索鄰近幀，構(gòu)建定制化上下文。這種“上下文調(diào)度”技術(shù)使模型能在空間不同區(qū)域生成時(shí)調(diào)用不同的上下文幀，從而無(wú)需對(duì)持續(xù)增長(zhǎng)的幀序列進(jìn)行推理，即可在長(zhǎng)期交互中維持世界的持久性。

結(jié)語(yǔ)：世界模型突破算力限制，可在多行業(yè)中落地

李飛飛團(tuán)隊(duì)認(rèn)為，RTFM的推出實(shí)現(xiàn)了在當(dāng)今硬件上部署世界模型的愿景，并確立了將世界模型視為端到端數(shù)據(jù)驅(qū)動(dòng)渲染器的技術(shù)路徑。

RTFM的架構(gòu)具備天然可擴(kuò)展性，未來(lái)將會(huì)有更多的發(fā)展空間，比如它可以擴(kuò)展為動(dòng)態(tài)世界建模，允許用戶與生成世界實(shí)時(shí)交互。

世界模型能實(shí)時(shí)重建、生成并模擬具有物理精確性的持久交互世界，這類模型或許將徹底改變從媒體到機(jī)器人等眾多行業(yè)。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、單張H100 GPU就能運(yùn)行，還能保持交互幀率和持久性

三、能自主掌握反射陰影的渲染，RTFM是“學(xué)習(xí)型渲染器”

四、以位姿幀作為空間記憶，RTFM擁有持久記憶

結(jié)語(yǔ)：世界模型突破算力限制，可在多行業(yè)中落地

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、單張H100 GPU就能運(yùn)行，還能保持交互幀率和持久性

三、能自主掌握反射陰影的渲染，RTFM是“學(xué)習(xí)型渲染器”

四、以位姿幀作為空間記憶，RTFM擁有持久記憶

結(jié)語(yǔ)：世界模型突破算力限制，可在多行業(yè)中落地

相關(guān)推薦

一、單張H100 GPU就能運(yùn)行，還能保持交互幀率和持久性

三、能自主掌握反射陰影的渲染，RTFM是“學(xué)習(xí)型渲染器”

四、以位姿幀作為空間記憶，RTFM擁有持久記憶

結(jié)語(yǔ)：世界模型突破算力限制，可在多行業(yè)中落地