智東西(公眾號:zhidxcom)
作者 | ?王欣逸
編輯 | ?程茜

智東西12月17日報道,今天,騰訊混元發(fā)布并開源了最新的混元世界模型1.5(Tencent HY WorldPlay),用戶輸入文字指令或者圖片即可創(chuàng)建可交互世界,該模型擁有空間記憶能力,能呈現(xiàn)出前后一致的場景,支持用戶在生成的世界里隨意移動探索。目前,這一模型可在騰訊混元3D官網(wǎng)申請體驗。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

這一模型支持生成第一視角和第三視角場景,能生成多種類型的風(fēng)格化場景,還支持場景觸發(fā)特定效果,可應(yīng)用于AI游戲開發(fā)、影視制作和虛擬現(xiàn)實(VR)和具身智能訓(xùn)練等領(lǐng)域。從官方給出的效果圖來看,僅通過輸入“廢棄游樂園,生銹的摩天輪,雜草叢生,懷舊憂傷”這一指令,該模型便生成了精度很高、內(nèi)容豐富的游戲風(fēng)格場景,空間內(nèi)風(fēng)格一致,要素齊全。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

騰訊混元團(tuán)隊稱其是業(yè)界最系統(tǒng)、最全面的世界模型框架,涵蓋數(shù)據(jù)、訓(xùn)練、流式推理部署等全鏈路、全環(huán)節(jié),還提出了重構(gòu)記憶力、長上下文蒸餾、基于3D的自回歸擴(kuò)散模型強(qiáng)化學(xué)習(xí)等算法模塊。

從基準(zhǔn)測試的結(jié)果來看,混元世界模型1.5在視覺質(zhì)量和幾何一致性指標(biāo)上超越所有模型,僅在相機(jī)控制準(zhǔn)確性的旋轉(zhuǎn)指標(biāo)上略落后于Gen3C和ViewCrafter兩個模型。和其他現(xiàn)有模型相比,混元世界模型1.5在實時性、長期一致性和長視野預(yù)測等方面存在明顯優(yōu)勢。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

此前,騰訊混元團(tuán)隊于今年7月發(fā)布了混元3D世界模型1.0,這一模型支持文本或單張圖片輸入生成兼容渲染Pipeline的3D場景;10月,混元發(fā)布了世界模型1.1,它支持多視圖或視頻一鍵創(chuàng)造3D世界。此次更新則是混元世界模型交互能力的關(guān)鍵一步。相比于上一個版本,混元世界模型1.5的空間記憶檢索能力進(jìn)一步升級,此外,新模型還新增了3D場景重建、場景特定觸發(fā)事件等功能,而不僅僅止步于生成沉浸式的3D世界。

在線體驗網(wǎng)站:https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay

GitHub:https://github.com/Tencent-Hunyuan/HY-WorldPlay

Hugging Face:https://huggingface.co/tencent/HY-WorldPlay

一、支持文、圖輸入,生成多視角、風(fēng)格化場景視頻

混元世界模型1.5支持文字輸入指令生成和圖片及文字指令輸入,可以生成第一視角和第三視角場景。用戶可以通過鍵盤、鼠標(biāo)或手柄操控該世界里的虛擬相機(jī)的移動和轉(zhuǎn)向。

第一視角即為虛擬相機(jī)直接呈現(xiàn)出的畫面,隨著鏡頭機(jī)位的移動,畫面隨之進(jìn)行變換。在官方給的案例中,第一視角的場景隨著機(jī)位的上下左右旋轉(zhuǎn),畫面比較穩(wěn)定,符合人眼的視覺效果。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

第三視角則是在虛擬相機(jī)前增加了一個人物,用戶通過操控鼠標(biāo)、鍵盤等移動人物,畫面會隨著人物的移動而改變,值得一提的是,官方給出的案例視頻非常精細(xì),在跟隨人物走動時相機(jī)有輕微晃動效果。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

混元世界模型1.5支持多種風(fēng)格化場景,從生成案例來看,其畫面穩(wěn)定性和風(fēng)格一致性表現(xiàn)不錯。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

該模型還支持場景觸發(fā)特定效果,如冒煙、爆炸等。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

此外,官方還給出了幾個3D重建的案例,包括狹小空間、室內(nèi)場景和開放室外空間。從生成結(jié)果來看,該模型能基于二維圖像自動補(bǔ)齊信息,重建出的場景比較規(guī)整。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

二、多個指標(biāo)全面碾壓現(xiàn)有模型,幾何一致性和視覺質(zhì)量出色

研究人員將基線模型分成兩組:一組為無記憶機(jī)制的動作控制擴(kuò)散模型,包括CameraCtrl、SEVA、ViewCrafter、Matrix-Game 2.0、GameCraft;另一組為有記憶機(jī)制的模型,包括Gen3C、VMem。

基準(zhǔn)測試顯示,從短期生成質(zhì)量來看,混元世界模型1.5在視覺質(zhì)量(LPIPS、PSNR、SSIM)上表現(xiàn)出色,全面超越CameraCtrl、SEVA等其他模型,在相機(jī)控制準(zhǔn)確性的旋轉(zhuǎn)距離指標(biāo)Rdist上,混元世界模型1.5比Gen3C和ViewCrafter稍遜色,但仍處于所有模型的領(lǐng)先地位。

在長期場景中,混元世界模型1.5所有指標(biāo)均超越所有模型,尤其是在控制準(zhǔn)確性上,研究人員指出這是由于其他模型誤差累積導(dǎo)致的控制準(zhǔn)確性顯著下降,這體現(xiàn)了混元世界模型1.5的較高穩(wěn)定性和一致性特性。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

在VBench定量基準(zhǔn)測試中和人工評估結(jié)果中,上述結(jié)果得到了驗證。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

在長期幾何一致性和視覺質(zhì)量上,研究人員讓幾個模型一起進(jìn)行自由探索?;煸澜缒P?.5在場景泛化方面表現(xiàn)出色,通過重構(gòu)上下文記憶確保了長期的幾何一致性。Gen3C使用了顯式的3D緩存,對中間輸出的質(zhì)量高度敏感,深度估計的準(zhǔn)確性存在問題,Matrix-Game 2.0和GameCraft由于缺乏專用的記憶機(jī)制,無法支持自由探索。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

在WorldPlay的強(qiáng)化學(xué)習(xí)框架WorldCompass的能力上,研究人員還進(jìn)行了關(guān)于有無WorldCompass RL訓(xùn)練階段的模型在處理復(fù)雜動作時的性能比較,結(jié)果顯示,WorldCompass RL框架在提升模型復(fù)雜交互能力起著關(guān)鍵作用,在無RL訓(xùn)練時,處理復(fù)雜交互信號時模型表現(xiàn)出了視覺退化,而有RL訓(xùn)練則顯著提高了模型的動作跟隨精度和視覺保真度。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

三、提出全新強(qiáng)化學(xué)習(xí)框架,能動態(tài)重構(gòu)上下文

混元世界模型1.5的核心是WorldPlay自回歸擴(kuò)散模型,它克服前代HY-World 1.0依賴冗長的離線生成、缺乏實時交互的局限,實現(xiàn)了高質(zhì)量、長序列的流暢視頻生成,速度可達(dá)每秒24幀。

該模型提供了一個系統(tǒng)而完整的實時世界模型訓(xùn)練框架,覆蓋模型預(yù)訓(xùn)練、持續(xù)訓(xùn)練、自回歸視頻模型強(qiáng)化學(xué)習(xí)、帶記憶力的模型蒸餾的訓(xùn)練全流程。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

混元世界模型1.5依賴于一個包含320K視頻片段的綜合訓(xùn)練數(shù)據(jù)集。這些數(shù)據(jù)來自3A游戲、真實世界的3D場景、合成4D數(shù)據(jù)以及自然動態(tài)視頻。

世界模型長期以來難以兼顧實時生成與系統(tǒng)內(nèi)存占用,為此,混元世界模型1.5采取了四項核心設(shè)計,有效解決了這一矛盾:

1、雙重動作表示法:系統(tǒng)可精準(zhǔn)響應(yīng)用戶的鍵盤與鼠標(biāo)輸入,實現(xiàn)對生成內(nèi)容的實時控制。

2、重構(gòu)上下文記憶機(jī)制:通過動態(tài)重建過往幀信息,并結(jié)合時間重構(gòu)策略,系統(tǒng)能夠維持長期的幾何一致性,顯著緩解了長視頻生成中常見的記憶衰減問題。

3、WorldCompost強(qiáng)化學(xué)習(xí)框架:這一新型后訓(xùn)練框架專門針對長序列自回歸視頻模型優(yōu)化,直接提升了動作跟隨能力和生成畫面的視覺質(zhì)量。

4、情境強(qiáng)迫蒸餾法:該方法通過對齊教師模型與學(xué)生模型之間的記憶上下文,在確保生成速度的同時,保持了模型利用長遠(yuǎn)歷史信息的能力,從而有效抑制誤差累積。

騰訊混元最新世界模型開源!支持實時生成交互,突破長期空間記憶

基于以上技術(shù),在用戶給定一張圖片或一段描述世界的文本提示,該模型能夠根據(jù)用戶輸入的動作條件,執(zhí)行下一片段(16個視頻幀)預(yù)測任務(wù),以生成未來的視頻序列。在生成每個片段時,該模型可以動態(tài)地從過往片段中重構(gòu)上下文記憶,以此確保長期的時序一致性與幾何一致性。

結(jié)語:正探索更復(fù)雜的交互和物理世界模擬

混元世界模型1.5較此前版本的1.0模型做出了較大提升,突破了此前實時交互和空間細(xì)節(jié)的局限,為創(chuàng)建一致且交互式的虛擬世界邁出了關(guān)鍵一步。

騰訊混元又開源一世界模型,這為游戲開發(fā)、虛擬現(xiàn)實、數(shù)字內(nèi)容創(chuàng)作等應(yīng)用場景提供了新的工具與更多的可能性?;煸獔F(tuán)隊稱,他們正在探索讓模型能夠生成更長時間的視頻序列,以及支持多智能體交互和復(fù)雜的物理世界動態(tài)。