国产又粗又猛又爽又爽视频,最近中文字幕的在线,青青草原在线激情视频

智東西（公眾號：zhidxcom）
作者 | ?王欣逸
編輯 | ?程茜

智東西12月17日報道，今天，騰訊混元發(fā)布并開源了最新的混元世界模型1.5（Tencent HY WorldPlay），用戶輸入文字指令或者圖片即可創(chuàng)建可交互世界，該模型擁有空間記憶能力，能呈現(xiàn)出前后一致的場景，支持用戶在生成的世界里隨意移動探索。目前，這一模型可在騰訊混元3D官網(wǎng)申請體驗。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

這一模型支持生成第一視角和第三視角場景，能生成多種類型的風(fēng)格化場景，還支持場景觸發(fā)特定效果，可應(yīng)用于AI游戲開發(fā)、影視制作和虛擬現(xiàn)實（VR）和具身智能訓(xùn)練等領(lǐng)域。從官方給出的效果圖來看，僅通過輸入“廢棄游樂園，生銹的摩天輪，雜草叢生，懷舊憂傷”這一指令，該模型便生成了精度很高、內(nèi)容豐富的游戲風(fēng)格場景，空間內(nèi)風(fēng)格一致，要素齊全。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

騰訊混元團(tuán)隊稱其是業(yè)界最系統(tǒng)、最全面的世界模型框架，涵蓋數(shù)據(jù)、訓(xùn)練、流式推理部署等全鏈路、全環(huán)節(jié)，還提出了重構(gòu)記憶力、長上下文蒸餾、基于3D的自回歸擴(kuò)散模型強(qiáng)化學(xué)習(xí)等算法模塊。

從基準(zhǔn)測試的結(jié)果來看，混元世界模型1.5在視覺質(zhì)量和幾何一致性指標(biāo)上超越所有模型，僅在相機(jī)控制準(zhǔn)確性的旋轉(zhuǎn)指標(biāo)上略落后于Gen3C和ViewCrafter兩個模型。和其他現(xiàn)有模型相比，混元世界模型1.5在實時性、長期一致性和長視野預(yù)測等方面存在明顯優(yōu)勢。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

此前，騰訊混元團(tuán)隊于今年7月發(fā)布了混元3D世界模型1.0，這一模型支持文本或單張圖片輸入生成兼容渲染Pipeline的3D場景；10月，混元發(fā)布了世界模型1.1，它支持多視圖或視頻一鍵創(chuàng)造3D世界。此次更新則是混元世界模型交互能力的關(guān)鍵一步。相比于上一個版本，混元世界模型1.5的空間記憶檢索能力進(jìn)一步升級，此外，新模型還新增了3D場景重建、場景特定觸發(fā)事件等功能，而不僅僅止步于生成沉浸式的3D世界。

在線體驗網(wǎng)站：https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay

GitHub：https://github.com/Tencent-Hunyuan/HY-WorldPlay

Hugging Face：https://huggingface.co/tencent/HY-WorldPlay

一、支持文、圖輸入，生成多視角、風(fēng)格化場景視頻

混元世界模型1.5支持文字輸入指令生成和圖片及文字指令輸入，可以生成第一視角和第三視角場景。用戶可以通過鍵盤、鼠標(biāo)或手柄操控該世界里的虛擬相機(jī)的移動和轉(zhuǎn)向。

第一視角即為虛擬相機(jī)直接呈現(xiàn)出的畫面，隨著鏡頭機(jī)位的移動，畫面隨之進(jìn)行變換。在官方給的案例中，第一視角的場景隨著機(jī)位的上下左右旋轉(zhuǎn)，畫面比較穩(wěn)定，符合人眼的視覺效果。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

第三視角則是在虛擬相機(jī)前增加了一個人物，用戶通過操控鼠標(biāo)、鍵盤等移動人物，畫面會隨著人物的移動而改變，值得一提的是，官方給出的案例視頻非常精細(xì)，在跟隨人物走動時相機(jī)有輕微晃動效果。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

混元世界模型1.5支持多種風(fēng)格化場景，從生成案例來看，其畫面穩(wěn)定性和風(fēng)格一致性表現(xiàn)不錯。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

該模型還支持場景觸發(fā)特定效果，如冒煙、爆炸等。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

此外，官方還給出了幾個3D重建的案例，包括狹小空間、室內(nèi)場景和開放室外空間。從生成結(jié)果來看，該模型能基于二維圖像自動補(bǔ)齊信息，重建出的場景比較規(guī)整。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

二、多個指標(biāo)全面碾壓現(xiàn)有模型，幾何一致性和視覺質(zhì)量出色

研究人員將基線模型分成兩組：一組為無記憶機(jī)制的動作控制擴(kuò)散模型，包括CameraCtrl、SEVA、ViewCrafter、Matrix-Game 2.0、GameCraft；另一組為有記憶機(jī)制的模型，包括Gen3C、VMem。

基準(zhǔn)測試顯示，從短期生成質(zhì)量來看，混元世界模型1.5在視覺質(zhì)量（LPIPS、PSNR、SSIM）上表現(xiàn)出色，全面超越CameraCtrl、SEVA等其他模型，在相機(jī)控制準(zhǔn)確性的旋轉(zhuǎn)距離指標(biāo)Rdist上，混元世界模型1.5比Gen3C和ViewCrafter稍遜色，但仍處于所有模型的領(lǐng)先地位。

在長期場景中，混元世界模型1.5所有指標(biāo)均超越所有模型，尤其是在控制準(zhǔn)確性上，研究人員指出這是由于其他模型誤差累積導(dǎo)致的控制準(zhǔn)確性顯著下降，這體現(xiàn)了混元世界模型1.5的較高穩(wěn)定性和一致性特性。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

在VBench定量基準(zhǔn)測試中和人工評估結(jié)果中，上述結(jié)果得到了驗證。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

在長期幾何一致性和視覺質(zhì)量上，研究人員讓幾個模型一起進(jìn)行自由探索?；煸澜缒Ｐ?.5在場景泛化方面表現(xiàn)出色，通過重構(gòu)上下文記憶確保了長期的幾何一致性。Gen3C使用了顯式的3D緩存，對中間輸出的質(zhì)量高度敏感，深度估計的準(zhǔn)確性存在問題，Matrix-Game 2.0和GameCraft由于缺乏專用的記憶機(jī)制，無法支持自由探索。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

在WorldPlay的強(qiáng)化學(xué)習(xí)框架WorldCompass的能力上，研究人員還進(jìn)行了關(guān)于有無WorldCompass RL訓(xùn)練階段的模型在處理復(fù)雜動作時的性能比較，結(jié)果顯示，WorldCompass RL框架在提升模型復(fù)雜交互能力起著關(guān)鍵作用，在無RL訓(xùn)練時，處理復(fù)雜交互信號時模型表現(xiàn)出了視覺退化，而有RL訓(xùn)練則顯著提高了模型的動作跟隨精度和視覺保真度。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

三、提出全新強(qiáng)化學(xué)習(xí)框架，能動態(tài)重構(gòu)上下文

混元世界模型1.5的核心是WorldPlay自回歸擴(kuò)散模型，它克服前代HY-World 1.0依賴冗長的離線生成、缺乏實時交互的局限，實現(xiàn)了高質(zhì)量、長序列的流暢視頻生成，速度可達(dá)每秒24幀。

該模型提供了一個系統(tǒng)而完整的實時世界模型訓(xùn)練框架，覆蓋模型預(yù)訓(xùn)練、持續(xù)訓(xùn)練、自回歸視頻模型強(qiáng)化學(xué)習(xí)、帶記憶力的模型蒸餾的訓(xùn)練全流程。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

混元世界模型1.5依賴于一個包含320K視頻片段的綜合訓(xùn)練數(shù)據(jù)集。這些數(shù)據(jù)來自3A游戲、真實世界的3D場景、合成4D數(shù)據(jù)以及自然動態(tài)視頻。

世界模型長期以來難以兼顧實時生成與系統(tǒng)內(nèi)存占用，為此，混元世界模型1.5采取了四項核心設(shè)計，有效解決了這一矛盾：

1、雙重動作表示法：系統(tǒng)可精準(zhǔn)響應(yīng)用戶的鍵盤與鼠標(biāo)輸入，實現(xiàn)對生成內(nèi)容的實時控制。

2、重構(gòu)上下文記憶機(jī)制：通過動態(tài)重建過往幀信息，并結(jié)合時間重構(gòu)策略，系統(tǒng)能夠維持長期的幾何一致性，顯著緩解了長視頻生成中常見的記憶衰減問題。

3、WorldCompost強(qiáng)化學(xué)習(xí)框架：這一新型后訓(xùn)練框架專門針對長序列自回歸視頻模型優(yōu)化，直接提升了動作跟隨能力和生成畫面的視覺質(zhì)量。

4、情境強(qiáng)迫蒸餾法：該方法通過對齊教師模型與學(xué)生模型之間的記憶上下文，在確保生成速度的同時，保持了模型利用長遠(yuǎn)歷史信息的能力，從而有效抑制誤差累積。

騰訊混元最新世界模型開源！支持實時生成交互，突破長期空間記憶

基于以上技術(shù)，在用戶給定一張圖片或一段描述世界的文本提示，該模型能夠根據(jù)用戶輸入的動作條件，執(zhí)行下一片段（16個視頻幀）預(yù)測任務(wù)，以生成未來的視頻序列。在生成每個片段時，該模型可以動態(tài)地從過往片段中重構(gòu)上下文記憶，以此確保長期的時序一致性與幾何一致性。

結(jié)語：正探索更復(fù)雜的交互和物理世界模擬

混元世界模型1.5較此前版本的1.0模型做出了較大提升，突破了此前實時交互和空間細(xì)節(jié)的局限，為創(chuàng)建一致且交互式的虛擬世界邁出了關(guān)鍵一步。

騰訊混元又開源一世界模型，這為游戲開發(fā)、虛擬現(xiàn)實、數(shù)字內(nèi)容創(chuàng)作等應(yīng)用場景提供了新的工具與更多的可能性?；煸獔F(tuán)隊稱，他們正在探索讓模型能夠生成更長時間的視頻序列，以及支持多智能體交互和復(fù)雜的物理世界動態(tài)。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、支持文、圖輸入，生成多視角、風(fēng)格化場景視頻

二、多個指標(biāo)全面碾壓現(xiàn)有模型，幾何一致性和視覺質(zhì)量出色

三、提出全新強(qiáng)化學(xué)習(xí)框架，能動態(tài)重構(gòu)上下文

結(jié)語：正探索更復(fù)雜的交互和物理世界模擬

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、支持文、圖輸入，生成多視角、風(fēng)格化場景視頻

二、多個指標(biāo)全面碾壓現(xiàn)有模型，幾何一致性和視覺質(zhì)量出色

三、提出全新強(qiáng)化學(xué)習(xí)框架，能動態(tài)重構(gòu)上下文

結(jié)語：正探索更復(fù)雜的交互和物理世界模擬

相關(guān)推薦

一、支持文、圖輸入，生成多視角、風(fēng)格化場景視頻

二、多個指標(biāo)全面碾壓現(xiàn)有模型，幾何一致性和視覺質(zhì)量出色

三、提出全新強(qiáng)化學(xué)習(xí)框架，能動態(tài)重構(gòu)上下文