智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影

你一定在科幻電影中看到過這樣的情節(jié):主角不小心進入了游戲世界,在3D虛擬的場景中探索、漫步。

如今,這不再是只能幻想的場景。世界模型的出現(xiàn),給這一情節(jié)帶來了更多在現(xiàn)實中實現(xiàn)的可能性。

經(jīng)過一年時間的打磨,10月底,智源研究院發(fā)布了新一代原生多模態(tài)世界模型“悟界·Emu3.5”。

性能上,相較上一版本,Emu3.5在超過13萬億token的大規(guī)模多模態(tài)數(shù)據(jù)基礎(chǔ)上展開訓練,其視頻數(shù)據(jù)訓練量時長從15年提升到790年,參數(shù)量從8B上升至34B

在不犧牲性能的前提下,Emu3.5每張圖片的推理速度提升了近20倍,首次使自回歸模型的生成效率達到頂尖的閉源擴散模型的水平。

智東西獲得了Emu3.5的內(nèi)測資格,第一時間對其文生圖和圖片編輯功能進行了實測。

首先是文生圖功能,我們輸入提示詞如下:

在一個充滿活力的廚房場景中,大窗戶外可見郁郁蔥蔥的綠植。兩個動畫角色并排站著。左邊是一個擬人化的狐貍模樣的生物,有著橙色的皮毛、白色的腹部和一雙富有表現(xiàn)力的大眼睛,脖子上系著一條綠色的圍裙。右邊是一個年輕女孩,棕色的頭發(fā)扎成了辮子,穿著黃色的襯衫,外面套著一件藍綠色的圍裙。兩個角色似乎都在忙著做飯,背景中掛著各種廚房用具、鍋以及橙子、大蒜等食材。整個環(huán)境明亮又歡快,陽光透過外面的樹葉灑進來。圖像中沒有可見的文字。

不到一分鐘,Emu3.5就生成了一副很“迪士尼風”的圖畫。畫面顏色明亮輕快,小女孩和狐貍都和提示詞形容的十分相似,畫面光影、比例和構(gòu)圖都很協(xié)調(diào)。

世界模型的下一個階段是什么?智源研究院給出了答案

圖片編輯方面,我們上傳了一張小松鼠的照片,要求Emu3.5將畫面中的小松鼠提取出來,背景換成雪地場景。

世界模型的下一個階段是什么?智源研究院給出了答案

原圖片中,小松鼠和背景色調(diào)一致,肉眼都容易看不清楚,Emu3.5卻十分精準地識別出了小松鼠的形象。其生成的圖片光影、結(jié)構(gòu)準確,連陽光照射在雪地上的反光都十分逼真,在畫面的前方和后方背景,還實現(xiàn)了相機般的虛化效果。

世界模型的下一個階段是什么?智源研究院給出了答案

此外,Emu3.5還能修改圖片視角。我們上傳了一張仰視的鼓樓夜景照片,要求Emu3.5將這張照片轉(zhuǎn)化為一只鳥的視角:

世界模型的下一個階段是什么?智源研究院給出了答案

Emu3.5不僅能精準實現(xiàn)視角切換,其“下一階段預測”范式更使其具備自動補全周邊環(huán)境畫面的能力,表現(xiàn)就像一臺置于真實場景中的相機。

世界模型的下一個階段是什么?智源研究院給出了答案

此外,Emu3.5還可以更改畫面中主體的位置關(guān)系和動作形態(tài),比如讓小狗擁抱小貓:

世界模型的下一個階段是什么?智源研究院給出了答案

識別數(shù)字和計數(shù)一直是多模態(tài)模型的弱點,Emu3.5卻可以精準識別將圖片中的標號,將指定序號的掛畫換成另外一張海報:

世界模型的下一個階段是什么?智源研究院給出了答案

在畫面中加入一個物體也不在話下,Emu3.5可以直接將魔方放置在圖片場景中,并且會根據(jù)場景的光線和風格自動調(diào)整物體的色調(diào),不會出現(xiàn)“不在一個圖層”的效果。

世界模型的下一個階段是什么?智源研究院給出了答案

再比如,Emu3.5還可以修復老照片,還原老照片本來的顏色和質(zhì)感:

世界模型的下一個階段是什么?智源研究院給出了答案

當然,作為世界模型,Emu3.5也可以創(chuàng)造出一個“世界”。

例如,我們讓Emu3.5生成了一個臥室照片。接著,點擊繼續(xù)探索,要求Emu3.5更走近一些。通過一步一步地變換視角,Emu3.5就可以生成一個完整的“世界”:

世界模型的下一個階段是什么?智源研究院給出了答案

除了變換視角,Emu3.5還可以“預測”圖片場景100年后的樣子:

世界模型的下一個階段是什么?智源研究院給出了答案

該模型延續(xù)了將圖像、文本和視頻等多模態(tài)數(shù)據(jù)統(tǒng)一建模的核心思想,并在“Next-Token Prediction”范式的基礎(chǔ)上,模擬人類自然學習方式,以自回歸方式實現(xiàn)了對多模態(tài)序列的“Next-State Prediction(NSP)”,從而獲得了可泛化的世界建模能力。

那么,NSP是怎么實現(xiàn)的?Emu3.5和其他世界模型有什么不一樣的地方?除了生成圖片和“世界”Emu3.5還能用在哪里?我深扒了“悟界·Emu3.5”的技術(shù)報告,給你一一解答。

一、直接預測下一個狀態(tài),厲害在哪?

李飛飛在她的自傳《我看見的世界》中寫到,5.43億年前,地球上的生物生活在原始海洋中,沒有感官和知覺,因此也沒有大腦。后來,“寒武紀生命大爆發(fā)”時期到來,生物進化歷程從此開始狂飆。

動物學家安德魯·帕克認為,“寒武紀生命大爆發(fā)”之所以會發(fā)生,其實是因為生物開始具備“光敏感性”,這也是現(xiàn)代眼睛形成的基礎(chǔ)。

簡單來說,生命爆發(fā)進化是從“看見”開始的。那如果將這個進化路徑放在AI上呢?

在Emu的技術(shù)溝通會上,王仲遠博士也提出了類似的看法,他說:“人類的學習,不是從文本學習開始的。我們每一個人從出生開始,跟其他人的交流,認識物理世界的運行規(guī)律,都是從視覺開始的。”

Emu3.5的訓練數(shù)據(jù)中包含超13萬億多模態(tài)token,其中視頻數(shù)據(jù)時長累計有790年,覆蓋教育、科技、How-to、娛樂等多領(lǐng)域。與傳統(tǒng)方法不同,Emu3.5的訓練語料庫旨在捕捉長時程、交錯的多模態(tài)語境。

具體而言,該子集來源于大規(guī)模互聯(lián)網(wǎng)視頻的連續(xù)視頻幀和時間對齊的音頻轉(zhuǎn)錄文本,這些內(nèi)容本身就保留了時空連續(xù)性、跨模態(tài)對齊性和語境連貫性。

世界模型的下一個階段是什么?智源研究院給出了答案

在訓練框架上,Emu3.5基于單一自回歸Transformer架構(gòu),采用端到端原生多模態(tài)建模,無需依賴擴散模型或組合式方法,就實現(xiàn)了圖像、文本、視頻等多模態(tài)數(shù)據(jù)的“大一統(tǒng)”處理。

進而,在大規(guī)模多模態(tài)數(shù)據(jù)和Next-Token Prediction(NTP,下一個token預測)的基礎(chǔ)上,Emu3.5擴展出“Next-State Prediction(NSP,下一狀態(tài)預測)”即直接預測多模態(tài)序列的完整動態(tài)狀態(tài),而非孤立token。

世界模型的下一個階段是什么?智源研究院給出了答案

NSP厲害就厲害在,它可以讓模型從多模態(tài)數(shù)據(jù)中自主學習世界的動態(tài)規(guī)律,例如物理動態(tài)、時空連續(xù)性、因果關(guān)系,進而實現(xiàn)“理解——預測——規(guī)劃”的完整能力。

NSP還能將高層意圖轉(zhuǎn)化為可執(zhí)行的多步行動路徑,接受指令后,Emu3.5能基于視頻中學到的 “物體移動規(guī)律”,規(guī)劃符合物理邏輯的連貫步驟,這正是AI從“感知”進化為“認知”的核心標志。

世界模型的下一個階段是什么?智源研究院給出了答案

為了提高推理效率,研究團隊提出了離散擴散自適應(yīng)(DiDA)方法,它將逐token解碼轉(zhuǎn)換為雙向并行預測,在不犧牲性能的情況下,將單圖像推理速度提升了約20倍。

研究團隊還構(gòu)建了多維度獎勵系統(tǒng),對NSP的 “多步驟規(guī)劃準確性”“因果邏輯連貫性” 進行定向優(yōu)化,提升了Emu3.5的步驟分解與物理規(guī)律匹配度。

從性能表現(xiàn)來看,當前Emu3.5參數(shù)量為340億,訓練所用視頻數(shù)據(jù)累計時長達790年,僅占全互聯(lián)網(wǎng)公開視頻數(shù)據(jù)的1%以下,但模型性能已達到“產(chǎn)品級”水準。

“自回歸架構(gòu)”+“大規(guī)模強化學習訓練”+“下一狀態(tài)預測”(NSP)范式,至此,Emu3.5找到了多模態(tài)世界模型的Scaling Law方向,多模態(tài)模型性能可以像大語言模型(LLM)一樣,隨計算和參數(shù)規(guī)模的增長而可預測地提升。

“Emu3.5很可能開啟了第三個Scaling范式?!?/strong>王仲遠博士這樣形容Emu3.5,毫不夸張。

二、教機器人抓拿握,不用再不同場景分開學了

正是因為在“下一狀態(tài)預測”上的技術(shù)突破,EMU3.5 模型具備了學習現(xiàn)實世界物理動態(tài)與因果的能力,展現(xiàn)出對復雜動態(tài)世界進行預測和規(guī)劃的能力。這就讓EMU3.5可以在具身智能方面大展身手。

在場景應(yīng)用層面,模型可實現(xiàn)跨場景的具身操作,具備泛化的動作規(guī)劃與復雜交互能力,并能在世界探索中保持長距離一致性與可控交互,兼顧真實與虛擬的動態(tài)環(huán)境,實現(xiàn)自由探索與精準控制。

世界模型的下一個階段是什么?智源研究院給出了答案

據(jù)介紹,Emu3.5已經(jīng)開始了在具身智能方面的實踐探索。

過去,數(shù)據(jù)采集多局限于固定場景,機器人真機只能采集到具體有限的數(shù)據(jù),通過Emu3.5它可以產(chǎn)生泛化的數(shù)據(jù),使得模型產(chǎn)生了泛化的能力。

而得益于Emu系列采用的自回歸架構(gòu),其可擴展性極強,并且能夠支持視覺與文字Token的輸出。這能夠極大的提高模型,包括具身機械人、機械手臂,實際場景中處理泛化性的能力,自然而然就會推動整個具身更快進入一些真實的場景中

在真實場景測試中,應(yīng)用Emu3.5后,未知場景中,機器人行動的表現(xiàn)成功率可直接達到 70%,而其他模型的表現(xiàn)成功率往往接近零。

“泛化”這一方向就是是智源研究院的重點發(fā)力的領(lǐng)域,目前正進一步擴大技術(shù)驗證規(guī)模,在真機上對各類場景展開嘗試。

三、只有原生多模態(tài)大模型,才能讓AI感知世界、理解世界

從上文中對Emu3.5的技術(shù)解讀不難發(fā)現(xiàn),智源研究院一直堅持的技術(shù)路線核心就是“原生多模態(tài)”

從Emu3到Emu3.5,模型均采用單一自回歸Transformer架構(gòu),實現(xiàn)圖像、文本、視頻數(shù)據(jù)的 “端到端統(tǒng)一處理”,無需依賴擴散模型(DiT)或混合架構(gòu),從底層解決 “多模態(tài)數(shù)據(jù)對齊” 與 “跨模態(tài)推理” 的核心痛點。

世界模型的下一個階段是什么?智源研究院給出了答案

智源研究院的研究團隊認為,世界模型不等同于視頻預測模型。真正的世界模型應(yīng)該理解“杯子掉落→破碎”“點燃木頭→燃燒”等深層因果關(guān)系,并且可以“舉一反三”,將一個場景中的能力泛化到其他場景,真正做到像人一樣思考。

原生多模態(tài)大模型的研發(fā),能夠把多模態(tài)的理解和多模態(tài)的生成統(tǒng)一起來。智源研究院認為,只有這樣,才能夠真正讓AI看到、感知、理解這個世界,才能夠讓AI真正進入物理世界,真正解決現(xiàn)實生活中更多現(xiàn)實的問題。

結(jié)語:世界模型進入“下一個狀態(tài)預測”范式

從“下一Token預測”邁向“下一個狀態(tài)預測”,Emu3.5的發(fā)布標志著世界模型的發(fā)展進入了一個新階段。

其意義不僅在于視頻生成功效的提升,更在于通過“原生多模態(tài)”與“下一狀態(tài)預測”的路徑,讓模型獲得了對物理世界動態(tài)與因果關(guān)系的深層理解能力。這為AI在真實場景中實現(xiàn)可靠的規(guī)劃與決策奠定了基礎(chǔ)。

在行業(yè)落地上,這一能力更是直接瞄準了具身智能、自動駕駛和工業(yè)仿真等行業(yè)的痛點。在這些領(lǐng)域,AI不僅需要“看得見”,更需要“看得懂”,并能預測“接下來會發(fā)生什么”。

隨著“狀態(tài)預測”范式的確立,世界模型的技術(shù)競爭正從“生成質(zhì)量”的比拼,升級為“世界理解深度”的較量。