智東西(公眾號(hào):zhidxcom)
作者 | 李水青
編輯 | 漠影

智東西2月1日報(bào)道,北京時(shí)間1月29日,北京智源人工智能研究院推出的多模態(tài)大模型“悟界·Emu”登上Nature正刊,成為繼DeepSeek之后第二個(gè)達(dá)成此成就的中國大模型團(tuán)隊(duì)研究成果,也是中國首篇圍繞多模態(tài)大模型路線的Nature論文。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲Nature官網(wǎng)截圖

Nature編輯點(diǎn)評道:“Emu3僅基于‘預(yù)測下一個(gè)token’實(shí)現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學(xué)習(xí),其在生成與感知任務(wù)上的性能可與使用專門路線相當(dāng),這一成果對構(gòu)建可擴(kuò)展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義,有望推動(dòng)原生多模態(tài)助手、世界模型以及具身智能等方向的發(fā)展?!?/p>

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲Emu3有望推動(dòng)具身智能等方向發(fā)展

“悟界·Emu3”模型由智源研究院于2024年10月推出。無論在感知和還是生成方面,Emu3均達(dá)到了與特定任務(wù)旗艦?zāi)P拖噫敲赖男阅堋?/strong>該模型能夠完成文本到圖像生成、文本到視頻生成、未來預(yù)測、視覺語言理解、交錯(cuò)圖像文本生成以及具身操作等多方面任務(wù),這一成果對于確立自回歸成為生成式AI統(tǒng)一路線具有重大意義。

如下圖所示,Emu3的圖像生成在MSCOCO-30K23等基準(zhǔn)上表現(xiàn)優(yōu)于SDXL等擴(kuò)散模型;視頻生成在VBench評分達(dá)81,超過Open-Sora 1.2視覺語言理解得分62.1,略高于LLaVA-1.6。盡管這一成績在如今已經(jīng)比較尋常,但在兩年前卻非同一般。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲Emu3圖像生成、視覺-語言理解和視頻生成的主要測評結(jié)果

前OpenAI政策主管、現(xiàn)Anthropic聯(lián)合創(chuàng)始人杰克·克拉克(Jack Clark)當(dāng)時(shí)評價(jià)Emu3:“不依賴花哨的架構(gòu)技巧,僅用最基礎(chǔ)的預(yù)測下一個(gè)token的邏輯,這種‘簡單’被視為具備強(qiáng)大的擴(kuò)展?jié)摿Α?/strong>

而正是這種“簡單”架構(gòu)路線,對降低大模型研發(fā)門檻和成本意義重大。“越是極簡的架構(gòu),可能越具備強(qiáng)大的生產(chǎn)力,對產(chǎn)業(yè)的價(jià)值也越大?!敝窃囱芯吭涸洪L王仲遠(yuǎn)告訴智東西,“因?yàn)樗喕硕嗄B(tài)AI架構(gòu),減少了研發(fā)過程中的復(fù)雜性和潛在錯(cuò)誤,從而使模型的構(gòu)建和維護(hù)更高效。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲智源研究院院長王仲遠(yuǎn)

到2025年10月,“悟界·Emu”系列已迭代出多模態(tài)世界模型。Emu3.5可以理解長時(shí)序、空間一致的序列,模擬在虛擬世界中的探索和操作,不僅超越谷歌Nano Banana等模型拿下多模態(tài)SOTA,并首次指明了“多模態(tài)Scaling 范式”,讓模型自發(fā)學(xué)習(xí)世界演變的內(nèi)在規(guī)律,為具身智能等物理AI領(lǐng)域發(fā)展提供了重要新路徑。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲Emu3.5延續(xù)了多模態(tài)數(shù)據(jù)統(tǒng)一建模的核心思想

Emu3為什么能夠登上Nature正刊,得到國際學(xué)術(shù)界的高度認(rèn)可?背后誕生了什么樣的AI原創(chuàng)技術(shù),并經(jīng)歷了什么樣的挑戰(zhàn)?這又將對學(xué)界和產(chǎn)業(yè)界的發(fā)展產(chǎn)生什么樣的實(shí)際影響?本文試圖對這些問題進(jìn)行深入探討。

論文名:
《通過預(yù)測下一個(gè)token進(jìn)行多模態(tài)學(xué)習(xí)的多模態(tài)大模型(Multimodal learning with next-token prediction for large multimodal models)》
論文地址:
https://www.nature.com/articles/s41586-025-10041-x
GitHub地址:

https://github.com/baaivision/Emu3

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲Emu3論文部分截圖

一、50人小組死磕“統(tǒng)一”:一場押注AI未來的技術(shù)豪賭

Emu3模型最早立項(xiàng)是在2024年2月,當(dāng)時(shí)正值團(tuán)隊(duì)重新審視大模型發(fā)展路徑——隨著GPT-4、Sora的爆火,“預(yù)測下一個(gè)token”自回歸路線徹底改變了語言模型領(lǐng)域,并引發(fā)了關(guān)于AGI早期跡象的討論,而在多模態(tài)生成領(lǐng)域,DiT(Difussion Transformer)架構(gòu)成為主流,開始展現(xiàn)出令人驚艷的生成效果。

自回歸技術(shù)路線是否可以作為通用路線統(tǒng)一多模態(tài)?一直是未解之謎。

Emu3的開創(chuàng)性,就在于僅采用“預(yù)測下一個(gè)token(NTP)”自回歸路線,就實(shí)現(xiàn)統(tǒng)一多模態(tài)學(xué)習(xí),訓(xùn)練出性能出色的原生多模態(tài)大模型。

時(shí)間線拉回到立項(xiàng)之前,當(dāng)時(shí)智源研究院團(tuán)隊(duì)進(jìn)行了大量分析和辯論,達(dá)成一個(gè)共識(shí)——多模態(tài)是未來實(shí)現(xiàn)AGI的關(guān)鍵路徑,但現(xiàn)有的多模態(tài)生成長期以來由擴(kuò)散模型主導(dǎo),而視覺語言感知?jiǎng)t主要由組合式方法引領(lǐng),并不收斂統(tǒng)一,存在技術(shù)天花板。

盡管已有業(yè)內(nèi)人士試圖統(tǒng)一生成與感知(如Emu和Chameleon),但這些工作要么簡單地將大語言模型與擴(kuò)散模型拼接在一起,要么在性能效果上不及那些針對生成或感知任務(wù)精心設(shè)計(jì)的專用方法。

自回歸架構(gòu)能否作為原生統(tǒng)一多模態(tài)的技術(shù)路線,信與不信,這是一個(gè)重大的技術(shù)決策。最終在2024年2月底,智源研究院決定,組建一支五十人的技術(shù)攻關(guān)團(tuán)隊(duì),以自回歸架構(gòu)為核心進(jìn)行研發(fā),并采用離散的token方式,以精簡架構(gòu)和大規(guī)模復(fù)用的大語言模型基礎(chǔ)設(shè)施,開啟全新的多模態(tài)模型Emu3的研發(fā)工作。

該模型開創(chuàng)性地將圖像、文本和視頻統(tǒng)一離散化到同一個(gè)表示空間中,并從零開始,在多模態(tài)序列混合數(shù)據(jù)上聯(lián)合訓(xùn)練一個(gè)單一的 Transformer。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!▲Emu3可完成不同多模態(tài)任務(wù)

這是一條挑戰(zhàn)傳統(tǒng)的“冒險(xiǎn)”之路,在成功之前,智源研究院團(tuán)隊(duì)經(jīng)歷了重重挑戰(zhàn)。

首先不言而喻的是技術(shù)上的挑戰(zhàn)。選擇“離散的token”方式本身是一種冒險(xiǎn),因?yàn)樗鼑L試為視覺和其他模態(tài)重新發(fā)明一種與人類文字語言對齊的語言體系。在圖像壓縮過程中,由于圖像信息相較于文字的信息量更大,但冗余更多,這使得基于token壓縮圖像時(shí)難以訓(xùn)練出有效模型,在這個(gè)過程中也難免受挫和沮喪。

第二,更深層次的是路徑上的質(zhì)疑。2024年國內(nèi)各個(gè)大模型團(tuán)隊(duì)都在如火如荼地復(fù)現(xiàn)GPT-4,很多頭部玩家一邊也布局了多模態(tài)模型,但實(shí)際過程中存在搖擺,最終因資源消耗大、主線仍聚焦于語言模型等原因而砍掉了團(tuán)隊(duì)。智源研究院在這樣的產(chǎn)業(yè)大背景下堅(jiān)持了下來,背后需要一號(hào)位強(qiáng)大的信念和團(tuán)隊(duì)強(qiáng)大的定力。

第三,“多模態(tài)能否提升模型的智能”這個(gè)問題,當(dāng)時(shí)還沒有完全成定論。但智源團(tuán)隊(duì)堅(jiān)信,下一代模型如果要進(jìn)入到物理世界,僅靠文字是不夠的,需要一個(gè)“見過世界”的模型。他們相信,不管突破多模態(tài)模型乃至世界模型智能升級(jí)有多難,它都是實(shí)現(xiàn)AGI的一條必經(jīng)之路。

二、性能匹敵專用模型:兩年,Emu3已深度影響產(chǎn)業(yè)發(fā)展脈絡(luò)

多位業(yè)內(nèi)專業(yè)人士告訴智東西,Emu3模型發(fā)布兩年多以來,已經(jīng)對多模態(tài)領(lǐng)域產(chǎn)生了顯著影響,推動(dòng)了整個(gè)產(chǎn)業(yè)的發(fā)展脈絡(luò)。有證據(jù)表明其在產(chǎn)業(yè)界中得到了廣泛應(yīng)用和高度認(rèn)可。

而進(jìn)入產(chǎn)業(yè)應(yīng)用的前提,是Emu3首先打贏了“性能”這一仗。在多模態(tài)生成與感知任務(wù)上,Emu3的整體表現(xiàn)可與多種成熟的任務(wù)專用模型相媲美。

首先聚焦文本到圖像生成能力,在MSCOCO-30K23、GenEval24、T2I-CompBench25等多個(gè)基準(zhǔn)上,Emu3的性能與當(dāng)時(shí)最先進(jìn)的擴(kuò)散模型相當(dāng):超越了SD1.5、SDXL等模型,并接近DALL-E 3、FLUX.1(Dev)等模型。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲Emu3的性能與最先進(jìn)的擴(kuò)散模型相當(dāng)

如下圖所示,在文生圖任務(wù)中,其效果達(dá)到擴(kuò)散模型水平;在視覺語言理解方面,其可以與融合CLIP和大語言模型的主流方案比肩。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲Emu3在文生圖和視覺語言理解上比肩主流方案

在視覺語言理解方面,如下圖所示,Emu3作為一種純粹的無編碼器方法,在多個(gè)基準(zhǔn)測試中達(dá)到了與其同類方法相當(dāng)?shù)男阅?。取得這樣的視覺-語言理解能力,Emu3并未依賴專門的預(yù)訓(xùn)練大語言模型和CLIP。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲Emu3在視覺-語言理解能力方面的測評成績

零樣本圖像修復(fù)案例中,給定輸入圖像(每行左側(cè))和相應(yīng)提示,Emu3能準(zhǔn)確填充邊界框內(nèi)的掩碼區(qū)域,生成語義對齊的內(nèi)容,且無需特定任務(wù)的微調(diào)。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲Emu3零樣本圖像修復(fù)

同時(shí),Emu3還具備視頻生成能力。Emu3原生支持生成24幀/秒的5秒視頻,并可通過自回歸方法進(jìn)行擴(kuò)展。如圖所示,在擴(kuò)展數(shù)據(jù)表3中,Emu3所產(chǎn)生的結(jié)果與其他視頻擴(kuò)散模型相比具有很強(qiáng)的競爭力:Emu3的性能超過Open Sora V1.2、Kling(2024)、Gen-3等當(dāng)年的知名專用模型。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲Emu3與其他視頻擴(kuò)散模型對比情況

Emu3可以通過預(yù)測未來幀來擴(kuò)展視頻。以視頻擴(kuò)展的定性為例,將2秒、24幀/秒的視頻token化為離散視覺token作為上下文。Emu3以同樣的離散視覺token形式預(yù)測后續(xù)2秒的內(nèi)容,這些token可以被解token化以生成預(yù)測的未來視頻。

不同于Sora等模型的以噪聲為起點(diǎn)的擴(kuò)散式視頻生成模型,Emu3通過自回歸方式逐token預(yù)測視頻序列,實(shí)現(xiàn)基于因果的視頻生成與延展,展現(xiàn)出對物理世界中環(huán)境、人類與動(dòng)物行為的初步模擬能力。

Emu3還可拓展至視覺語言交錯(cuò)生成,例如圖文并茂的菜譜生成。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲交錯(cuò)圖文生成結(jié)果的可視化

其也可拓展至視覺語言動(dòng)作建模,如機(jī)器人操作VLA等,進(jìn)一步體現(xiàn)了“預(yù)測下一個(gè)token”的通用性。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲Droid數(shù)據(jù)集上視覺預(yù)測的可視化

事實(shí)上,在Nature論文之外,智源研究院于2025年10月30日發(fā)布了Emu3的后續(xù)版本Emu3.5,其在多種多模態(tài)任務(wù)上繼續(xù)展現(xiàn)出令人驚艷的效果以及SOTA的結(jié)果,對比Emu3有了全方位、大幅度的性能提升,開啟多模態(tài)世界大模型新紀(jì)元。

“悟界·Emu”系列在架構(gòu)理念和實(shí)際效果上都達(dá)到了產(chǎn)品級(jí),這才使它不僅在學(xué)術(shù)界獲得了《自然》期刊的高度認(rèn)可,而且在業(yè)界引起了廣泛關(guān)注。Emu3及后續(xù)版本的成果具有重大產(chǎn)業(yè)應(yīng)用前景,可能改寫整個(gè)多模態(tài)大模型格局,為中國在下一代大模型下的原創(chuàng)科研成果樹立了典范。

三、擴(kuò)散模型已死?技術(shù)角度揭秘Emu3框架

Emu3及后續(xù)版本的發(fā)布,一度在開發(fā)者社區(qū)引起討論和關(guān)注,甚至產(chǎn)生了“擴(kuò)散模型已死”的說法。

對此,王仲遠(yuǎn)坦言,目前對于擴(kuò)散模型的研究趨勢尚不能定論。雖然有一些成果如Emu3.5提供了世界模型的可行路徑,但并非唯一路徑。未來可能會(huì)有更多技術(shù)路徑實(shí)現(xiàn)“預(yù)測下一個(gè)狀態(tài)”,且擴(kuò)散模型也在與其他技術(shù)結(jié)合改進(jìn)。因此,不能斷言擴(kuò)散模型會(huì)消失,而是需要持續(xù)觀察和學(xué)習(xí)交流。

盡管不能斷言自回歸路線已經(jīng)一統(tǒng)天下,但Emu3已經(jīng)為產(chǎn)業(yè)提供了一條新的康莊大道。

回到Emu3模型架構(gòu)來看,其保留了Llama-2等成熟大語言模型的架構(gòu)框架,主要修改在于擴(kuò)展了嵌入層以容納離散的視覺標(biāo)記。這是一個(gè)統(tǒng)一的、僅含解碼器的框架,該框架將語言、圖像和視頻建模為單一的離散標(biāo)記序列,并通過下一個(gè)標(biāo)記預(yù)測目標(biāo)進(jìn)行端到端訓(xùn)練。

下圖展示了該框架,其方法包含五個(gè)緊密集成的組件:

1、一個(gè)大型的混合多模態(tài)訓(xùn)練數(shù)據(jù)集。

2、一個(gè)統(tǒng)一的標(biāo)記器,可將圖像和視頻片段轉(zhuǎn)換為緊湊的離散標(biāo)記流(視覺分詞器)。

3、一個(gè)基于Transformer的僅解碼器架構(gòu),該架構(gòu)擴(kuò)展了大型語言模型的嵌入空間以接受視覺標(biāo)記,其他方面則遵循標(biāo)準(zhǔn)的僅解碼器設(shè)計(jì)選擇(架構(gòu))。

4、一個(gè)兩階段優(yōu)化方案,包括采用平衡交叉熵?fù)p失的大規(guī)模多模態(tài)預(yù)訓(xùn)練,以及與任務(wù)格式和人類偏好對齊的高質(zhì)量后訓(xùn)練(預(yù)訓(xùn)練和后訓(xùn)練)。

5、一個(gè)高效的推理后端,支持無分類器引導(dǎo)(CFG)、低延遲和高吞吐量,用于自回歸多模態(tài)生成(推理)。

DeepSeek之后,智源大模型登Nature:事關(guān)“世界模型”統(tǒng)治路線!

▲Emu3架構(gòu)圖

這一架構(gòu)證明,僅憑“預(yù)測下一個(gè)token”,我們就能夠同時(shí)支持高水平的生成能力與理解能力,并且在同一統(tǒng)一架構(gòu)下,自然地?cái)U(kuò)展到機(jī)器人操作以及多模態(tài)交錯(cuò)等生成任務(wù)。智源研究團(tuán)隊(duì)對相關(guān)研究的多項(xiàng)關(guān)鍵技術(shù)與模型進(jìn)行了開源,以推動(dòng)該方向的持續(xù)研究。

同時(shí),研究通過大規(guī)模消融實(shí)驗(yàn)系統(tǒng)分析了多項(xiàng)關(guān)鍵技術(shù)的設(shè)計(jì)選擇,驗(yàn)證了多模態(tài)學(xué)習(xí)的規(guī)模定律(Scaling law)、統(tǒng)一離散化的高效性、以及解碼器架構(gòu)的有效性。研究還驗(yàn)證了自回歸路線高度通用性:直接偏好優(yōu)化(DPO)方法可無縫應(yīng)用于自回歸視覺生成任務(wù),使模型能夠更好地對齊人類偏好。

在此研究基礎(chǔ)上,悟界·Emu3.5進(jìn)一步通過大規(guī)模長時(shí)序視頻訓(xùn)練,學(xué)習(xí)時(shí)空與因果關(guān)系,展現(xiàn)出隨模型與數(shù)據(jù)規(guī)模增長而提升的物理世界建模能力,并觀察到多模態(tài)能力隨規(guī)模擴(kuò)展而涌現(xiàn)的趨勢,實(shí)現(xiàn)了“預(yù)測下一個(gè)狀態(tài)”的范式升級(jí)。

四、堅(jiān)持原始創(chuàng)新:北京智源引領(lǐng)大模型技術(shù)演進(jìn)

自2018年創(chuàng)立之后,智源研究院通過多項(xiàng)成果深刻影響了中國AI學(xué)術(shù)和產(chǎn)業(yè)界。其在2021年發(fā)布了中國首個(gè)大語言模型“悟道1.0”,及當(dāng)時(shí)全球最大的大語言模型(采用MoE架構(gòu))“悟道2.0”,同時(shí)因輸送大量頂尖AI產(chǎn)業(yè)人才被稱為“大模型的黃埔軍?!?。

智源2022年開辟的新的模型系列——悟界·Emu研究成果的發(fā)表,不僅是國際學(xué)術(shù)界對智源研究團(tuán)隊(duì)工作的認(rèn)可,更是對中國AI原創(chuàng)技術(shù)路線的重要肯定。

Emu系列模型自2022年啟動(dòng)研發(fā)以來,圍繞“原生多模態(tài)”這一核心技術(shù)主線持續(xù)迭代,每一個(gè)版本都在關(guān)鍵能力與方法論上實(shí)現(xiàn)了實(shí)質(zhì)性突破。

2022年6月,系統(tǒng)布局多模態(tài)大模型的研發(fā)。

2023年7月,發(fā)布并開源首個(gè)版本,成為最早打通多模態(tài)輸入到多模態(tài)輸出的統(tǒng)一多模態(tài)模型,創(chuàng)新性提出統(tǒng)一多模態(tài)學(xué)習(xí)框架并大規(guī)模引入視頻數(shù)據(jù),初步實(shí)現(xiàn)多模態(tài)自回歸預(yù)測。

2023年12月,發(fā)布Emu2,通過大規(guī)模自回歸生成式多模態(tài)預(yù)訓(xùn)練,展現(xiàn)出可泛化的多模態(tài)上下文學(xué)習(xí)能力,可在少量示例和簡單指令下完成聽、說、讀、寫、畫等任務(wù),是當(dāng)時(shí)開源最大的生成式多模態(tài)模型。

2024年10月,發(fā)布Emu3,該模型只基于預(yù)測下一個(gè)token,無需擴(kuò)散模型或組合方法,即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成。

2025年10月,推出原生多模態(tài)世界模型Emu3.5,實(shí)現(xiàn)從 “預(yù)測下一個(gè)token” 到 “預(yù)測下一個(gè)狀態(tài)” 的能力躍遷,從長視頻數(shù)據(jù)中學(xué)習(xí)世界演化規(guī)律,提出多模態(tài) Scaling 新范式。

自2020年啟動(dòng)“悟道”大模型研究以來,智源持續(xù)聚焦大模型的原始創(chuàng)新與長期技術(shù)路徑探索。2025年6月,智源發(fā)布新一代大模型系列“悟界”,旨在構(gòu)建人工智能從數(shù)字世界邁向物理世界的關(guān)鍵能力,及物理世界的人工智能基座模型。

“悟界”系列模型構(gòu)建起覆蓋宏觀具身智能、介觀生命系統(tǒng)到微觀構(gòu)象動(dòng)力學(xué)的多層次技術(shù)基座。FlagOS開源系統(tǒng)軟件棧更是為模型的訓(xùn)練和推理帶來效率突破和多元AI硬件適配能力。

智源自成立以來,始終堅(jiān)持開源開放理念。官方數(shù)據(jù)顯示,智源已開源200多款模型,全球下載量超過7.6億次,并開源了180多個(gè)數(shù)據(jù)集,全球下載量超過500萬次。這些舉措在國內(nèi)AI科研機(jī)構(gòu)中名列前茅,對開源社區(qū)和產(chǎn)業(yè)界做出了獨(dú)特貢獻(xiàn)。

王仲遠(yuǎn)告訴智東西,開源開放是智源研究院從成立之初起就始終堅(jiān)持的理念,未來智源將持續(xù)在大模型技術(shù)及產(chǎn)業(yè)發(fā)展中起到表率作用,不僅開放模型權(quán)重,還將開放數(shù)據(jù)訓(xùn)練代碼和產(chǎn)業(yè)應(yīng)用案例,促進(jìn)開源生態(tài)和產(chǎn)業(yè)鏈共同發(fā)展。

結(jié)語:扎根AI基礎(chǔ)研究,北京“開源之都”建設(shè)初見成效

作為大模型第一城、開源之都,北京在近幾個(gè)月成果不斷。

“全球大模型第一股”智譜剛剛在1月8日成功上市,并聯(lián)合華為開源首個(gè)在國產(chǎn)芯片上完成全程訓(xùn)練的SOTA多模態(tài)模型GLM-Image;緊接著百度文心大模型5.0在1月24號(hào)上線,在40余項(xiàng)權(quán)威基準(zhǔn)的綜合評測中穩(wěn)居國際第一梯隊(duì);月之暗面Kimi在1月27日開源新模型K2.5,可調(diào)度百員智能體集群,比單智能體任務(wù)執(zhí)行效率提升4.5倍……

智源研究院在繼10月推出世界大模型悟界·Emu3.5后,再次靠Emu3刷新紀(jì)錄,開創(chuàng)了我國科研機(jī)構(gòu)主導(dǎo)的大模型成果首次在Nature正刊發(fā)表的歷史。下一步,王仲遠(yuǎn)透露,智源將持續(xù)投入資源研發(fā)新一代人工智能技術(shù),包括世界模型、具身智能及生命科學(xué)智能研究,目標(biāo)是構(gòu)建AI在物理世界中的基礎(chǔ)模型和關(guān)鍵能力。

這是一次中國AI原始創(chuàng)新的勝利。一方面,高密度的人才隊(duì)伍、充足的算力資源、機(jī)構(gòu)的堅(jiān)定技術(shù)信仰、地方政策支持都為其提供了動(dòng)力和保障;另一方面,或許也只有智源這樣產(chǎn)學(xué)兩棲的機(jī)構(gòu)這才有可能發(fā)生,相比于高校擁有更多算力、工程團(tuán)隊(duì)、企業(yè)化運(yùn)作的優(yōu)勢;相比于企業(yè),他們不用完全服務(wù)業(yè)務(wù),可以去做真正具有前瞻性、突破性科研項(xiàng)目。

北京“開源之都”建設(shè)初見成效。背后,北京在大模型領(lǐng)域的領(lǐng)先,并非僅僅依靠項(xiàng)目數(shù)量或融資規(guī)模,而更在于對基礎(chǔ)能力的扎實(shí)投入,以及對“慢變量”培育的長期堅(jiān)守。自2023年起,《北京市加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源地實(shí)施方案(2023-2025年)》《北京市促進(jìn)通用人工智能創(chuàng)新發(fā)展的若干措施》等文件相繼出臺(tái),北京明確將AI作為“新質(zhì)生產(chǎn)力”的核心引擎。

去年4月,北京市科委、中關(guān)村管委會(huì)透露,一批北京企業(yè)都積極擁抱開源,北京也在組織優(yōu)勢單位開源RISC-V處理器核、基礎(chǔ)及專業(yè)數(shù)據(jù)集、系列大模型,持續(xù)建設(shè)開源項(xiàng)目孵化平臺(tái),積極打造中國版“Hugging Face”,并持續(xù)推動(dòng)開源生態(tài)建設(shè)。

隨著全球大模型競爭步入深水區(qū),北京在AI基礎(chǔ)領(lǐng)域的扎實(shí)投入正日益展現(xiàn)出其深遠(yuǎn)價(jià)值。