智東西(公眾號:zhidxcom)
作者 | 駿達 王涵
編輯 | 心緣

智東西1月13日報道,昨晚,DeepSeek又開源了,還發(fā)布一篇新論文。這次,他們提出了一種全新的“條件記憶”機制——Engram,旨在讓MoE模型在保持巨量參數(shù)的同時,更高效地處理語言信息。

DeepSeek創(chuàng)始人兼CEO梁文鋒、北大王選計算機研究所的趙東巖和張輝帥教授都在論文中署名。

DeepSeek-V4核心公開?梁文鋒署名新論文發(fā)布,實習生挑大梁

Engram架構(gòu)的核心優(yōu)勢在于以更低成本實現(xiàn)更優(yōu)性能。訓練計算量較MoE減少18%的情況下,在32768個token的長上下文任務(wù)中,Engram在RULER基準測試中反超同參數(shù)量MoE模型。

并且,其淺層部署的記憶模塊接管局部依賴與靜態(tài)知識存儲,為注意力機制騰出容量以專注全局推理,1000億參數(shù)記憶表卸載后使H800推理吞吐量降幅不足3%。

DeepSeek還觀察到,增加記憶槽位數(shù)量能持續(xù)、穩(wěn)定地降低驗證損失,這意味著Engram提供了一個可預測的Scaling新手段:增大記憶容量持續(xù)帶來收益,而無需增加計算量。

那這種效果究竟是如何實現(xiàn)的呢?如今的MoE模型雖然在計算層面做到了稀疏化,但是它處理信息的方式仍然很費勁:有些老生常談的事實性內(nèi)容,比如常見的名字、公式或固定表達,模型卻要重復計算,非常耗時間。

DeepSeek的做法是,把這些“固定知識”提前整理成一個可以快速查詢的表格,這樣就能把更多精力放在真正需要深度思考的任務(wù)上,比如復雜推理或者理解長段文本。

值得一提的是,論文的第一作者Xin Cheng(程信)目前在北京大學智能學院攻讀博士學位,主要研究大模型的高效參數(shù)化方法和機制。他同時也在DeepSeek工作,R1、V3的研究都參與了,很有可能是實習生。

DeepSeek-V4核心公開?梁文鋒署名新論文發(fā)布,實習生挑大梁

在論文摘要中,DeepSeek提出,條件記憶(conditional memory)將成為下一代稀疏模型中不可或缺的建模原語。這或許意味著DeepSeek-V4有望整合條件記憶機制,實現(xiàn)知識高效檢索與推理能力的飛躍。

論文鏈接:

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

項目鏈接:

https://github.com/deepseek-ai/Engram

一、Transformer缺乏知識檢索機制,經(jīng)典??-gram架構(gòu)提供啟發(fā)

在正式介紹新型記憶機制前,DeepSeek團隊首先提出了一項重要的觀察。

稀疏性已經(jīng)成為了智能系統(tǒng)的核心設(shè)計原則,在大模型領(lǐng)域,其具體實現(xiàn)就是MoE(混合專家模型)。但是,現(xiàn)有的標準Transformer本質(zhì)上沒有真正的知識檢索機制,導致現(xiàn)有大模型不得不在早期層中通過昂貴計算來“重建”靜態(tài)知識,浪費了寶貴的模型深度。

因此,DeepSeek認為有必須要提出第二個與條件計算互補的稀疏維度:條件記憶。條件記憶則依賴稀疏的查找操作,為固定知識檢索靜態(tài)嵌入表示,適合命名實體、固定表達等靜態(tài)且高度模式化的語言表示。

DeepSeek他們向經(jīng)典的??-gram結(jié)構(gòu)引入了現(xiàn)代化的條件記憶模塊,包括分詞器壓縮、多頭哈希、上下文化門控以及多分支集成等,最終提出了Engram。

下圖是Engram的基本架構(gòu),通俗地說,Engram就是給Transformer加個外接記憶庫,并把當前token附近的一小段內(nèi)容,用快速、省參數(shù)的方式,去一個超大的靜態(tài)記憶表里查到對應(yīng)內(nèi)容。

DeepSeek-V4核心公開?梁文鋒署名新論文發(fā)布,實習生挑大梁

二、多管齊下打造新型記憶機制,天然支持參數(shù)存儲與計算資源解耦

這個記憶庫該如何具體實現(xiàn)呢?

首先,DeepSeek團隊對分詞器(tokenizer)進行了壓縮。普通的分詞器會把Apple、apple、APPLE這些單詞當成完全不同的東西,但是對人來說其實差別不大。

Engram先把詞表清洗了一遍,全部轉(zhuǎn)小寫,Unicode規(guī)范化(NFKC)。最后,一個原本128k的詞表,實際只剩下77%,有23%的token ID被合并了。這讓-gram記憶的密度明顯提升了。

不過,直接對所有??-gram進行建模是不可行的,參數(shù)會指數(shù)級增長。DeepSeek團隊引入了多頭哈希記憶(Multi-Head Hashing),在固定參數(shù)預算下近似大規(guī)模??-gram表,降低哈希碰撞引入的語義噪聲。

上述檢索機制提供的記憶是靜態(tài)的,缺乏上下文適應(yīng)性,易受歧義與沖突的影響,這一問題可通過上下文感知門控(Context-aware Gating)來解決。為進一步擴大感受野并增強非線性建模能力,模型還引入了一個深度可分離因果卷積。

DeepSeek團隊采用多分支架構(gòu)作為默認主干網(wǎng)絡(luò),而非標準的單流殘差連接(這是何愷明此前的研究成果)。多分支架構(gòu)把殘差流擴展為M個并行分支,但共享記憶表和輸出映射。這樣設(shè)計的好處是,它可以一次性用矩陣乘法搞定多條分支的計算,GPU用得非常高效。

Engram的核心優(yōu)勢在于記憶檢索完全依賴輸入token,而非運行時的隱藏狀態(tài)。這種確定性機制實現(xiàn)了參數(shù)存儲與計算資源的解耦,支持訓練和推理階段采取專門的優(yōu)化策略:

DeepSeek-V4核心公開?梁文鋒署名新論文發(fā)布,實習生挑大梁

▲Engram訓練和推理階段可采用不同優(yōu)化策略

訓練優(yōu)化通過將超大嵌入表分片至多張GPU,利用All-to-All通信按需收集對應(yīng)行,使總記憶容量隨GPU數(shù)量線性擴展。

推理優(yōu)化由于可提前確定待查詢記憶,系統(tǒng)可從主機內(nèi)存異步預取,同時在前幾層計算期間隱藏通信延遲,實現(xiàn)預取與計算的重疊,避免GPU停頓。

硬件-算法協(xié)同設(shè)計Engram在模型中的放置位置需平衡建模性能與系統(tǒng)延遲。較早引入有助于局部模式重建,較深放置則延長延遲隱藏窗口,需兼顧二者優(yōu)化。

層次化存儲基于自然語言??-gram的Zipf分布特性,可采用多級緩存策略,高頻嵌入存放于GPU HBM或主機DRAM,低頻嵌入置于SSD。這使Engram能擴展至超大規(guī)模記憶,同時保持低延遲與高效率。

三、兩個模塊資源二八分成,互補性獲驗證

接下來,DeepSeek團隊研究了另一個關(guān)鍵問題——條件計算和條件記憶這兩種稀疏模式該怎么配合,才能發(fā)揮最佳效果?

實驗發(fā)現(xiàn),在有限資源下,把所有空閑參數(shù)都給MoE(也就是純MoE模型)不是最優(yōu)解,最好的效果是大約75%-80%給MoE,其余20%-25%給Engram。

如果完全由MoE主導,模型缺乏靜態(tài)模式的專用記憶,只能靠計算反復重建,效率低。而如果完全由Engram主導,模型失去了動態(tài)計算能力,無法應(yīng)對需要上下文理解的任務(wù)。

這條U型曲線,驗證了兩個模塊的結(jié)構(gòu)互補性:

DeepSeek-V4核心公開?梁文鋒署名新論文發(fā)布,實習生挑大梁

前面這一實驗探索的是在固定參數(shù)參數(shù)預算下的分配優(yōu)化,那么如果把記憶大幅度擴展,會發(fā)生什么?

實驗發(fā)現(xiàn),在MoE主干網(wǎng)絡(luò)不變的情況下,附加Engram表。結(jié)果顯示,增加記憶槽位數(shù)量能持續(xù)、穩(wěn)定地降低驗證損失。

在探索范圍內(nèi),曲線嚴格遵循冪律(對數(shù)空間線性)。DeepSeek認為,這意味著Engram提供了一個可預測的Scaling新手段:增大記憶持續(xù)帶來收益,而無需增加計算量。

DeepSeek-V4核心公開?梁文鋒署名新論文發(fā)布,實習生挑大梁

同時,相比別的只做簡單平均的記憶方法(比如OverEncoding),Engram的Scaling潛力更大,性能提升更明顯。

這些結(jié)果驗證了條件記憶作為稀疏容量的獨立可擴展維度,與MoE的條件計算形成互補。

四、架構(gòu)訓練計算量少18%,性能反超MoE

驗證了架構(gòu)、技術(shù)路徑的可行性,DeepSeek團隊的下一步就是進行大規(guī)模的Scale,驗證這種方式在實際語言模型預訓練中的有效性。

具體而言,DeepSeek訓練了四個模型:Dense-4B、MoE-27B、Engram-27B、Engram-40B。訓練時的語料庫、分詞器都使用了相同的設(shè)置,而后兩個模型引入了Engram機制,用于研究在模型大小不變和Engram進一步擴展后的特性。

結(jié)果顯示,在相同算力和參數(shù)量的情況下,Engram-27B能在MoE-27B的基線上去取得持續(xù)提升,并且這些增益并不僅限于知識密集型任務(wù)。通用推理任務(wù)、代碼與數(shù)學推理任務(wù)從中得到的提升甚至更為顯著,

DeepSeek-V4核心公開?梁文鋒署名新論文發(fā)布,實習生挑大梁

這些結(jié)果支持了DeepSeek的假設(shè):引入專門的知識查找原語(knowledge lookup primitive)能夠提升表示效率,這超出了僅將整個稀疏預算用于條件計算所能達到的效果。

最后,將模型擴展到Engram-40B進一步降低了預訓練損失,并在大多數(shù)基準上提升了性能。雖然它尚未在每個任務(wù)上嚴格優(yōu)于Engram-27B,但這很可能是訓練不足的結(jié)果。

DeepSeek團隊觀察到,在訓練結(jié)束時,Engram-40B與基線模型之間的訓練損失差距仍在擴大,這表明在當前的token預算下,擴展的記憶容量尚未完全發(fā)揮其潛力。

接著,DeepSeek團隊用MoE-27B與Engram-27B作為對照組,均使用了5000步(約300億token)的高質(zhì)量長上下文數(shù)據(jù)進行微調(diào),然后他們采用DeepSeek-V3中的YaRN技術(shù),將模型的上下文窗口擴展到32768個token

實驗結(jié)果顯示,由于Engram模塊接管了局部依賴的建模,它為模型的注意力機制騰出了容量,使其能更專注于處理全局上下文。因此,Engram架構(gòu)在處理超長文本和長程推理任務(wù)上比傳統(tǒng)架構(gòu)表現(xiàn)更好,具體表現(xiàn)如下:

在架構(gòu)方面,在排除了基礎(chǔ)模型能力差異的情況下,Engram-27B依然顯著優(yōu)于MoE-27B。

在復雜的檢索任務(wù)RULER基準測試中,Engram表現(xiàn)出了更強的長程依賴處理能力。例如在多查詢Multi-Query NIAH任務(wù)中,Engram準確率大幅領(lǐng)先。

DeepSeek-V4核心公開?梁文鋒署名新論文發(fā)布,實習生挑大梁

▲長上下文性能比較基準測試

計算效率方面,即使只用了82%的預訓練計算量,Engram-27B的表現(xiàn)依然能與完全訓練的MoE-27B基線模型持平,甚至在RULER基準上實現(xiàn)超越。

這證明了Engram架構(gòu)具有極高的訓練效率,能用更少的計算資源達到同等或更好的長上下文性能。

五、Engram淺層效果更好,對事實性知識影響較大

而后,DeepSeek團隊對Engram模型進行了深入的機制分析和消融實驗。核心目的是回答“Engram到底是如何工作的?它的各個組件有什么用?”這兩個問題。

首先是模型深度與表征分析,DeepSeek團隊通過LogitLens分析顯示,Engram模型在早期層就能更快地收斂到最終預測結(jié)果,因為它通過查表直接獲取了靜態(tài)知識,不需要像傳統(tǒng)模型那樣通過多層計算來重組基礎(chǔ)特征。

DeepSeek-V4核心公開?梁文鋒署名新論文發(fā)布,實習生挑大梁

▲表征對齊和收斂速度分析

中心核對齊分析發(fā)現(xiàn),Engram的淺層在表征上與純MoE模型的深層高度相似。這意味著Engram讓模型在更少的層數(shù)內(nèi)完成了同等復雜的特征提取,在功能上等同于增加了模型的有效深度

在架構(gòu)消融實驗中,研究人員發(fā)現(xiàn)將Engram模塊放在較淺的層,如第2層,效果最好。這樣可以盡早卸載模型背負的局部模式重建任務(wù),讓后面的深層網(wǎng)絡(luò)專注于復雜的全局推理。

DeepSeek-V4核心公開?梁文鋒署名新論文發(fā)布,實習生挑大梁

▲結(jié)構(gòu)消融實驗結(jié)果

研究人員還發(fā)現(xiàn),分支特定融合、上下文感知門控和分詞器壓縮對性能影響最大,去掉任何一個都會導致驗證損失顯著上升,而次要組件輕量級卷積層的影響則較小。

如果把Engram“關(guān)掉”,模型在哪些任務(wù)上會崩潰?為回答這個問題,DeepSeek團隊進行了功能敏感性分析。他們測試在推理時強制屏蔽Engram模塊的輸出,觀察性能下降情況。

結(jié)果顯示,在事實性知識方面,模型性能災難性下降,僅保留約29-44%的性能。這證明Engram是模型存儲參數(shù)化知識的主要倉庫。

?但在閱讀理解方面,模型性能幾乎不受影響,保留約81-93%。這證明涉及上下文推理的任務(wù)主要由Transformer的骨干網(wǎng)絡(luò)處理,而非記憶模塊。

DeepSeek-V4核心公開?梁文鋒署名新論文發(fā)布,實習生挑大梁

▲功能敏感性分析結(jié)果

在系統(tǒng)效率與推理吞吐上,由于Engram的訪問模式是預先可知的,不像MoE需要根據(jù)隱藏狀態(tài)動態(tài)路由,系統(tǒng)可以提前從內(nèi)存中預取數(shù)據(jù)。

即使將一個1000億參數(shù)的Engram表卸載到主機內(nèi)存,其在H800硬件上的推理吞吐量下降也不到3%,這證明了Engram能以極低的代價實現(xiàn)參數(shù)量的大幅擴展。

此外,Engram的門控機制會在遇到靜態(tài)模式時被激活,即變紅。具體表現(xiàn)為當模型遇到多詞實體、固定短語或中文成語以及歷史名詞時,Engram會被激活進行檢索;而在處理需要動態(tài)推理的文本時,其門控則保持關(guān)閉。

DeepSeek-V4核心公開?梁文鋒署名新論文發(fā)布,實習生挑大梁

▲門控機制激活

六、Engram內(nèi)化記憶,與Attention機制互補

最后,DeepSeek團隊將Engram與MoE、外部記憶與檢索增強、長上下文建模以及表征學習與知識蒸餾進行了對比。

傳統(tǒng)MoE是Engram的“前輩”,它通過稀疏激活來擴展模型容量。Engram解決了傳統(tǒng)MoE在超大規(guī)模下路由成本高、訓練不穩(wěn)定的問題,提供了一種更高效的擴展路徑。

對比外部記憶與檢索增強(RAG)這類工作通常是在模型外部掛一個數(shù)據(jù)庫,在推理時實時檢索。而Engram是內(nèi)化的記憶,它在預訓練階段就把海量知識消化并固化到了參數(shù)化的記憶表中,這使得它比傳統(tǒng)RAG具有更低的延遲和更強的知識一致性。

長上下文建模這一領(lǐng)域的研究則主要關(guān)注如何讓模型的注意力機制處理更長的序列。DeepSeek團隊強調(diào),Engram并不是要取代注意力機制,而是與之互補。Engram負責處理局部的、靜態(tài)的上下文依賴,從而讓注意力機制能更專注于處理全局的、動態(tài)的長程依賴。

對于表征學習與知識蒸餾來說,Engram提供了一種新的視角——將模型的知識解耦為通用推理能力和特定知識庫。

這種解耦結(jié)構(gòu)天然適合進行知識蒸餾,因為未來的研究團隊可以選擇只蒸餾輕量級的骨干網(wǎng),而將龐大的知識庫作為可插拔的附件。

結(jié)語:Engram將實現(xiàn)低成本超大規(guī)模擴展,逼近AGI

Engram架構(gòu)的核心思想就是通過解耦來實現(xiàn)效率與性能的平衡。

它成功地將“局部模式重建”從復雜的Transformer骨干網(wǎng)中剝離出來,交由專門的記憶模塊處理。這種設(shè)計使得模型在保持強大推理能力的同時,能夠以極低的成本擴展到超大規(guī)模。

DeepSeek團隊認為,Engram不僅僅是一個學術(shù)上的新模型,它具有很強的工程落地價值。

由于記憶模塊的訪問具有確定性,Engram可以進行高效的預取和硬件優(yōu)化,非常適合大規(guī)模部署。

而且,既然知識集中在Engram表中,未來或許可以通過直接修改這個表來修正模型的知識錯誤,而無需進行昂貴的微調(diào)。

但目前的Engram是在預訓練時“固化”的。未來的一個重要方向是讓這個記憶模塊具備在線學習或動態(tài)更新的能力,讓模型能實時獲取新知識。

例如,未來的研究可以將Engram擴展到多模態(tài)領(lǐng)域,建立一個通用的多模態(tài)記憶庫。研究人員還可以繼續(xù)探索是否能將模型解耦為更多專用模塊,以進一步逼近AGI(通用人工智能)的效率。