免费a级毛片av无码中文字幕,999久久久91一区二区

智東西（公眾號：zhidxcom）
作者 | 駿達王涵
編輯 | 心緣

智東西1月13日報道，昨晚，DeepSeek又開源了，還發(fā)布一篇新論文。這次，他們提出了一種全新的“條件記憶”機制——Engram，旨在讓MoE模型在保持巨量參數(shù)的同時，更高效地處理語言信息。

DeepSeek創(chuàng)始人兼CEO梁文鋒、北大王選計算機研究所的趙東巖和張輝帥教授都在論文中署名。

DeepSeek-V4核心公開？梁文鋒署名新論文發(fā)布，實習生挑大梁

Engram架構(gòu)的核心優(yōu)勢在于以更低成本實現(xiàn)更優(yōu)性能。訓練計算量較MoE減少18%的情況下，在32768個token的長上下文任務(wù)中，Engram在RULER基準測試中反超同參數(shù)量MoE模型。

并且，其淺層部署的記憶模塊接管局部依賴與靜態(tài)知識存儲，為注意力機制騰出容量以專注全局推理，1000億參數(shù)記憶表卸載后使H800推理吞吐量降幅不足3%。

DeepSeek還觀察到，增加記憶槽位數(shù)量能持續(xù)、穩(wěn)定地降低驗證損失，這意味著Engram提供了一個可預測的Scaling新手段：增大記憶容量持續(xù)帶來收益，而無需增加計算量。

那這種效果究竟是如何實現(xiàn)的呢？如今的MoE模型雖然在計算層面做到了稀疏化，但是它處理信息的方式仍然很費勁：有些老生常談的事實性內(nèi)容，比如常見的名字、公式或固定表達，模型卻要重復計算，非常耗時間。

DeepSeek的做法是，把這些“固定知識”提前整理成一個可以快速查詢的表格，這樣就能把更多精力放在真正需要深度思考的任務(wù)上，比如復雜推理或者理解長段文本。

值得一提的是，論文的第一作者Xin Cheng（程信）目前在北京大學智能學院攻讀博士學位，主要研究大模型的高效參數(shù)化方法和機制。他同時也在DeepSeek工作，R1、V3的研究都參與了，很有可能是實習生。

DeepSeek-V4核心公開？梁文鋒署名新論文發(fā)布，實習生挑大梁

在論文摘要中，DeepSeek提出，條件記憶（conditional memory）將成為下一代稀疏模型中不可或缺的建模原語。這或許意味著DeepSeek-V4有望整合條件記憶機制，實現(xiàn)知識高效檢索與推理能力的飛躍。

論文鏈接：

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

項目鏈接：

https://github.com/deepseek-ai/Engram

一、Transformer缺乏知識檢索機制，經(jīng)典??-gram架構(gòu)提供啟發(fā)

在正式介紹新型記憶機制前，DeepSeek團隊首先提出了一項重要的觀察。

稀疏性已經(jīng)成為了智能系統(tǒng)的核心設(shè)計原則，在大模型領(lǐng)域，其具體實現(xiàn)就是MoE（混合專家模型）。但是，現(xiàn)有的標準Transformer本質(zhì)上沒有真正的知識檢索機制，導致現(xiàn)有大模型不得不在早期層中通過昂貴計算來“重建”靜態(tài)知識，浪費了寶貴的模型深度。

因此，DeepSeek認為有必須要提出第二個與條件計算互補的稀疏維度：條件記憶。條件記憶則依賴稀疏的查找操作，為固定知識檢索靜態(tài)嵌入表示，適合命名實體、固定表達等靜態(tài)且高度模式化的語言表示。

DeepSeek他們向經(jīng)典的??-gram結(jié)構(gòu)引入了現(xiàn)代化的條件記憶模塊，包括分詞器壓縮、多頭哈希、上下文化門控以及多分支集成等，最終提出了Engram。

下圖是Engram的基本架構(gòu)，通俗地說，Engram就是給Transformer加個外接記憶庫，并把當前token附近的一小段內(nèi)容，用快速、省參數(shù)的方式，去一個超大的靜態(tài)記憶表里查到對應(yīng)內(nèi)容。

DeepSeek-V4核心公開？梁文鋒署名新論文發(fā)布，實習生挑大梁

二、多管齊下打造新型記憶機制，天然支持參數(shù)存儲與計算資源解耦

這個記憶庫該如何具體實現(xiàn)呢？

首先，DeepSeek團隊對分詞器（tokenizer）進行了壓縮。普通的分詞器會把Apple、apple、APPLE這些單詞當成完全不同的東西，但是對人來說其實差別不大。

Engram先把詞表清洗了一遍，全部轉(zhuǎn)小寫，Unicode規(guī)范化（NFKC）。最后，一個原本128k的詞表，實際只剩下77%，有23%的token ID被合并了。這讓 $N$ -gram記憶的密度明顯提升了。

不過，直接對所有??-gram進行建模是不可行的，參數(shù)會指數(shù)級增長。DeepSeek團隊引入了多頭哈希記憶（Multi-Head Hashing），在固定參數(shù)預算下近似大規(guī)模??-gram表，降低哈希碰撞引入的語義噪聲。

上述檢索機制提供的記憶是靜態(tài)的，缺乏上下文適應(yīng)性，易受歧義與沖突的影響，這一問題可通過上下文感知門控（Context-aware Gating）來解決。為進一步擴大感受野并增強非線性建模能力，模型還引入了一個深度可分離因果卷積。

DeepSeek團隊采用多分支架構(gòu)作為默認主干網(wǎng)絡(luò)，而非標準的單流殘差連接（這是何愷明此前的研究成果）。多分支架構(gòu)把殘差流擴展為M個并行分支，但共享記憶表和輸出映射。這樣設(shè)計的好處是，它可以一次性用矩陣乘法搞定多條分支的計算，GPU用得非常高效。

Engram的核心優(yōu)勢在于記憶檢索完全依賴輸入token，而非運行時的隱藏狀態(tài)。這種確定性機制實現(xiàn)了參數(shù)存儲與計算資源的解耦，支持訓練和推理階段采取專門的優(yōu)化策略：

DeepSeek-V4核心公開？梁文鋒署名新論文發(fā)布，實習生挑大梁

▲Engram訓練和推理階段可采用不同優(yōu)化策略

訓練優(yōu)化：通過將超大嵌入表分片至多張GPU，利用All-to-All通信按需收集對應(yīng)行，使總記憶容量隨GPU數(shù)量線性擴展。

推理優(yōu)化：由于可提前確定待查詢記憶，系統(tǒng)可從主機內(nèi)存異步預取，同時在前幾層計算期間隱藏通信延遲，實現(xiàn)預取與計算的重疊，避免GPU停頓。

硬件-算法協(xié)同設(shè)計：Engram在模型中的放置位置需平衡建模性能與系統(tǒng)延遲。較早引入有助于局部模式重建，較深放置則延長延遲隱藏窗口，需兼顧二者優(yōu)化。

層次化存儲：基于自然語言??-gram的Zipf分布特性，可采用多級緩存策略，高頻嵌入存放于GPU HBM或主機DRAM，低頻嵌入置于SSD。這使Engram能擴展至超大規(guī)模記憶，同時保持低延遲與高效率。

三、兩個模塊資源二八分成，互補性獲驗證

接下來，DeepSeek團隊研究了另一個關(guān)鍵問題——條件計算和條件記憶這兩種稀疏模式該怎么配合，才能發(fā)揮最佳效果？

實驗發(fā)現(xiàn)，在有限資源下，把所有空閑參數(shù)都給MoE（也就是純MoE模型）不是最優(yōu)解，最好的效果是大約75%-80%給MoE，其余20%-25%給Engram。

如果完全由MoE主導，模型缺乏靜態(tài)模式的專用記憶，只能靠計算反復重建，效率低。而如果完全由Engram主導，模型失去了動態(tài)計算能力，無法應(yīng)對需要上下文理解的任務(wù)。

這條U型曲線，驗證了兩個模塊的結(jié)構(gòu)互補性：

DeepSeek-V4核心公開？梁文鋒署名新論文發(fā)布，實習生挑大梁

前面這一實驗探索的是在固定參數(shù)參數(shù)預算下的分配優(yōu)化，那么如果把記憶大幅度擴展，會發(fā)生什么？

實驗發(fā)現(xiàn)，在MoE主干網(wǎng)絡(luò)不變的情況下，附加Engram表。結(jié)果顯示，增加記憶槽位數(shù)量能持續(xù)、穩(wěn)定地降低驗證損失。

在探索范圍內(nèi)，曲線嚴格遵循冪律（對數(shù)空間線性）。DeepSeek認為，這意味著Engram提供了一個可預測的Scaling新手段：增大記憶持續(xù)帶來收益，而無需增加計算量。

DeepSeek-V4核心公開？梁文鋒署名新論文發(fā)布，實習生挑大梁

同時，相比別的只做簡單平均的記憶方法（比如OverEncoding），Engram的Scaling潛力更大，性能提升更明顯。

這些結(jié)果驗證了條件記憶作為稀疏容量的獨立可擴展維度，與MoE的條件計算形成互補。

四、架構(gòu)訓練計算量少18%，性能反超MoE

驗證了架構(gòu)、技術(shù)路徑的可行性，DeepSeek團隊的下一步就是進行大規(guī)模的Scale，驗證這種方式在實際語言模型預訓練中的有效性。

具體而言，DeepSeek訓練了四個模型：Dense-4B、MoE-27B、Engram-27B、Engram-40B。訓練時的語料庫、分詞器都使用了相同的設(shè)置，而后兩個模型引入了Engram機制，用于研究在模型大小不變和Engram進一步擴展后的特性。

結(jié)果顯示，在相同算力和參數(shù)量的情況下，Engram-27B能在MoE-27B的基線上去取得持續(xù)提升，并且這些增益并不僅限于知識密集型任務(wù)。通用推理任務(wù)、代碼與數(shù)學推理任務(wù)從中得到的提升甚至更為顯著，

DeepSeek-V4核心公開？梁文鋒署名新論文發(fā)布，實習生挑大梁

這些結(jié)果支持了DeepSeek的假設(shè)：引入專門的知識查找原語（knowledge lookup primitive）能夠提升表示效率，這超出了僅將整個稀疏預算用于條件計算所能達到的效果。

最后，將模型擴展到Engram-40B進一步降低了預訓練損失，并在大多數(shù)基準上提升了性能。雖然它尚未在每個任務(wù)上嚴格優(yōu)于Engram-27B，但這很可能是訓練不足的結(jié)果。

DeepSeek團隊觀察到，在訓練結(jié)束時，Engram-40B與基線模型之間的訓練損失差距仍在擴大，這表明在當前的token預算下，擴展的記憶容量尚未完全發(fā)揮其潛力。

接著，DeepSeek團隊用MoE-27B與Engram-27B作為對照組，均使用了5000步（約300億token）的高質(zhì)量長上下文數(shù)據(jù)進行微調(diào)，然后他們采用DeepSeek-V3中的YaRN技術(shù)，將模型的上下文窗口擴展到32768個token。

實驗結(jié)果顯示，由于Engram模塊接管了局部依賴的建模，它為模型的注意力機制騰出了容量，使其能更專注于處理全局上下文。因此，Engram架構(gòu)在處理超長文本和長程推理任務(wù)上比傳統(tǒng)架構(gòu)表現(xiàn)更好，具體表現(xiàn)如下：

在架構(gòu)方面，在排除了基礎(chǔ)模型能力差異的情況下，Engram-27B依然顯著優(yōu)于MoE-27B。

在復雜的檢索任務(wù)RULER基準測試中，Engram表現(xiàn)出了更強的長程依賴處理能力。例如在多查詢Multi-Query NIAH任務(wù)中，Engram準確率大幅領(lǐng)先。

DeepSeek-V4核心公開？梁文鋒署名新論文發(fā)布，實習生挑大梁

▲長上下文性能比較基準測試

計算效率方面，即使只用了82%的預訓練計算量，Engram-27B的表現(xiàn)依然能與完全訓練的MoE-27B基線模型持平，甚至在RULER基準上實現(xiàn)超越。

這證明了Engram架構(gòu)具有極高的訓練效率，能用更少的計算資源達到同等或更好的長上下文性能。

五、Engram淺層效果更好，對事實性知識影響較大

而后，DeepSeek團隊對Engram模型進行了深入的機制分析和消融實驗。核心目的是回答“Engram到底是如何工作的？它的各個組件有什么用？”這兩個問題。

首先是模型深度與表征分析，DeepSeek團隊通過LogitLens分析顯示，Engram模型在早期層就能更快地收斂到最終預測結(jié)果，因為它通過查表直接獲取了靜態(tài)知識，不需要像傳統(tǒng)模型那樣通過多層計算來重組基礎(chǔ)特征。

DeepSeek-V4核心公開？梁文鋒署名新論文發(fā)布，實習生挑大梁

▲表征對齊和收斂速度分析

中心核對齊分析發(fā)現(xiàn)，Engram的淺層在表征上與純MoE模型的深層高度相似。這意味著Engram讓模型在更少的層數(shù)內(nèi)完成了同等復雜的特征提取，在功能上等同于增加了模型的有效深度。

在架構(gòu)消融實驗中，研究人員發(fā)現(xiàn)將Engram模塊放在較淺的層，如第2層，效果最好。這樣可以盡早卸載模型背負的局部模式重建任務(wù)，讓后面的深層網(wǎng)絡(luò)專注于復雜的全局推理。

DeepSeek-V4核心公開？梁文鋒署名新論文發(fā)布，實習生挑大梁

▲結(jié)構(gòu)消融實驗結(jié)果

研究人員還發(fā)現(xiàn)，分支特定融合、上下文感知門控和分詞器壓縮對性能影響最大，去掉任何一個都會導致驗證損失顯著上升，而次要組件輕量級卷積層的影響則較小。

如果把Engram“關(guān)掉”，模型在哪些任務(wù)上會崩潰？為回答這個問題，DeepSeek團隊進行了功能敏感性分析。他們測試在推理時強制屏蔽Engram模塊的輸出，觀察性能下降情況。

結(jié)果顯示，在事實性知識方面，模型性能災難性下降，僅保留約29-44%的性能。這證明Engram是模型存儲參數(shù)化知識的主要倉庫。

?但在閱讀理解方面，模型性能幾乎不受影響，保留約81-93%。這證明涉及上下文推理的任務(wù)主要由Transformer的骨干網(wǎng)絡(luò)處理，而非記憶模塊。

DeepSeek-V4核心公開？梁文鋒署名新論文發(fā)布，實習生挑大梁

▲功能敏感性分析結(jié)果

在系統(tǒng)效率與推理吞吐上，由于Engram的訪問模式是預先可知的，不像MoE需要根據(jù)隱藏狀態(tài)動態(tài)路由，系統(tǒng)可以提前從內(nèi)存中預取數(shù)據(jù)。

即使將一個1000億參數(shù)的Engram表卸載到主機內(nèi)存，其在H800硬件上的推理吞吐量下降也不到3%，這證明了Engram能以極低的代價實現(xiàn)參數(shù)量的大幅擴展。

此外，Engram的門控機制會在遇到靜態(tài)模式時被激活，即變紅。具體表現(xiàn)為當模型遇到多詞實體、固定短語或中文成語以及歷史名詞時，Engram會被激活進行檢索；而在處理需要動態(tài)推理的文本時，其門控則保持關(guān)閉。

DeepSeek-V4核心公開？梁文鋒署名新論文發(fā)布，實習生挑大梁

▲門控機制激活

六、Engram內(nèi)化記憶，與Attention機制互補

最后，DeepSeek團隊將Engram與MoE、外部記憶與檢索增強、長上下文建模以及表征學習與知識蒸餾進行了對比。

傳統(tǒng)MoE是Engram的“前輩”，它通過稀疏激活來擴展模型容量。Engram解決了傳統(tǒng)MoE在超大規(guī)模下路由成本高、訓練不穩(wěn)定的問題，提供了一種更高效的擴展路徑。

對比外部記憶與檢索增強（RAG）這類工作通常是在模型外部掛一個數(shù)據(jù)庫，在推理時實時檢索。而Engram是內(nèi)化的記憶，它在預訓練階段就把海量知識消化并固化到了參數(shù)化的記憶表中，這使得它比傳統(tǒng)RAG具有更低的延遲和更強的知識一致性。

長上下文建模這一領(lǐng)域的研究則主要關(guān)注如何讓模型的注意力機制處理更長的序列。DeepSeek團隊強調(diào)，Engram并不是要取代注意力機制，而是與之互補。Engram負責處理局部的、靜態(tài)的上下文依賴，從而讓注意力機制能更專注于處理全局的、動態(tài)的長程依賴。

對于表征學習與知識蒸餾來說，Engram提供了一種新的視角——將模型的知識解耦為通用推理能力和特定知識庫。

這種解耦結(jié)構(gòu)天然適合進行知識蒸餾，因為未來的研究團隊可以選擇只蒸餾輕量級的骨干網(wǎng)，而將龐大的知識庫作為可插拔的附件。

結(jié)語：Engram將實現(xiàn)低成本超大規(guī)模擴展，逼近AGI

Engram架構(gòu)的核心思想就是通過解耦來實現(xiàn)效率與性能的平衡。

它成功地將“局部模式重建”從復雜的Transformer骨干網(wǎng)中剝離出來，交由專門的記憶模塊處理。這種設(shè)計使得模型在保持強大推理能力的同時，能夠以極低的成本擴展到超大規(guī)模。

DeepSeek團隊認為，Engram不僅僅是一個學術(shù)上的新模型，它具有很強的工程落地價值。

由于記憶模塊的訪問具有確定性，Engram可以進行高效的預取和硬件優(yōu)化，非常適合大規(guī)模部署。

而且，既然知識集中在Engram表中，未來或許可以通過直接修改這個表來修正模型的知識錯誤，而無需進行昂貴的微調(diào)。

但目前的Engram是在預訓練時“固化”的。未來的一個重要方向是讓這個記憶模塊具備在線學習或動態(tài)更新的能力，讓模型能實時獲取新知識。

例如，未來的研究可以將Engram擴展到多模態(tài)領(lǐng)域，建立一個通用的多模態(tài)記憶庫。研究人員還可以繼續(xù)探索是否能將模型解耦為更多專用模塊，以進一步逼近AGI（通用人工智能）的效率。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、Transformer缺乏知識檢索機制，經(jīng)典??-gram架構(gòu)提供啟發(fā)

二、多管齊下打造新型記憶機制，天然支持參數(shù)存儲與計算資源解耦

三、兩個模塊資源二八分成，互補性獲驗證

四、架構(gòu)訓練計算量少18%，性能反超MoE

五、Engram淺層效果更好，對事實性知識影響較大

六、Engram內(nèi)化記憶，與Attention機制互補

結(jié)語：Engram將實現(xiàn)低成本超大規(guī)模擴展，逼近AGI

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、Transformer缺乏知識檢索機制，經(jīng)典??-gram架構(gòu)提供啟發(fā)

二、多管齊下打造新型記憶機制，天然支持參數(shù)存儲與計算資源解耦

三、兩個模塊資源二八分成，互補性獲驗證

四、架構(gòu)訓練計算量少18%，性能反超MoE

五、Engram淺層效果更好，對事實性知識影響較大

六、Engram內(nèi)化記憶，與Attention機制互補

結(jié)語：Engram將實現(xiàn)低成本超大規(guī)模擴展，逼近AGI

相關(guān)推薦

一、Transformer缺乏知識檢索機制，經(jīng)典??-gram架構(gòu)提供啟發(fā)

二、多管齊下打造新型記憶機制，天然支持參數(shù)存儲與計算資源解耦

三、兩個模塊資源二八分成，互補性獲驗證

四、架構(gòu)訓練計算量少18%，性能反超MoE

五、Engram淺層效果更好，對事實性知識影響較大

六、Engram內(nèi)化記憶，與Attention機制互補

結(jié)語：Engram將實現(xiàn)低成本超大規(guī)模擴展，逼近AGI