智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影

智東西2月7日報道,昨天,小米MiMo大模型團(tuán)隊宣布推出HySparse,一種面向Agent時代的混合稀疏注意力架構(gòu),使用“極少的全注意力(Full Attention)+ 稀疏注意力(Sparse Attention)”核心設(shè)計。

面向Agent時代!小米MiMo推出HySparse混合稀疏注意力架構(gòu)

隨著Agent模型與應(yīng)用的爆發(fā)式發(fā)展,精準(zhǔn)高效處理超長文本正在成為模型必不可少的基礎(chǔ)能力。Agent不僅需要在超長上下文中完成穩(wěn)定檢索、推理與多輪規(guī)劃,還必須在推理階段保持足夠快的響應(yīng)速度,目前最大的挑戰(zhàn)已經(jīng)不只是“能不能算”,而是“算不算得起”。

為此,小米MiMo提出了HySparse架構(gòu)。在多項通用、數(shù)學(xué)、代碼和中文評測中,HySparse在7B Dense和80B MoE兩種規(guī)模均帶來提升。

其中,在總共49層的80B-A3B MoE模型實驗中,HySparse僅保留5層Full Attention仍能保持或提升模型能力,KV Cache存儲降低至原來的1/11,實現(xiàn)效果與效率的兼顧。

面向Agent時代!小米MiMo推出HySparse混合稀疏注意力架構(gòu)

RULER長文測試表明,HySparse即便將Full Attention層壓到極少,也能穩(wěn)定保持長距離關(guān)鍵信息訪問,展現(xiàn)了其混合稀疏結(jié)構(gòu)的優(yōu)勢。

面向Agent時代!小米MiMo推出HySparse混合稀疏注意力架構(gòu)

HySparse采用hybrid block結(jié)構(gòu):每個hybrid block由1層Full Attention+N層Sparse Attention組成。Hybrid block內(nèi)部的Sparse Attention層并不再獨立做token選擇和維護(hù)全量KV,而是直接復(fù)用前置Full Attention層產(chǎn)生的重要token索引和KV Cache。

這背后的動機(jī)是Full Attention在完成自身計算的同時,已經(jīng)生成了KV Cache,并且計算出了最準(zhǔn)確的 token重要性信息,自然可以供后續(xù)N個Sparse Attention層直接復(fù)用。

HySparse可以視為是在MiMo-V2-Flash的Hybrid SWA結(jié)構(gòu)的基礎(chǔ)上,為SWA增加了全局的、更重要的token信息補(bǔ)充。這一改進(jìn)不僅提升了性能,還沒有增加KV Cache存儲,也沒有顯著增加計算開銷。

面向Agent時代!小米MiMo推出HySparse混合稀疏注意力架構(gòu)

HySparse結(jié)構(gòu)為Agent時代的超長文本處理提供了高效精準(zhǔn)的技術(shù)解決方案,也為大模型高效注意力結(jié)構(gòu)的研究與落地提供了全新參考。

小米MiMo透露,團(tuán)隊計劃在更大規(guī)模模型上進(jìn)一步驗證HySparse的極限和潛力,并持續(xù)探索降低Full Attention層數(shù)量的可能性,讓超長上下文更高效。