芯東西(公眾號(hào):aichip001)
編譯 |? 程茜
編輯 | Panken

芯東西10月17日消息,10月13日,北京大學(xué)AI研究院孫仲研究員團(tuán)隊(duì)及合作者的新研究成果,登上國(guó)際頂級(jí)學(xué)術(shù)期刊Nature子刊Nature Electronics。

該團(tuán)隊(duì)成功研制出基于阻變存儲(chǔ)器的高精度、可擴(kuò)展模擬矩陣計(jì)算芯片,將傳統(tǒng)模擬計(jì)算的精度提升了五個(gè)數(shù)量級(jí),首次將模擬計(jì)算的精度提升至24位定點(diǎn)精度,可與數(shù)字計(jì)算媲美。

論文提到,相關(guān)性能評(píng)估表明,該芯片在求解大規(guī)模多輸入多輸出(MIMO)信號(hào)檢測(cè)等關(guān)鍵科學(xué)問(wèn)題時(shí),在相同的精度下,該模擬計(jì)算方法可以提供比最先進(jìn)的GPU高1000倍的吞吐量和100倍的能效

孫仲認(rèn)為,這項(xiàng)進(jìn)展能在未來(lái)的6G通信領(lǐng)域讓基站實(shí)時(shí)、低能耗處理海量天線信號(hào),提升網(wǎng)絡(luò)容量和能效;在AI領(lǐng)域其有望加速大模型訓(xùn)練中計(jì)算密集的二階優(yōu)化算法從而提升訓(xùn)練效率,此外其低功耗特性也可支持復(fù)雜信號(hào)處理和AI訓(xùn)推一體在終端設(shè)備上的直接運(yùn)行,推動(dòng)邊緣計(jì)算發(fā)展。

這一成果標(biāo)志著我國(guó)突破模擬計(jì)算世紀(jì)難題,在后摩爾時(shí)代計(jì)算范式變革中取得重大突破,為應(yīng)對(duì)AI與6G通信等領(lǐng)域的算力挑戰(zhàn)開(kāi)辟了全新路徑。

論文的題目為《基于阻變存儲(chǔ)器芯片的高精度、可擴(kuò)展模擬矩陣方程求解技術(shù)(Precise and scalable analogue matrix equation solving using resistive random-access memory chips)。該研究由北京大學(xué)AI研究院通用AI芯片研究中心主導(dǎo),并聯(lián)合集成電路學(xué)院研究團(tuán)隊(duì)完成,孫仲課題組在項(xiàng)目攻關(guān)中發(fā)揮了核心作用,是此項(xiàng)成果的主要貢獻(xiàn)者。

算力達(dá)GPU千倍!北大芯片突破登Nature子刊

▲Nature Electronics論文發(fā)布主頁(yè)

論文地址:https://www.nature.com/articles/s41928-025-01477-0

一、讓模擬計(jì)算兼顧高精度、可擴(kuò)展性是世紀(jì)難題

在傳統(tǒng)器件尺寸縮放逼近物理極限、傳統(tǒng)馮·諾依曼架構(gòu)面臨“內(nèi)存墻”瓶頸的雙重背景下,高復(fù)雜度計(jì)算給傳統(tǒng)數(shù)字計(jì)算機(jī)帶來(lái)了嚴(yán)峻挑戰(zhàn)。

模擬計(jì)算具備通過(guò)物理定律直接實(shí)現(xiàn)高并行、低延時(shí)、低功耗的先天優(yōu)勢(shì),但此前傳統(tǒng)模擬計(jì)算因受限于低精度、難擴(kuò)展等缺點(diǎn)使其逐漸被數(shù)字計(jì)算所取代。

當(dāng)下,孫仲認(rèn)為:“如何讓模擬計(jì)算兼具高精度與可擴(kuò)展性,從而在現(xiàn)代計(jì)算任務(wù)中發(fā)揮其先天優(yōu)勢(shì),一直是困擾全球科學(xué)界的‘世紀(jì)難題’。

解決這一難題的可行路徑是基于阻變存儲(chǔ)器陣列的模擬矩陣計(jì)算技術(shù)(AMC),基于“陣列-運(yùn)算放大器”閉環(huán)反饋原理設(shè)計(jì)的矩陣求逆電路,能夠?qū)崿F(xiàn)矩陣求逆的一步式求解。其可以通過(guò)在阻變存儲(chǔ)器陣列和運(yùn)算放大器(OPA)等傳統(tǒng)模擬元件之間建立閉環(huán)反饋,所得電路可以一步解決矩陣反轉(zhuǎn)(INV)。

算力達(dá)GPU千倍!北大芯片突破登Nature子刊

▲模擬矩陣計(jì)算電路求解矩陣方程

但這類電路的低精度特性、電路的硬連接結(jié)構(gòu)仍是挑戰(zhàn)。

此外,在模擬矩陣乘法計(jì)算中,比特切片、模擬補(bǔ)償可用于精確執(zhí)行矩陣向量乘法,但使用此類技術(shù)求解矩陣方程具有挑戰(zhàn)性,矩陣方程求解過(guò)程缺乏有效的分配律與分塊矩陣方法支撐,這使得使得解決模擬INV的精度和可擴(kuò)展性問(wèn)題具有挑戰(zhàn)性。

論文提到,其中一種解決方案是采用模擬-數(shù)字混合設(shè)計(jì)。以前的方法將基于MVM的低精度迭代模擬求解器結(jié)合在迭代細(xì)化算法中,浮點(diǎn)數(shù)字計(jì)算機(jī)用于執(zhí)行高精度MVM(HP-MVM)運(yùn)算,收斂到準(zhǔn)確的結(jié)果。

但這種方案會(huì)削弱模擬計(jì)算在降低復(fù)雜性方面的優(yōu)勢(shì),并且需模擬-數(shù)字轉(zhuǎn)換,導(dǎo)致矩陣方程求解性能只能逐步提高。模擬INV僅限于具有無(wú)源電阻隨機(jī)存取存儲(chǔ)器(RRAM)陣列的小規(guī)模電路,這不利于晶圓代工制造,并且缺乏可靠的多級(jí)存儲(chǔ)器特性。

二、提出高精度、可拓展全模擬矩陣方程求解器,首次將模擬計(jì)算精度提升至24位定點(diǎn)精度

在此基礎(chǔ)上,北京大學(xué)AI研究院孫仲研究員團(tuán)隊(duì)提出了一種基于阻變存儲(chǔ)器陣列的高精度、可拓展的全模擬矩陣方程求解器。

該方案使用一種迭代算法,結(jié)合了模擬低精度矩陣求逆(LP-INV)和模擬高精度矩陣向量乘法(HP-MVM)運(yùn)算,通過(guò)將這些芯片與分塊矩陣算法相結(jié)合,首次將模擬計(jì)算的精度提升至24位定點(diǎn)精度。模擬INV通過(guò)在每次迭代中提供近似正確的結(jié)果來(lái)減少迭代次數(shù),高精度模擬MVM則通過(guò)比特切片實(shí)現(xiàn)。

此外,模擬低精度矩陣求逆和模擬高精度矩陣-向量乘法運(yùn)算兩個(gè)電路的阻變存儲(chǔ)器陣列在40nm CMOS工藝平臺(tái)制造,可實(shí)現(xiàn)3比特電導(dǎo)態(tài)編程。

算力達(dá)GPU千倍!北大芯片突破登Nature子刊

▲高精度全模擬矩陣計(jì)算求解矩陣方程

研究團(tuán)隊(duì)還在硬件中驗(yàn)證了BlockAMC方法,該方法使用塊矩陣求解大規(guī)模矩陣方程,并使用它來(lái)求解中等規(guī)模16×16矩陣方程。

具有模擬矩陣運(yùn)算的HP-INV方案,由LP-INV和HP-MVM作的迭代組成,兩者均由AMC電路實(shí)現(xiàn)。HP-INV方法可以擴(kuò)展到求解實(shí)值和復(fù)值矩陣方程,這些矩陣方程經(jīng)常出現(xiàn)在科學(xué)計(jì)算中的微分方程和無(wú)線通信中的信號(hào)處理等應(yīng)用中。

研究人員評(píng)估了導(dǎo)線電阻對(duì)HP-INV收斂率的潛在影響,與基于RRAM的MVM應(yīng)用相比,在片上構(gòu)建大規(guī)模INV電路更具挑戰(zhàn)。盡管如此,32×32至64×64的陣列已經(jīng)可以在吞吐量和能效方面提供顯著增益,盡管它比典型的基于RRAM的MVM電路小得多。

目前其對(duì)于LP-INV的演示仍然僅限于8×8個(gè)陣列,擴(kuò)展到更大的32×32實(shí)現(xiàn)將需要專用的芯片設(shè)計(jì)和流片驗(yàn)證。

研究團(tuán)隊(duì)認(rèn)為,對(duì)于此類設(shè)計(jì),將中等規(guī)模的LP-INV與HP-MVM集成在單個(gè)芯片上將特別有價(jià)值,并且應(yīng)該成為未來(lái)研究的主要焦點(diǎn)。

三、計(jì)算吞吐量、能效是GPU的千倍、百倍,可應(yīng)用于大規(guī)模輸入輸出

該方案實(shí)現(xiàn)了計(jì)算精度提升,通過(guò)與塊矩陣算法相結(jié)合,研究團(tuán)隊(duì)在實(shí)驗(yàn)上成功實(shí)現(xiàn)了16×16矩陣的24比特定點(diǎn)數(shù)精度求逆,也就是矩陣方程求解經(jīng)過(guò)10次迭代后,相對(duì)誤差可低至10??量級(jí)

算力達(dá)GPU千倍!北大芯片突破登Nature子刊

▲基于塊矩陣方法求解高精度、可拓展矩陣方程的實(shí)驗(yàn)結(jié)果

在計(jì)算性能方面,北京大學(xué)AI研究院公眾號(hào)提到,其測(cè)試結(jié)果表明,在求解32×32矩陣求逆問(wèn)題時(shí),其算力已超越高端GPU的單核性能;當(dāng)問(wèn)題規(guī)模擴(kuò)大至128×128時(shí),計(jì)算吞吐量更達(dá)到頂級(jí)數(shù)字處理器的1000倍以上。

能效比方面,其在相同精度下能效比傳統(tǒng)數(shù)字處理器提升超100倍。

在應(yīng)用驗(yàn)證層面,大規(guī)模多輸入多輸出(MIMO)技術(shù)有望在5G-A和6G時(shí)代大幅提高無(wú)線通信系統(tǒng)的服務(wù)質(zhì)量,但在大規(guī)模MIMO中,基站(BS)的天線數(shù)量遠(yuǎn)大于用戶設(shè)備的天線數(shù)量。

模擬求解器可應(yīng)用于大規(guī)模MIMO系統(tǒng)的檢測(cè)過(guò)程,與采用256-QAM調(diào)制的128×8系統(tǒng)的數(shù)字求解器相比,僅在三個(gè)迭代周期內(nèi)就顯示出相同的誤碼率性能。

算力達(dá)GPU千倍!北大芯片突破登Nature子刊

▲高精度矩陣方程求解在大規(guī)模多輸入多輸出(MIMO)迫零檢測(cè)信號(hào)處理過(guò)程中的應(yīng)用

綜合基準(zhǔn)測(cè)試結(jié)果證實(shí),在保持相當(dāng)計(jì)算精度的前提下,該模擬計(jì)算方法可實(shí)現(xiàn)領(lǐng)先的處理速度和能效。

算力達(dá)GPU千倍!北大芯片突破登Nature子刊

結(jié)語(yǔ):為算力提升探索出一條極具潛力的路徑

這篇論文提出的基于阻變存儲(chǔ)器陣列的高精度、可拓展的全模擬矩陣方程求解器,為應(yīng)對(duì)AI與6G通信等領(lǐng)域的算力挑戰(zhàn)開(kāi)辟了全新路徑。

孫仲認(rèn)為,這項(xiàng)突破的意義遠(yuǎn)不止于一篇頂刊論文,它的應(yīng)用前景廣闊,可賦能多元計(jì)算場(chǎng)景,有望重塑算力格局,“這項(xiàng)工作的最大價(jià)值在于,它用事實(shí)證明,模擬計(jì)算能以極高效率和精度解決現(xiàn)代科學(xué)和工程中的核心計(jì)算問(wèn)題??梢哉f(shuō),我們?yōu)樗懔μ嵘剿鞒鲆粭l極具潛力的路徑,有望打破數(shù)字計(jì)算的長(zhǎng)期壟斷,開(kāi)啟一個(gè)算力無(wú)處不在且綠色高效的新時(shí)代?!?/p>