智東西(公眾號:zhidxcom)
編譯 |? 香草
編輯 |??李水青

智東西8月24日消息,8月23日,IBM研究中心發(fā)布了一款新型模擬AI芯片,在語音識別和轉(zhuǎn)錄等自然語言處理AI任務(wù)上,其能源效率較傳統(tǒng)芯片提升約14倍,相關(guān)論文已刊發(fā)于國際頂刊Nature。

據(jù)介紹,這款芯片的設(shè)計(jì)靈感來源于人腦,可以在14nm芯片上集成3500萬PCM(相變存儲器)。IBM研發(fā)團(tuán)隊(duì)在此芯片上進(jìn)行了語音識別和轉(zhuǎn)錄實(shí)驗(yàn),在保障準(zhǔn)確率的前提下,速度和能效均有很大提升。

一、利用PCM存儲數(shù)據(jù),模擬芯片解決AI技術(shù)高能耗問題

AI相關(guān)技術(shù)在飛速發(fā)展的同時,也面臨著能源消耗的問題。為了提升能源效率,IBM來自世界各地實(shí)驗(yàn)室的研究人員共同研發(fā)了這款模擬AI芯片。據(jù)稱,在兩個AI推理實(shí)驗(yàn)中,該芯片都像同類數(shù)字芯片一樣可靠地執(zhí)行任務(wù),但其完成任務(wù)的速度更快,能耗更低。

IBM稱,其研究人員一直都在深耕模擬AI芯片領(lǐng)域。2021年,其團(tuán)隊(duì)就發(fā)布了一款名為Fusion的模擬芯片,利用PCM設(shè)備的存儲能力和物理屬性,更高效地實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)。

傳統(tǒng)計(jì)算機(jī)基于馮·諾依曼結(jié)構(gòu)——一種將程序指令存儲器和數(shù)據(jù)存儲器合并在一起的電腦設(shè)計(jì)概念結(jié)構(gòu),每次計(jì)算都將數(shù)據(jù)從DRAM(動態(tài)隨機(jī)存取存儲器 )內(nèi)存?zhèn)鬏數(shù)紺PU,導(dǎo)致工作速度受到實(shí)際限制,永遠(yuǎn)無法實(shí)現(xiàn)CPU的真正計(jì)算能力,這被稱為“馮·諾依曼瓶頸”。

IBM模擬AI芯片登Nature:能效提升14倍,語音識別速度提升7倍

▲當(dāng)每次計(jì)算將數(shù)據(jù)從DRAM內(nèi)存?zhèn)鬏數(shù)紺PU時,傳統(tǒng)計(jì)算機(jī)就會出現(xiàn)瓶頸(圖源:IBM官網(wǎng))

利用PCM設(shè)備的物理特性,模擬芯片可以克服馮·諾依曼瓶頸,在存儲數(shù)據(jù)的同一位置執(zhí)行計(jì)算。由于沒有數(shù)據(jù)移動,它可以在很短的時間內(nèi)執(zhí)行任務(wù),并且消耗的能源更少。

IBM模擬AI芯片登Nature:能效提升14倍,語音識別速度提升7倍

▲模擬芯片通過在存儲數(shù)據(jù)的地方執(zhí)行計(jì)算來克服瓶頸(圖源:IBM官網(wǎng))

例如,將64位數(shù)據(jù)從DRAM移動到CPU會消耗1-2nJ(納焦)能量,而在PCM設(shè)備上執(zhí)行只需消耗1-100fJ(飛焦),是前者的1萬至200萬分之一。當(dāng)擴(kuò)展到數(shù)十億次操作時,所節(jié)省的能源是巨大的。此外,當(dāng)設(shè)備不活動時,PCM不會消耗電力,即使斷電,數(shù)據(jù)也將保留10年。

二、采用全新設(shè)計(jì)方式,14nm芯片可編碼3500萬個PCM

雖然IBM早在兩年前便已研發(fā)出了模擬芯片,并嘗試將其用于提升AI計(jì)算性能,但Fusion芯片一次只能訪問一個PCM設(shè)備,對速度和能效的提升并不顯著。

IBM本次發(fā)布的這款芯片采用了新的設(shè)計(jì)方式,利用34個大型PCM陣列,結(jié)合了數(shù)模轉(zhuǎn)換輸入、模擬外圍電路、模數(shù)轉(zhuǎn)換輸出和大規(guī)模并行二維網(wǎng)格路由。每個14nm芯片上可編碼3500萬個PCM,在每權(quán)重對應(yīng)2-PCMs的方案中,可容納1700萬個參數(shù)。將這些芯片組合在一起,便能夠像數(shù)字芯片一樣有效地處理真實(shí)AI用例的實(shí)驗(yàn)。

IBM模擬AI芯片登Nature:能效提升14倍,語音識別速度提升7倍

▲IBM模擬AI芯片的顯微照片(圖源:論文插圖)

上圖中,圖a顯示了芯片的顯微照片,突出顯示了34個PCM陣列模塊的2D網(wǎng)格,每個模塊都有自己的512×2048 PCM交叉陣列。PCM器件集成在14nm前端電路上方的后端布線中(圖b),可通過電脈沖調(diào)整窄底電極上晶體相(高導(dǎo)電性)和非晶相(高電阻性)材料的相對體積來編碼模擬電導(dǎo)狀態(tài)。對PCM器件進(jìn)行編程時采用并行編程方案(圖c),這樣同一行中的所有512個權(quán)值都會同時更新。

該研發(fā)團(tuán)隊(duì)采用的方法是優(yōu)化主導(dǎo)深度學(xué)習(xí)計(jì)算的MAC(乘積累加運(yùn)算)。通過讀取電阻式NVM(非易失性存儲器)設(shè)備陣列的行,然后沿列收集電流,團(tuán)隊(duì)證明可以在存儲器內(nèi)執(zhí)行MAC,無需在芯片的存儲器和計(jì)算區(qū)域之間或跨芯片移動權(quán)重。

三、精確度不減,語音識別速度提升7倍、大模型運(yùn)行能效提升14倍

為了驗(yàn)證芯片的有效性,該團(tuán)隊(duì)設(shè)計(jì)了兩個實(shí)驗(yàn)對其進(jìn)行測試。他們從MLPerf中選擇了兩個神經(jīng)網(wǎng)絡(luò)模型,分別是語音喚醒和語音轉(zhuǎn)文本模型。MLPerf是由斯坦福、哈佛等頂尖學(xué)術(shù)機(jī)構(gòu)發(fā)起成立的,權(quán)威性最大、影響力最廣的國際AI性能基準(zhǔn)測試。

第一個實(shí)驗(yàn)圍繞關(guān)鍵詞語音檢測展開。該團(tuán)隊(duì)提出了一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),并在包含12個關(guān)鍵字的谷歌語音命令數(shù)據(jù)集上進(jìn)行訓(xùn)練。團(tuán)隊(duì)采用了架構(gòu)更簡單的FC(全連接)網(wǎng)絡(luò)結(jié)構(gòu),最終達(dá)到了86.14%的識別精度,且提交速度比MLPerf目前最佳情況快7倍。該模型使用硬件感知訓(xùn)練在GPU上進(jìn)行訓(xùn)練,然后部署在團(tuán)隊(duì)的模擬AI芯片上。

IBM模擬AI芯片登Nature:能效提升14倍,語音識別速度提升7倍

▲端到端語音喚醒任務(wù)相關(guān)圖表(圖源:論文插圖)

第二個實(shí)驗(yàn)圍繞語音轉(zhuǎn)文本展開,規(guī)模更大。團(tuán)隊(duì)使用5個模擬AI芯片組合在一起,運(yùn)行RNN-T(循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換器)模型,以逐個字母地轉(zhuǎn)錄語音內(nèi)容。該系統(tǒng)包含5個芯片上1.4億個PCM設(shè)備的4500萬個權(quán)重,能夠采集人們說話的音頻并以非常接近數(shù)字硬件設(shè)置的精度進(jìn)行轉(zhuǎn)錄。該實(shí)驗(yàn)最終達(dá)到9.258%的單詞錯誤率,能量效率達(dá)6.704TOPS/W(萬億次操作每秒/瓦),比MLPerf目前最佳能效提高了14倍。

IBM模擬AI芯片登Nature:能效提升14倍,語音識別速度提升7倍

▲模擬AI芯片在RNN-T模型上表現(xiàn)出的性能相關(guān)圖表(圖源:論文插圖)

與第一個實(shí)驗(yàn)不同,這個實(shí)驗(yàn)并不完全是端到端的,這意味著它確實(shí)需要一些片外數(shù)字計(jì)算。IBM稱,這里涉及的額外計(jì)算很少,如果在芯片上實(shí)現(xiàn),最終的能效仍然高于當(dāng)今市場上的產(chǎn)品。

結(jié)語:模擬AI芯片能否成為下一個趨勢

繼2021年推出第一款模擬芯片F(xiàn)usion后,IBM于近日發(fā)布了專攻AI的模擬芯片,速度、能效均比傳統(tǒng)數(shù)字芯片大幅提升,準(zhǔn)確率也保持高水準(zhǔn)。

傳統(tǒng)芯片受制于“馮·諾依曼瓶頸”,而模擬芯片可以打破這一桎梏,為AI技術(shù)帶來新的生命力。未來,模擬芯片市場能否得到進(jìn)一步發(fā)展,我們會持續(xù)關(guān)注。

來源:Nature、IBM官網(wǎng)