芯東西(公眾號:aichip001)
編輯 |? GACS 2024

2024全球AI芯片峰會(GACS 2024)于9月6日~7日在北京舉行,大會由智一科技旗下芯片行業(yè)媒體芯東西和硬科技知識分享社區(qū)智猩猩發(fā)起舉辦,在主會場開幕式上,蘋芯科技聯(lián)合創(chuàng)始人兼CEO楊越以《存算的進(jìn)階——從神經(jīng)網(wǎng)絡(luò)到大模型》為題發(fā)表了演講。

蘋芯科技聯(lián)合創(chuàng)始人兼CEO楊越拆解了存算一體技術(shù)的進(jìn)階過程。產(chǎn)業(yè)界主流芯片的出現(xiàn)和成長與當(dāng)下計算需求的特點緊密相關(guān),2015年前后,計算體系結(jié)構(gòu)中的計算瓶頸從處理器端向存儲端遷移,尤其是神經(jīng)網(wǎng)絡(luò)的出現(xiàn),加快了人工智能(AI)芯片計算效率的提升節(jié)奏,存算技術(shù)因此受到關(guān)注。

楊越認(rèn)為,存算一體技術(shù)在大模型時代的新風(fēng)口,是盡量在有數(shù)據(jù)存儲的地方,都加入計算。隨著軟件不斷發(fā)展,基于存算的端側(cè)芯片今年已經(jīng)逐步成熟。未來,在云端解決數(shù)據(jù)帶寬瓶頸,或?qū)⒊蔀榇嫠阈酒乱粋€殺手級應(yīng)用。

蘋芯科技楊越:拆解存算一體技術(shù)進(jìn)階,解讀大模型芯片的四個優(yōu)化方向 | GACS 2024

▲蘋芯科技聯(lián)合創(chuàng)始人兼CEO楊越

以下為楊越演講內(nèi)容的完整整理:

存算一體技術(shù)是解決當(dāng)下算力焦慮和效率焦慮的有效途徑之一。蘋芯科技是以存算一體技術(shù)為抓手的一家芯片設(shè)計初創(chuàng)公司。今天,我們的話題圍繞著AI芯片展開,演講的主題是從AI 1.0時代的神經(jīng)網(wǎng)絡(luò),走向AI 2.0時代的大模型,存算一體技術(shù)如何持續(xù)賦能。

一、存算一體的誕生:數(shù)據(jù)處理瓶頸從計算端,轉(zhuǎn)移到存儲端

我們不難發(fā)現(xiàn),產(chǎn)業(yè)界所有主流芯片的出現(xiàn)與成長,都與當(dāng)下計算需求的特點緊密相關(guān)。

最初,斯坦福實驗室于1969年首先提出了存算技術(shù)這個概念。后來,1992年在多倫多大學(xué),1997年在伯克利實驗室,相繼嘗試以邏輯電路的形式拉近存儲與計算的距離。

但在上個世紀(jì)的計算機(jī)體系的整個架構(gòu)中,計算的瓶頸位于處理器端,因此大家主要提高了CPU的效率。同時,外加摩爾定律當(dāng)時仍然有效,從存算的角度來說它的殺手級應(yīng)用還沒有出現(xiàn)。

2000年前后,大數(shù)據(jù)對于并行計算的需求逐步加大,以英偉達(dá)為代表的GPU芯片逐漸成為主流。英偉達(dá)的市值現(xiàn)在已接近3萬億美元了。GPU這種架構(gòu)對于高級制程升級,以及對于通用性計算支持都是非常好的。

大概到了2015年,隨著神經(jīng)網(wǎng)絡(luò)架構(gòu)的出現(xiàn),存算技術(shù)受到更多關(guān)注。背后的原因主要有兩方面。

一方面,計算體系結(jié)構(gòu)的計算瓶頸開始向存儲端遷移,存儲墻、能效墻的問題逐步浮現(xiàn)。

另一方面,AI本地化要求芯片具有更高的計算效率要求。過往馮·諾伊曼架構(gòu)的數(shù)據(jù)搬運模式并不能滿足AI芯片的計算效率,但神經(jīng)網(wǎng)絡(luò)架構(gòu)突破了這一點,并且用存算技術(shù)可以有效支撐AI推理中大部分的陣列式運算,這也給存算技術(shù)帶來了寬廣的商業(yè)化空間。

我們可以了解下馮·諾伊曼架構(gòu)與存算一體架構(gòu)間的區(qū)別。將一個計算結(jié)構(gòu)分為計算單元和存儲單元兩部分。絕大多數(shù)芯片能耗都浪費在數(shù)據(jù)搬運上,占比超85%。如果我們把這部分節(jié)省掉,一定程度上,計算效率能大幅提升。

在馮·諾伊曼架構(gòu)中,需要計算時,數(shù)據(jù)先從存儲單元里面讀取出來,通過數(shù)據(jù)種線傳到計算單元,運算完成后,結(jié)果會返回到存儲單元。我們發(fā)現(xiàn),計算總線上數(shù)據(jù)搬運得非常頻繁。

相比于馮·諾伊曼架構(gòu),計算體系內(nèi)還有存內(nèi)計算架構(gòu)、近存計算架構(gòu)等。近存計算的方式是不斷縮短存儲和計算單元間的距離,而存內(nèi)計算就是把這個距離縮短到極致。

在存算技術(shù)架構(gòu)中,計算單元和存儲單元放在了一起,計算總線上數(shù)據(jù)搬運頻次降低了,總量也減少了。

不過,當(dāng)計算單元所需要做的事情,簡化為只是給存儲單元發(fā)出開始計算的指令,這個架構(gòu)也相應(yīng)會有一些劣勢。原因是并非所有的計算種類都依靠一些簡單的指令,便能夠在存儲單元中完成。這種架構(gòu)需要犧牲一部分通用性。

我們評價一個架構(gòu)的時候,主要考慮其通用性、專用性、成本這3個指標(biāo)。相比馮·諾伊曼架構(gòu)來說,近存和存內(nèi)計算架構(gòu)不僅專用性更強(qiáng),而且成本更低。

二、存算一體的意義:動用更少的資源,來高效解決更多的計算任務(wù)

大多數(shù)情況下,不同的存算技術(shù)路線指向的是底層對于不同存儲器件的使用,比如說有靜態(tài)SRAM,也有ReRAM。每一種存儲器都有其工藝特點,甚至還有上層成本特點、性能特點等等。

例如,SRAM耐久性比較好,讀寫速度比較快;ReRAM存儲密度高,可以支撐大量模型存儲。然而,從整個計算系統(tǒng)結(jié)構(gòu)來看,很難說有一種RAM通吃市場,歷史上這種事情也從來沒有發(fā)生過。

我們對比了幾個主流的、基于CMOS結(jié)構(gòu)的存儲器,比較的項目主要是讀寫時延、數(shù)據(jù)穩(wěn)定性、功耗等幾個方面。

做推理運算的時候,無論是算法工程師,還是芯片工程師,可能更關(guān)注存儲器的穩(wěn)定性,以及讀寫的速度。

而在訓(xùn)練場景中,大家可能更關(guān)注存儲器的耐久性,以及讀和寫的對稱性。因此,不同的應(yīng)用場景對于底層存儲器的需求和選擇也會有所差別。

與現(xiàn)有的存儲器相比,SRAM產(chǎn)業(yè)化基礎(chǔ)、產(chǎn)品化基礎(chǔ)比較好。過去幾十年,SRAM和DRAM在計算體系結(jié)構(gòu)中從未缺席。

硬件各有所長,市場各取所需,那么存算技術(shù)的意義是什么?

存算技術(shù)突破了馮·諾伊曼架構(gòu)處理器的計算效率天花板,而選擇存算架構(gòu)的處理器能用更小的能耗完成更大的計算任務(wù)。

我們最終交付給客戶的芯片,通常有多種形態(tài)。NPU主要可以提升神經(jīng)網(wǎng)絡(luò)的效率,可能涵蓋矩陣加速、非線性加速等?;贜PU還可以打造端側(cè)SoC,比如MCU+AI、車載SoC等。云端也相繼出現(xiàn)服務(wù)器板卡、加速版卡等。

一般來說,對精度要求比較低的隨機(jī)運算,對精度要求比較高的科學(xué)運算,精度要求介于兩者之間的信號處理、深度學(xué)習(xí)加速等,都可以借助存算技術(shù)為其賦能。

隨著模型規(guī)模不斷突破上限,無論是神經(jīng)網(wǎng)絡(luò)模型、Transformer大模型,還是大家最關(guān)心的生成式模型,其存儲要求越來越高,帶寬越來越大。其中,生成式模型已經(jīng)出現(xiàn)幾百億,甚至更大的參數(shù)量需求。

AIoT領(lǐng)域十分看重智能化升級和功耗能耗,存算技術(shù)的高能效比可以發(fā)揮出較大優(yōu)勢。因此,存算技術(shù)可以為大模型、AI芯片賦能,其落地場景也大多集中在AIoT領(lǐng)域。這也給存算技術(shù)創(chuàng)造了一個進(jìn)軍AI生態(tài)的切入口。

三、蘋芯科技部署SRAM存算一體端側(cè)模型

我們回顧一下產(chǎn)業(yè)界近期的動態(tài)。今年,存算技術(shù)的應(yīng)用,首先實現(xiàn)端側(cè)的產(chǎn)業(yè)化落地。

蘋芯科技正在推進(jìn)SRAM存算一體端側(cè)模型部署。

首先向大家介紹蘋芯科技的一款NPU,它是一個集成在SoC芯片里面的IP,用于執(zhí)行神經(jīng)網(wǎng)絡(luò)的加速任務(wù)。

如果您的產(chǎn)品里面有簡單的語言控制類、圖像識別類的任務(wù),這款NPU能幫你大幅節(jié)省整個芯片集成的時間,從而讓你的產(chǎn)品可以比競爭對手更早推出市場。

性能上,我們現(xiàn)在可以交付28nm和22nm的NPU,整個靜態(tài)功耗可以做到1mw以內(nèi),工作功耗可以做到幾毫瓦以內(nèi),并且它的面積僅有幾個平方毫米。它可以滿足端側(cè)小型化、智能化設(shè)備開發(fā)商對一款NPU芯片的所有想象。

功能上,這款NPU可以支持目前市面上所有經(jīng)典神經(jīng)網(wǎng)絡(luò)的加速,比如圖像識別、物體監(jiān)控、智能超市、運動分析、健康數(shù)據(jù)分析、圖像分割等。

我們還可以允許用戶對這款NPU二次開發(fā)。我們所有的編程接口都是以算子為節(jié)點,現(xiàn)階段支持12大類、超過100種的基礎(chǔ)神經(jīng)網(wǎng)絡(luò)算子結(jié)構(gòu),極大豐富了用戶二次開發(fā)的工具箱。這些算法結(jié)構(gòu)里,不僅有存算技術(shù)擅長的線性運算,還覆蓋了非線性運算。

其次,基于這款自研的N300,蘋芯科技推出了SoC芯片,名為“S300”,主打多模態(tài)和環(huán)境感知的功能。

S300內(nèi)的神經(jīng)網(wǎng)絡(luò)加速部分采用了28nm的N300。這款芯片可以對接攝像頭、麥克風(fēng)、陀螺儀,從而實現(xiàn)用一款芯片覆蓋更寬泛的應(yīng)用領(lǐng)域。

S300的核心能效比超過20TOPS/w,可以實現(xiàn)離線交互,不依賴于wifi、5G,也能語音識別、圖像識別等。像無人機(jī)、智能家居、智能玩具、智能座艙,都將是這款芯片的應(yīng)用場景。

最后,我們的目標(biāo)市場比較清晰,主要是可穿戴市場和AIoT市場。

我們發(fā)現(xiàn),目標(biāo)市場未來的產(chǎn)品有一些共性。一方面是輕量化、便攜化的趨勢,要考慮到無法插電源工作的情況。另一方面,都有從非AI類轉(zhuǎn)向AI類的產(chǎn)品升級需求。其中,技術(shù)層面會存在矛盾,即系統(tǒng)內(nèi)部算力不斷上升,但供電量不斷下降,這亟需高能效比的技術(shù)來支撐AI類產(chǎn)品。

基于對市場體量的預(yù)測,到2025年,可穿戴類產(chǎn)品已經(jīng)有超1000億元的市場規(guī)模。這類產(chǎn)品將趨于小型化、輕量化、便攜化,因此內(nèi)置的芯片會特別小,一般在10平方毫米左右。除此之外,端側(cè)的本地算法會不斷升級,本地電池也會不斷變小。

面向AIoT行業(yè),我們看到全球到2030年有超過10萬億級別的需求。目前,AIoT場景內(nèi)的產(chǎn)品,特點是碎片化,這需要較強(qiáng)的軟件層面來支持其泛化能力。

四、大模型時代要升級用戶體驗,存算技術(shù)才是核心驅(qū)動力

回到今天的主題,存算技術(shù)已經(jīng)在神經(jīng)網(wǎng)絡(luò)里實現(xiàn)較為理想的應(yīng)用落地了,那么在接下來的大模型時代里,存算技術(shù)又可以做什么?

我們要去理解大模型行業(yè)正在發(fā)生著什么。由于大模型的出現(xiàn),AI的泛化能力逐步增強(qiáng),大模型的生態(tài)格局也被重新塑造。但是不管最后怎么樣變化,大模型行業(yè)核心的驅(qū)動力,都來源于用戶體驗的提升。

舉個例子,過去大家獲取、檢索信息以搜索引擎為主,現(xiàn)在方式更加靈活、更加實時,還能通過對話的形式獲取信息,甚至更加智能化、多模態(tài)化,這也催生了不同的應(yīng)用形態(tài)。

此外,從智能決策、個性化、交互、集成調(diào)度、執(zhí)行準(zhǔn)確這5個方面,用戶都對新的交互方式提出了不同的要求。

同時,用戶有多大的付費意愿、想支付多少費用,來換取基于大模型的用戶體驗。這給底層AI芯片到產(chǎn)品的構(gòu)建,都提出了不同的要求。

分析上述各類需求后,我們發(fā)現(xiàn)大模型行業(yè)里所有公司,都在試圖切入這個生態(tài)。我們經(jīng)常在行業(yè)里面聽到一句話,“AI可以把現(xiàn)在所有的軟件都重寫一遍,也把所有的硬件都重新設(shè)計一遍”。

這句話可能每個人理解得不一樣,但大方面確實如此。無論是科技大廠,還是創(chuàng)企,都在用顛覆式的創(chuàng)新適應(yīng)大模型行業(yè)。

科技大廠通過AI聊天機(jī)器人來完成AI升級。

一些公司則更關(guān)注生產(chǎn)力場景,用AI創(chuàng)作內(nèi)容、提升工作效率。而像一些垂類場景,部分公司選擇通過AI+解決方案的方式,切入中間模型層。

大模型公司會提供更好的模型使用工具,優(yōu)化開發(fā)者生態(tài),來構(gòu)建底層MaaS這樣一個云端的應(yīng)用新業(yè)態(tài)。

專注于端側(cè)的公司也在不斷切入端側(cè)的應(yīng)用。蘋芯科技也是其中一家。我們把模型不斷做小,參數(shù)量從700億到70億,甚至到10億,最終把模型嵌入到家居類、機(jī)器人類、智能對話類的應(yīng)用中。

蘋芯科技對于自己的定位也非常清晰,我們只把自己看作是一個算力基礎(chǔ)設(shè)施的提供者。我們關(guān)注云側(cè)和端側(cè)的算力構(gòu)建,同時也關(guān)注AI推理類的芯片。背后的主要原因是,推理類運算更加符合存算一體技術(shù)的性能特點。

我們的客戶價值主張就是低成本,而低成本有兩條路徑,一個是降低芯片的制造成本,另一個是降低芯片的使用成本。

制造成本方面,我們不依賴7nm、4nm等高級制程,但仍然可以實現(xiàn)高能效比,這是解決當(dāng)前算力焦慮和能效焦慮行之有效的路徑。

使用成本方面,客戶愿意支付多大成本,去為電量付費,去用延長AI硬件待機(jī)時長,這都是我們需要關(guān)注的內(nèi)容。

基于大模型能力,我們當(dāng)前有兩個拓展方向。

第一個方向,我們?nèi)匀幌嘈臩caling Law,模型越大,能力越強(qiáng)。這個宗旨的追隨者主要開發(fā)云端產(chǎn)品,包括訓(xùn)練和推理,這也是目前主流加速器還是GPU形態(tài)的原因之一。

在Scaling Law路線上大家更關(guān)注存儲容量、通信帶寬、互聯(lián)能力和構(gòu)建成本。云端服務(wù)器產(chǎn)品、加速網(wǎng)卡等,在產(chǎn)品設(shè)計層面的定義基本圍繞這四個維度。

第二個方向,與第一個方向從模型角度來看是相反的。大家選擇把模型越做越小,在知識圍欄領(lǐng)域內(nèi),把模型內(nèi)置到嵌入式硬件中。

在路線二當(dāng)中,最重要的是產(chǎn)品定義的能力。大家的訴求更多是數(shù)據(jù)安全、通信延遲等,更關(guān)心的是芯片面積、功耗。產(chǎn)品形態(tài)上,大家則將更多重心放在AI手機(jī)、AI PC,以及AIoT領(lǐng)域從神經(jīng)網(wǎng)絡(luò)到大模型能力的升級。

五、大模型芯片架構(gòu),可以從四大方向著手優(yōu)化

針對大模型的芯片架構(gòu),從宏觀上看,我們有4個優(yōu)化方向。

以Transformer算法結(jié)構(gòu)為例。第一個是存儲架構(gòu)的優(yōu)化。

大家已形成一個共識,即模型的升級會給存儲架構(gòu)帶來非常大的壓力,其中包括存儲模型的權(quán)重、參數(shù)、中間數(shù)據(jù)轉(zhuǎn)移等。

我們提出了一個內(nèi)存估算的公式。如果單獨跑一個70億模型的訓(xùn)練任務(wù),大概需要7張24GB的4090芯片才能完成一個任務(wù)。保守來說,一個推理任務(wù)的規(guī)模大概是上述訓(xùn)練任務(wù)的1/3到1/4左右。那么,當(dāng)模型參數(shù)量增加到幾百億、幾千億以上,存儲架構(gòu)的壓力非常大。

第二個是數(shù)據(jù)交換方式的優(yōu)化。

存儲架構(gòu)的壓力會波及數(shù)據(jù)交換環(huán)節(jié)。單個GPU的存儲空間有限,芯片整體性能的表現(xiàn)也會受限。

現(xiàn)在主流的解決方案,包括HBM方案、GDDR方案等。GDDR側(cè)重于通過提升工作頻率來增加帶寬,HBM側(cè)重于通過提升運行度來增加帶寬。前者性價比更高,后者則在帶寬計算能力上有絕對優(yōu)勢,不過HBM的成本也較為昂貴。

第三個是成本的優(yōu)化。

如果我們把H系列,或者市面上比較主流的芯片拆開來分析成本架構(gòu),會發(fā)現(xiàn)第一影響要素是工藝制程的選擇。

第二影響要素是IP的價格,是否使用了非常昂貴的IP,像HBM的IP、高級封裝IP、互聯(lián)IP等。我們是不是可以在犧牲通用性的前提下,進(jìn)一步降低成本?

第四個是通用性和專用性的平衡。

這永遠(yuǎn)是一個矛盾的主題,現(xiàn)在絕大多數(shù)都去談?wù)撓馛UDA生態(tài)兼容這方面。某種意義上,在設(shè)計模型的時候,CUDA能夠提供的精度和算子是開發(fā)的基礎(chǔ),并且對底層性能的調(diào)優(yōu)時,也要有一定的容錯性。

對于專用的芯片,我們關(guān)注到美國那邊新提出的一個概念,用軟件定義硬件,從而能夠減輕或者甩掉數(shù)據(jù)搬運的包袱。這也是一種很主流的芯片設(shè)計趨勢。

六、存算技術(shù)滲透計算機(jī)體系“金字塔”的各個環(huán)節(jié)

從微觀上看,存算技術(shù)可以做些什么?

存算技術(shù)目前是一個比較寬泛的概念,有數(shù)據(jù)存儲的地方都可以加入存算,搭建存算一體的結(jié)構(gòu)。

在整個計算機(jī)體系當(dāng)中,存儲器是一個金字塔結(jié)構(gòu),金字塔的各個層級出現(xiàn)了一些非常有趣的創(chuàng)新做法。

以最近中科院計算所一個非常有意思的項目為例,他們打造了一個所謂的SMART SSD,這是最外層的存算,在硬盤里面做存算。硬盤其實是一個TB級別的存儲空間,在硬盤上存儲的數(shù)據(jù)更多是非結(jié)構(gòu)化的數(shù)據(jù)。在硬盤主控芯片上集成一些NPU顆粒,存儲控制顆粒,這對數(shù)據(jù)早期的清洗以及結(jié)構(gòu)化提供了很大的幫助。

再往金字塔下層走,就來到了內(nèi)存條。

最近三星和UIUC有一個基于CXL層面的優(yōu)化,是充分利用LPDDR5X打造了一個智慧內(nèi)存條。

具體來說,這個智慧內(nèi)存條基于DFX結(jié)構(gòu),修改并加入了智能化能力。原本它只具備GEMV加速的能力,但是現(xiàn)在加入了支持通用型矩陣的計算能力,如果沒記錯是64×32,浮點FP16,從而提升效率。

相比于傳統(tǒng)的GDDR、DDR5內(nèi)存技術(shù),它容量上擴(kuò)大了16倍,在吞吐量、能效比上也獲得了明顯的優(yōu)化。

再往下走一層,就來到我們熟悉的HBM。目前主流的HBM2、HBM2e已經(jīng)達(dá)到非常強(qiáng)大的效果,擁有大幾百GB的帶寬能力,但成本非常高。

最底層,通過GEMM優(yōu)化SM實現(xiàn)帶寬加速后,數(shù)據(jù)傳輸速率可以達(dá)到幾十TB每秒。同時,還可以把算子級的能力,像矩陣的加成、Embedding集成放到硬件里面去做。

結(jié)語:存算技術(shù)率先在端側(cè)商業(yè)化,未來或?qū)⑸稀霸啤?/strong>

縱覽時間軸,存算一體技術(shù)已經(jīng)走過了四個階段。從最早期的院校研究,到現(xiàn)在商業(yè)化落地,后續(xù)將集成更大、更強(qiáng)的計算能力。

其中,最重要的一個進(jìn)階維度就是商業(yè)價值的進(jìn)階。存算一體技術(shù)從最開始的實驗室研究價值,到現(xiàn)在能夠真正為那些遇到存儲墻問題的企業(yè)解決實際問題。該技術(shù)最先在端側(cè)落地,例如嵌入智能硬件、延長續(xù)航時間、增強(qiáng)本地智能化能力,以及初步萌生多模態(tài)能力等。

存算一體技術(shù)在商業(yè)價值上的進(jìn)階,與其他維度上的進(jìn)階密不可分。其中包括芯片存儲器的成熟,算力從零點幾TB到幾TB,再到幾十TB的升級,底層電路結(jié)構(gòu)的優(yōu)化,軟硬件協(xié)同,甚至還催生了軟件、編譯器、工具鏈的成熟。

未來,存算相關(guān)的路線或者說要解決的問題,首先便是異構(gòu)能力的增強(qiáng),既包括存儲介質(zhì)異構(gòu),也包括架構(gòu)上的異構(gòu)設(shè)計。 “通用性、計算性能、成本”這三者本身就是矛盾的鐵三角,存算也許能帶來解決問題的新思路。
其次,存算為不依賴于高級工藝來提升算力和計算效率,提供了新的思路。3D堆疊以及存內(nèi)計算都可以更好地拉進(jìn)存儲器與處理器的距離,減少數(shù)據(jù)通信的頻次和數(shù)量。存儲和通信帶寬已是大模型的瓶頸。

軟件逐步成熟后,基于存算一體技術(shù)的端側(cè)芯片今年已經(jīng)開始規(guī)模化生產(chǎn)和應(yīng)用了。未來在云側(cè),除了可以為小模型加速之外,解決通信帶寬瓶頸也許可以成為存算一體技術(shù)的下一個殺手級應(yīng)用,我們期待未來兩到三年內(nèi)能夠達(dá)成這一目標(biāo)。