芯東西(公眾號:aichip001)
編輯 |?GACS 2024
2024全球AI芯片峰會(GACS 2024)于9月6日~7日在北京舉行,大會由智一科技旗下芯片行業(yè)媒體芯東西和硬科技知識分享社區(qū)智猩猩發(fā)起舉辦。在主會場AI芯片架構(gòu)創(chuàng)新專場上,億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬以《AI芯片架構(gòu)創(chuàng)新開啟大算力第二增長曲線》為題發(fā)表演講。
熊大鵬認為,AI芯片架構(gòu)創(chuàng)新將開啟大算力第二增長曲線。如今摩爾定律面臨挑戰(zhàn),以計算單元為中心的已到達天花板,將來AI芯片一定是以存儲單元為中心。
他談到如今算力提升面臨瓶頸,首要破局之路就是是解決數(shù)據(jù)搬運問題,并詳細展開闡述了存算一體技術(shù)對AI模型算力方面的支持作用。
在人工智能領(lǐng)域,存算一體技術(shù)正以前所未有的速度推動著計算效率與性能邊界的拓展。該技術(shù)涵蓋了存內(nèi)計算與近存計算兩大主流路徑,旨在通過減少數(shù)據(jù)搬運、提升計算密度與能效比,為大規(guī)模AI模型提供強有力的算力支持。
億鑄科技于2023年首次提出存算一體超異構(gòu)架構(gòu),并致力于通過基于新型存儲介質(zhì),提供高性價比,高能效比的AI大算力芯片。
▲億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬
以下為熊大鵬的演講實錄:
一、AI芯片架構(gòu)迎來第二增長曲線,大模型引領(lǐng)算力需求飆升
今天我這邊介紹一下AI芯片架構(gòu)第二增長曲線。
大模型發(fā)展到今天已經(jīng)從量變發(fā)生了質(zhì)變,量變指的是大模型不斷加大參數(shù)等,能夠使得模型的能力不斷增強。質(zhì)變,則是說當大模型容量到了一定程度時,人工智能尤其通用智能在某些方面超過人類,甚至后續(xù)的發(fā)展還會有更多超過人類的東西會出現(xiàn)。
同時,隨著基礎(chǔ)模型越來越完善的情況下,再加上大模型最后一公里的落地,包括AI智能體等等,對于AI計算能力的需求會不斷持續(xù)快速地增長。根據(jù)研究報告,市場規(guī)模已經(jīng)從2022年不到100億增長到今年的780億美金。
從英偉達的財報能看得出來,去年其收入差不多700億美金,占了全球90%以上的AI芯片市場。預計到2029年,市場規(guī)模會到1510億美金,在這個過程中,我們可以看得到,2026年有可能會出現(xiàn)比較明顯的拐點。
這個拐點是什么?目前,全球更多的算力是花在大模型的訓練上,到2026年,大模型會在各個領(lǐng)域開始落地,并推動推理算力的進一步增長。
根據(jù)IDC預計,到2027年用于推理的AI算力占比可能會達到70%以上,未來95%以上都是推理。模型一旦成熟之后,主要就是落地應用,落地應用主要就是推理。
摩爾定律已經(jīng)遇到很大的挑戰(zhàn),2019年OpenAI的研究表明,AI模型的計算量每年增長十倍,遠超摩爾定律一年半到兩年翻一倍。根據(jù)今年國信證券的研究報告,大模型的參數(shù)量每一年半增加35倍。
二、詳述AI芯片“三堵墻”,硬件架構(gòu)突破很重要
摩爾定律已經(jīng)失效,我們一定要尋求新的硬件架構(gòu)的突破。探索新的架構(gòu),成為非常關(guān)鍵非常重要的一件事。
對于AI芯片來說,一直存在三面墻:存儲墻、能耗墻、編譯墻。這些墻根源來源于存儲墻,也就是所需要參數(shù)的存儲量越來越大,對參數(shù)的搬運量也越來越大。從這里出發(fā),帶來很多的問題。
第一,存儲墻會帶來數(shù)據(jù)的堵塞,需要我們對數(shù)據(jù)流在動態(tài)過程中進行優(yōu)化,這個也會導致軟件的算子要做非常深度的優(yōu)化。所有這些都會使得能耗非常高,不管是數(shù)據(jù)搬運導致的能耗,還是因為模型非常大,對于計算能力的需求非常高。
繼而就會帶來能耗墻的問題,英偉達最新的芯片B200,現(xiàn)在已經(jīng)推遲推出,其中的原因就是封裝散熱的問題。現(xiàn)在一顆芯片號稱功耗超過1000多瓦,這是一個很恐怖的數(shù)字。
第三,就是編譯墻。要對數(shù)據(jù)流進行深度的優(yōu)化,這就要求編譯器包括相應的工具能夠做得非常好,能夠提供非常好的優(yōu)化工具。當然,這個很難做到,至少今天為止,我們做GPGPU公司很多人力物力包括資源都花在對算子、程序各方面的優(yōu)化。這是為什么英偉達在軟件生態(tài)上占據(jù)很大的優(yōu)勢,這也是一個主要的原因之一。
三、盲目堆算力不可取,存算一體技術(shù)可為AI模型提供算力支持
問題的根源其實還是來自于阿姆達爾定律。對計算架構(gòu)基本實際有效的算力取決于兩個因素,一個α,一個F,α比較好理解,更好的工藝,能夠堆疊更多的計算單元在上面、能夠有更高的工作頻率,這個α值更高。
英特爾告訴我們,你買我更好的芯片,我的芯片工藝更好、密度更高、計算能力更強。但是我們買了它的電腦回去之后發(fā)現(xiàn),其實它真正的計算能力并沒有提高,或者提高不多,為什么?
真正決定計算效率的還有另外一個原因,包括數(shù)據(jù)的搬運、數(shù)據(jù)的緩存、數(shù)據(jù)的整備所花的時間等等,這個時間在整個計算周期里面它占的百分比是F,如果這個值很大的話,你這個α值再高,其實最后它會碰到一個天花板,這個天花板是由F值設(shè)定的。
在AI大模型的時代,我們的AI芯片包括英偉達的AI芯片,用于數(shù)據(jù)搬運,不管能耗也好,還是它占用的整個計算周期百分比也好,都超過80%,甚至90%,這就意味著英偉達如果繼續(xù)往下走,采取1nm、2nm的工藝,能收獲的性能提升也就是20%左右,基本到天花板。
為什么英偉達現(xiàn)在把更多的精力投放到跟存儲相關(guān)的,包括花很多精力去做HBM4.0。盡管這個東西做出來之后,最終賺錢可能是三星、SK海力士,但為了有效提升自己的AI芯片實際效能,這樣一條路必須要走。
將來的AI芯片一定是以存儲為中心,而不是以傳統(tǒng)的計算單元為中心來配存儲器。
這里舉一個簡單的例子,去解答F值怎樣估算,怎樣影響有效算力的。LLaMA2—70B每次完整計算至少有70B或者70G數(shù)據(jù)的搬運,并且這個數(shù)據(jù)搬運如果距離非常遠,所經(jīng)過的節(jié)點非常多,搬運的時候頻率結(jié)點比較多,自然導致F值非常大,搬運70B所花的時間比較長。
現(xiàn)有的技術(shù)帶寬是很大瓶頸。舉一個例子,英偉達H100的算力大概是2000T,要把它的算力完全用滿,即使計算強度非常低的情況下,它大概需要1000T的搬運量。這意味著即使現(xiàn)在用HBM4.0,甚至將來10.0或者20.0,我相信帶寬也不夠。
同樣再往下走,用現(xiàn)在HBM3.0的技術(shù)的H100,大概是3T的帶寬,當然有另外一些種類可以到4T、6T,我們以3T作為例子,它的性能天花板就是42token,遠遠低于2000T的算力質(zhì)量能夠達到的。當然它可以加上多用戶批處理,去把它的算力用得更多,但是它帶來的問題是延時比較長。
芯片本身能夠支持的用戶數(shù)量是有限的,不管內(nèi)部的算子資源,還是并行度等等資源,會給它造成很大的限制。將來的模型會越來越大,我們相信帶寬的瓶頸會更加突出這些問題,F(xiàn)值進一步上升,越上升意味著算力實際利用率越小。
如果只是盲目往上去堆算力,其實意義不大。
四、第一增長曲線已觸頂,解決數(shù)據(jù)搬運問題成關(guān)鍵
以算力單元為中心的時代已經(jīng)結(jié)束了,第二增長曲線一定是以存儲單元為中心。
我們做過分析,第一增長曲線基本已經(jīng)到了天花板,像今天英偉達BG200不斷堆計算單元核,堆到1000多瓦,很難想象這是什么概念,比重慶火鍋的溫度還高很多。一定要想新的辦法去解決這個問題。
突破天花板有兩個途徑,從芯片層面,主要就是要解決數(shù)據(jù)搬運的問題。數(shù)據(jù)搬運的問題第一點就是,縮短數(shù)據(jù)搬運的距離和時間,如果沒有距離當然是最好的,縮短距離有很多不同的方式,包括近存、3D封裝、2.5D封裝等等。
另外一類,存內(nèi)計算,計算和存儲在同一個單元。除了芯片本身之外,我們知道大模型一般來說用一顆芯片裝下去完成整個任務看起來不太現(xiàn)實,即使推理也需要多顆芯片來做,這時候做一件事可能是一個集群。既然如此,板件和板件的通信互聯(lián)、芯片和芯片之間或者芯片內(nèi)部用Chiplet組成一個完整的芯片。
我們認為,芯片之間的互聯(lián)是解決這個問題的另外一個重要路徑。包括類似英偉達的NVLink、NVSwitch技術(shù)也應該是重點的研究方向之一。
存算一體有很多不同的技術(shù)路徑,有存內(nèi)計算,有近存計算。
對存內(nèi)計算來說,存儲和計算融為一體,有不同的方式做到這一點,尤其模擬計算。但模擬計算有很多問題,主要是精度不可信。那些號稱8位精度、4位精度的,實際達不到。
數(shù)模轉(zhuǎn)換會吃掉很多的面積和功耗,三四年前,大家開始往數(shù)字化的存算一體方向轉(zhuǎn),包括億鑄也算是在這個領(lǐng)域走得比較靠前。
通過數(shù)字化的方式,有優(yōu)點,也有犧牲存儲容量的代價。理論上來說,存內(nèi)計算可以讓F值等于0或者接近于0,是最理想的方式。當然它也有它的問題,最大問題就是它的存儲容量,普遍來說,不管使用了哪種存儲介質(zhì),要么存儲容量不夠理想,要么計算速度各方面不是特別理想,希望有新的更好的下一代的新興存儲能夠出來。
后期的演進,到了全數(shù)字化存算一體,細節(jié)不解釋,主要的原理就是每個存儲器只存放0跟1,如果是8位精度就是8位存儲器,如果是16位的精度就是16位存儲器,性能可能會犧牲,但是精度是可信的,并且消滅掉了數(shù)模轉(zhuǎn)換。它最大的好處還是減少了或者消滅了數(shù)據(jù)搬運的瓶頸。
說到近存計算,可以想象一個存儲器,不管其類型是SRAM、FRAM還是DRAM,我們將數(shù)據(jù)存放到這里。然后,另一側(cè)有一個計算單元,其中包括可重構(gòu)計算單元。存儲器和計算單元可以通過2.5D/3D封裝技術(shù)封裝到一起,二者之間距離很短,傳輸寬帶就變得很寬、速度很快。
另外,如果我們想處理像GPGPU相關(guān)的復雜計算任務,或者是邏輯計算等,也可以把這兩個功能的芯片封裝到一起,形成一個比較完整的AI計算芯片。這種計算芯片,在很大程度上突破或者緩解了數(shù)據(jù)搬運的帶寬和瓶頸的問題。
將各種計算單元通過2.5D/3D封裝技術(shù)封裝到一起,不同計算單元可以用各種不同的存儲介質(zhì),因為不同的存儲介質(zhì)可能有不同的優(yōu)點,也有不足,根據(jù)不同的應用場景可以去做適配。這樣做的好處是,會使傳輸帶寬遠遠超過HBM(高帶寬內(nèi)存)技術(shù),能效比和性價比接近存內(nèi)計算。
存近計算與存內(nèi)計算兩個相比較,各有優(yōu)缺點。或許把存內(nèi)計算跟近存計算有進行非常好的結(jié)合,其效果更能夠解決目前現(xiàn)實的問題。