芯東西(公眾號:aichip001)
編輯 |? GACS

芯東西10月7日報道,9月14日~15日,2023全球AI芯片峰會(GACS 2023)在深圳南山圓滿舉行。在次日高效能AI芯片芯片專場上,九天睿芯副總裁袁野分享了主題為《基于6T SRAM的混合存內(nèi)計算架構(gòu)處理器加速多樣化應(yīng)用落地》的主題演講。

袁野在演講中介紹了AIGC和存內(nèi)計算與高速互聯(lián)的技術(shù)。對于AIGC,他強調(diào)了它是人類的助手而不是取代工作,指出了基于ChatGPT的應(yīng)用領(lǐng)域和未來的發(fā)展趨勢。同時,他講到存內(nèi)計算技術(shù),包括模式混合架構(gòu)和純數(shù)字架構(gòu)各自的優(yōu)勢。

袁野還介紹了九天睿芯開發(fā)的ADA系列芯片,針對傳感器側(cè)、SoC側(cè)大算力需求的定位。并且列舉了一些應(yīng)用機會,如星光級夜視和個人智能終端。

以下為袁野的演講實錄:

非常高興能來參加這次活動,大概給大家講一下我們現(xiàn)在的一些情況,也給大家分享一下我們所暢想的一些未來。分成四個部分,第一個講講AIGC,第二個講講我們存內(nèi)計算與高速互聯(lián)的技術(shù)。因為在突破大算力瓶頸上,除了本身的存內(nèi)計算技術(shù)是最底層的解決互聯(lián)問題以外,中間相互之間的互聯(lián)也是非常重要的一個板塊。

第一個板塊是AIGC。ChatGPT剛出來的時候,很多人在說基于這個生態(tài)可能會取代很多工作,但是在我看來AIGC一直是人類的助手,所以不要太過于把它看成一個猛虎,而是要把它看成一個伙伴,一個絕對非常好用的輔助工具跟助手。

我一直在用ChatGPT,在使用過程中發(fā)現(xiàn)它有自身的缺陷,包括它本身是一個逐字推理的模型,所以效率肯定不會特別高。第二,它腦洞確實比較小,因為受本身內(nèi)部邏輯的限制。還有它在時空域的聯(lián)想會比較差,如果前天問了它一個問題今天再去問,同一個人對它問的問題,但是得出來的結(jié)果是不一樣的。

ChatGPT是一個通用大模型,當它真正做到個人模型后就可以解決相關(guān)的問題,所以真正的通用大模型未來到垂直落地場景、到個人大模型,我覺得是大趨勢。

大模型可以應(yīng)用的點,像教育、客服、助手、NPC這些都非常多。我是一個游戲愛好者,也是一個小說愛好者,所以網(wǎng)絡(luò)上腦洞大開的寫游戲的虛擬小說,我覺得寫得非常好。通過ChatGPT和現(xiàn)在大算力的發(fā)展,包括存內(nèi)計算的發(fā)展,那種游戲的落地在未來已經(jīng)不遠了。這對我個人來說是一件非常值得興奮的事情,在我有生之年能夠完善這樣的游戲我就圓滿了。

一、基于純數(shù)字架構(gòu)SRAM存內(nèi)計算,ADA系列芯片能效、面效雙提升

基于我們本身的存內(nèi)計算給大家講一講。初期我們是做模式混合架構(gòu)存內(nèi)計算的芯片,后面同步延展了基于純數(shù)字架構(gòu)SRAM的存內(nèi)計算的芯片?,F(xiàn)在第二代ADA200芯片能效跟面效比已經(jīng)非常明顯了,能效比做到20TOPS/W,面效是做到10TOPS/平方,比現(xiàn)有純數(shù)字架構(gòu)的MPU有非常大的優(yōu)勢。

九天睿芯袁野:存內(nèi)計算適配AIGC芯片需求,高速互聯(lián)接口打通“搬運墻”丨GACS 2023

另外,基于數(shù)字板塊架構(gòu)的SRAM存內(nèi)計算也在設(shè)計當中。

為什么還去做一個純數(shù)字的?因為模式混合的架構(gòu)在支持INT8、INT4、INT2這樣有效精度計算時候是非常好的,但是在做更高精度的比如16甚至32精度計算的時候表現(xiàn)就沒有那么好。所以做了純數(shù)字架構(gòu)SRAM的東西以后,純數(shù)字的可以做更高精度的計算,模式混合的可以做低精度的計算。整個芯片做好融合以后,在推理跟訓練的時候都可以用到,這就類似于GPU的核心功能。

這是我們一個完整的實現(xiàn)方式,數(shù)字的就是數(shù)字信號+加法樹+無精度損失,好處是無精度損失。模式混合的架構(gòu)的好處是在面效跟能效上表現(xiàn)上會更高,但是會有一定精度損失?,F(xiàn)在我們自己測試下來,精度損失差不多在百萬分之二,在大模型或者大量AI運算上基本是可以忽略不計的損失。

另外一種方式是CIMA,用純模擬的架構(gòu)做,它更好的支持類似于INT4、INT2更低精度的運算。在未來大模型量化過后,CIMA也是很好的方向。我們跟很多做AIGC的大廠、做大模型大廠溝通的時候,他們現(xiàn)在還是基于INT8、INT16級別在做。往更低層次的量化,他們有在研究但是還沒有做。

九天睿芯袁野:存內(nèi)計算適配AIGC芯片需求,高速互聯(lián)接口打通“搬運墻”丨GACS 2023

我們也得到了其它的消息,現(xiàn)在AIGC算法或者大模型的算法未來會往什么方向走還是不定性的,而且國內(nèi)的牌照未來可能還會重新洗牌,到底哪些廠商有資格去做大模型現(xiàn)在還沒有定論。

所以在做這個芯片的時候,無論是選擇CIMD還是CIMX架構(gòu),我們更多思考的是怎么把底層對Transformer一些算子的支持、把互聯(lián)做好,而不是現(xiàn)在就去做一顆SoC。如果現(xiàn)階段就去做SoC,可能在某個階段等真真正正大模型定下來以后到底適不適用,還是一個非常大的問題?,F(xiàn)在更多的精力是跟很多的大廠做溝通或者基于存內(nèi)計算定制開發(fā)的合作。這里講了CIMD、CIMX的優(yōu)勢。

九天睿芯袁野:存內(nèi)計算適配AIGC芯片需求,高速互聯(lián)接口打通“搬運墻”丨GACS 2023

我們定位的幾個事情:第一,針對傳感器側(cè),已經(jīng)量產(chǎn)的ADA100芯片系列是完全針對傳感器側(cè)AI的運算。AI的東西應(yīng)該是無處不在的,從最初的傳感器端開始就可以帶一定的AI處理,幫助壓縮傳到后端的數(shù)據(jù)量或者是更準確的數(shù)據(jù)傳到后端的核心功能,所以第一代芯片中非常小算力的部分主要是針對邊緣側(cè)傳感器的AI。

ADA200系列差不多4T左右,而且4T-20T范圍內(nèi)的AI芯片就是針對SoC側(cè)的算力補充。SoC側(cè)的算力想覆蓋所有應(yīng)用是非常難的,現(xiàn)在很多產(chǎn)品對AI需求會越來越大,但是SoC要重新設(shè)計或者做更大的NPU難度是非常大的。我們就去做了這樣的NPU來幫助做算力支撐,算是SoC側(cè)的一個協(xié)處理器。ADA300更多是針對更大算力需求,比如100T-1000T范圍的算力支撐,我們也是針對算力支撐而沒有做完整的SoC。

為什么做這樣的東西,或者ADA300為什么做呢?跟國內(nèi)做筆電、手機大廠溝通的時候發(fā)現(xiàn),他們想把AIGC直接落地在平板、電腦上,形成個人的AI智能終端。這樣的AI智能終端對算力的需求很大,而且對功耗方面的要求很高,所以存內(nèi)計算在這個階段可以發(fā)揮非常好的作用,這是我們?yōu)槭裁匆鲞@個產(chǎn)品的原因,待會兒有具體的應(yīng)用跟大家分享。

二、高速互聯(lián)接口,打通CPU、算力、存儲的次級搬運墻

我們公司2018年成立,中間有做了兩代、三代存內(nèi)計算,今年開始做互聯(lián)。為什么做互聯(lián)?存內(nèi)計算所形成的算力芯片并不大,單個存內(nèi)計算芯片算力基本上是堆到4T,再往上走是通過互聯(lián)通過疊加的形式實現(xiàn)更大算力的模式,所以互聯(lián)在整個AI或者存內(nèi)計算中起到的作用是非常核心的,這是我們?yōu)槭裁醋龌ヂ?lián)的原因。

在芯片內(nèi)部或者芯片外部,互聯(lián)技術(shù)已經(jīng)非常多了,基本上是把整個行業(yè)做了一個串聯(lián),從最初傳感器到端側(cè)的SoC,通過低速接口做連接。

SoC內(nèi)部CPU、GPU之間的互相通信也是有自己的通信技術(shù)。存儲跟CPU之間的通信不用說,SATA是最早的,但是現(xiàn)在PCIe的東西越來越多,特別是服務(wù)器級類似這樣的芯片越來越多。存儲又跟傳輸中心、算力中心互連,中間有非常多的互連技術(shù)。典型代表,現(xiàn)在比較火的類似于英特爾提的CXL,基于PCIe5、PCIe6、NVlink這樣一些互連技術(shù),包括上面總線內(nèi)部的互聯(lián)就是我們現(xiàn)在所做的核心,一切是為了實現(xiàn)大算力做準備。

我們自定義的技術(shù)就不詳細講了。一個是片內(nèi)的,一個是片間的。這兩塊互聯(lián)技術(shù)本身是圍繞未來大算力需求或者是中算力需求而去做準備的。

九天睿芯袁野:存內(nèi)計算適配AIGC芯片需求,高速互聯(lián)接口打通“搬運墻”丨GACS 2023

三、算法+系統(tǒng)+底層硬件支持,AI技術(shù)升級加速應(yīng)用落地

最后我想說的是迎接智能時代。

英偉達不用說了,它本身的生態(tài)搭建得很完整。新一代應(yīng)對于推理側(cè)的芯片也出來了,而且它跟很多行業(yè)內(nèi)大廠已經(jīng)開始向做下一代個人智能終端設(shè)備的趨勢走了。他們最早也是做協(xié)處理器,英偉達最早是做游戲顯卡起家,但是到下一代智能PC階段,基本上超過英特爾成為主控了,英特爾CPU反而可以說是一個協(xié)處理器、控制器的概念。我們還是很看好AI的未來,希望順著這條路走出國內(nèi)的發(fā)展。

我列舉了一些應(yīng)用的機會,現(xiàn)在可以看到無論是手機、PC還是智能終端的設(shè)備,有越來越多AI升級的機會,所以最終會帶來新的終端設(shè)備、新的行業(yè)設(shè)備、新的芯片架構(gòu)包括整個新的生態(tài)邏輯,是非常龐大的一個新的市場。在座的各位如果還有心思,可以仔細想一想在中間能夠找到什么樣的機會。

這邊列舉了一些應(yīng)用。第一個,星光級夜視。這是我朋友公司做的技術(shù),他們可以在只有0.001lux的前提下做到真彩成像,這是非常牛的一個技術(shù)。它的算力是不高,但參數(shù)量非常大,怎么樣把它量化、跑起來是非常難的事情,所以現(xiàn)在用傳統(tǒng)的SoC跑延時就非常嚴重,而且成像效果并不佳。他的想法是基于存內(nèi)可不可以把這個東西做得更好?這是存內(nèi)的應(yīng)用點,類似這樣的算法在未來會越來越多。怎么支持這樣的算法把AI落地得更好?這是我們要做的事情。

九天睿芯袁野:存內(nèi)計算適配AIGC芯片需求,高速互聯(lián)接口打通“搬運墻”丨GACS 2023

第二個,個人智能終端,這是暢想型的東西。所有ChatGPT或者AIGC的東西越來越成熟后,我們想把這些AI算力布置到各個終端上,包括手持式終端、便攜式終端,最終形成的是真正的自動化助手。其中的生意機會也非常多。

總的來說,我們公司是提供支撐算力平臺的公司,我們想把它從傳感器側(cè)、到SOC側(cè)、到未來個人平臺側(cè)一些算力做更好的支撐,感謝大家!

以上是袁野演講內(nèi)容的完整整理。