芯東西(公眾號:aichip001)
編輯 |? GACS 2024

2024全球AI芯片峰會(GACS 2024)于9月6日~7日在北京舉行,大會由智一科技旗下芯片行業(yè)媒體芯東西和硬科技知識分享社區(qū)智猩猩發(fā)起舉辦,在主會場邊緣/端側(cè)AI芯片專場上,智芯科創(chuàng)始人兼CEO顧渝驄以《具身智能的大腦芯片》為題發(fā)表了演講。

智芯科從2019年開始研究基于SRAM的存算一體芯片,已有大量專利積累。智芯科創(chuàng)始人兼CEO顧渝驄認(rèn)為,具身智能是其中最大的落地場景之一,具身智能對低延時(shí)、低功耗都有嚴(yán)苛的要求,因此有必要配備高能效的存算一體AI芯片。

存算一體芯片的主流技術(shù)路徑包括DRAM、SRAM、Flash、Emerging NVM等。其中,SRAM具有讀寫速度快、能效比高、工藝成熟和可集成性佳的優(yōu)勢,可快速無限次讀寫,很適合Transformer的自注意力機(jī)制。憑借這些優(yōu)勢,SRAM已成為海內(nèi)外存算一體技術(shù)研發(fā)的首選。

智芯科基于SRAM的模數(shù)混合存內(nèi)計(jì)算芯片,精度高、量產(chǎn)一致性高,并能夠進(jìn)一步降低功耗。硬件之外,智芯科還打造了通用性、易用性較強(qiáng)的軟件生態(tài)。據(jù)顧渝驄透露,未來智芯科將推出面向具身智能感知到大算力邊緣服務(wù)器的眾多產(chǎn)品,覆蓋大模型、機(jī)器人和自動(dòng)駕駛等場景。

智芯科顧渝驄:詳解SRAM存算一體技術(shù)優(yōu)勢,將研發(fā)服務(wù)器和穿戴芯片 | GACS 2024

▲智芯科創(chuàng)始人兼CEO 顧渝驄

以下為顧渝驄的演講實(shí)錄:

我是智芯科的創(chuàng)始人。我們目前主要的研究方向是基于SRAM的存算一體創(chuàng)新技術(shù)。我們從2019年就開始研究這個(gè)技術(shù),目前正在為這個(gè)技術(shù)找到各種各樣的落地場景。

我個(gè)人認(rèn)為,未來具身智能一定是該技術(shù)最大的落地場景,類似于人的發(fā)展。人形機(jī)器人的出現(xiàn),可能會改變?nèi)藗兊纳铙w驗(yàn),每個(gè)家庭以后都會有1個(gè),甚至多個(gè)人形機(jī)器人。

一、低延時(shí)且低功耗,將有效解決人形機(jī)器人的智能和傳感兩大問題

如何解決人形機(jī)器人的智能問題,以及它的傳感問題呢?那么,我們需要提出一些新的芯片。

具身智能的樣式形形色色,有人形的、有類狗型的、有無人機(jī)式的。這些都可以叫具身智能。而具身智能最大的一個(gè)特點(diǎn)是要能給出實(shí)時(shí)反應(yīng)。

我前兩天看了一個(gè)視頻,機(jī)器人走上演示臺的過程中可能要摔跤了,像這種情況,機(jī)器人必須要有很快的速度才能反應(yīng)過來。

傳統(tǒng)的芯片雖然也用到了AI,但是反應(yīng)速度延遲,可能會出問題。它不能夠及時(shí)把數(shù)據(jù)傳到云端,再快速傳回來。雖然這其中的延遲只是毫秒級別的,但機(jī)器人可能已經(jīng)摔倒了。因此,為了減少延遲,我們必須要解決不用5G或者6G連云端,而是讓算力直接“上身”到機(jī)器人,成為機(jī)器人的“小腦”。

“小腦”問題解決之后,我們就應(yīng)該提高機(jī)器人的續(xù)航能力。如果一個(gè)機(jī)器人在家里面干不了幾個(gè)小時(shí),又要休息,又要充電,顯然不太合理。

我個(gè)人認(rèn)為,未來大家都會非常關(guān)注高能效AI芯片,而存算一體可能是目前看來比較現(xiàn)實(shí)的方法。我相信一個(gè)好的產(chǎn)品肯定會把各種各樣的先進(jìn)技術(shù)集合在一起。我們會采用存算一體技術(shù),也會采用Chiplet技術(shù),來真正解決具身智能大、小腦的功耗問題。

二、易讀寫、可異構(gòu)、難替代,SRAM仍是存算一體技術(shù)的最優(yōu)解

目前,國內(nèi)外大家都在關(guān)注存儲器方面的問題。

英偉達(dá)走的是相對來說傳統(tǒng)的GPU、NPU的路,這條路終究會到頭?,F(xiàn)在英偉達(dá)正在開發(fā)3nm工藝,臺積電甚至已著手研發(fā)2nm工藝。1nm工藝、小于1nm工藝的芯片,我覺得已經(jīng)要突破物理理論極限了。

海內(nèi)外都在推進(jìn)存算一體技術(shù)的研究,主流方向是SRAM。我們要把存儲和運(yùn)算有機(jī)地結(jié)合在一起,突破原來的馮·諾伊曼架構(gòu),這樣才能解決存儲墻、功耗墻問題。

我們通常認(rèn)為有4類存儲器,包括DRAM、SRAM、Flash等。這3類都是現(xiàn)在比較成熟的存儲工藝,每個(gè)都有各自的優(yōu)缺點(diǎn)。

我們發(fā)現(xiàn),相對來說,SRAM是比較經(jīng)濟(jì)的一種實(shí)現(xiàn)存算一體的方式。

首先它的讀寫速度很快,它也沒有讀寫次數(shù)限制。目前還沒有一種新型存儲器可以代替SRAM。

SRAM還有一個(gè)最大的好處,它可以異構(gòu),這也是它和DRAM最大的不同。我可以把SRAM存算一體技術(shù)、CPU和GPU等組合成一個(gè)SoC芯片。

總的來說,SRAM存算一體技術(shù)用在Transformer的自注意力(Self-Attention)機(jī)制里,是非常有優(yōu)勢的。它可以快速并且無限次地刷新,而每次的計(jì)算結(jié)果,又能以非??斓乃俣却婊厝?,從而準(zhǔn)備下一次的計(jì)算。對于Attention機(jī)制里Q×K×V這個(gè)矩陣基本的運(yùn)算,想要真正實(shí)現(xiàn)低功耗,SRAM可以算是最好的方案了。

三、芯片算力最小僅1GOPS,最大有1000TOPS,可針對不同場景定制

下面我們簡單介紹一下智芯科。智芯科早在2019年就開始涉足存內(nèi)計(jì)算領(lǐng)域,研發(fā)工作分布在深圳、杭州、合肥多地,期間也拿下不少專利,并且在SRAM模數(shù)混合的存算一體具備創(chuàng)新優(yōu)勢。我們不是采用模擬存內(nèi)計(jì)算,而是采用數(shù)字存內(nèi)計(jì)算,這樣可以達(dá)到精度無損、性能速度非常好和能效比非常高的效果。

同時(shí),我們SRAM存內(nèi)計(jì)算還可以支持矩陣稀疏性。傳統(tǒng)的NPU一般采用Zero Skip技術(shù),通過在矩陣運(yùn)算時(shí)跳過或忽略矩陣中的零元素,來減少不必要的計(jì)算過程,從而提高整體運(yùn)算效率。

但是存內(nèi)計(jì)算不需要做這些判斷,如果是0的話,會自動(dòng)省略,甚至里面有“0”這個(gè)比特都可以省略。我們可以實(shí)現(xiàn)輸入DIN稀疏和權(quán)重Weight稀疏。

最理想的情況下,假設(shè)稀疏性利用率為50%,SRAM存內(nèi)計(jì)算在22nm就可以做到23TOPS/w的能效比。如果采用7nm、5nm等更先進(jìn)的工藝,其效率隨之提高。

在擁有較好的硬件基礎(chǔ)之上,開發(fā)一系列包括編譯器在內(nèi)的通用軟件工具,這是非常重要的。因此,智芯科的業(yè)務(wù)除了芯片研發(fā),也將逐步拓展到工具開發(fā)。

這是我們芯片的布局,基本上覆蓋從1GOPS到1000TOPS算力規(guī)模的芯片,并且支持多模態(tài)能力。其中,小算力的芯片主要用于語音識別、語音交互等場景;AT700主要解決具身智能感知問題,比如具身機(jī)器人最重要的視覺;AT800用于構(gòu)建具身智能的“大腦”;AT900則是車規(guī)級別的。

除此之外,我們將研發(fā)用于具備多模態(tài)能力的邊緣服務(wù)器、大算力推理服務(wù)器和各類穿戴式設(shè)備的芯片。