芯東西(公眾號(hào):aichip001)
編輯 |? GACS

9月14日~15日,2023全球AI芯片峰會(huì)(GACS 2023)在深圳南山圓滿舉行。在9月15日高能效AI芯片專場(chǎng)上,知存科技業(yè)務(wù)拓展副總裁詹慕航分享了主題為《大算力需求下存內(nèi)計(jì)算的應(yīng)用和發(fā)展趨勢(shì)》的主題演講。

詹慕航分享說(shuō),AI神經(jīng)網(wǎng)絡(luò)的核心就是矩陣乘法/乘加運(yùn)算,越典型的大模型越需要矩陣運(yùn)算,便越適合存內(nèi)計(jì)算的方式。知存科技順應(yīng)AI時(shí)代的新型需求,創(chuàng)新使用Flash存儲(chǔ)器完成神經(jīng)網(wǎng)絡(luò)的儲(chǔ)存和運(yùn)算,以解決存儲(chǔ)墻問(wèn)題。

詹慕航列舉了WTM-2端側(cè)存內(nèi)計(jì)算AI芯片,該系列芯片有著極低功耗、極低延遲的優(yōu)勢(shì)特點(diǎn),其已經(jīng)量產(chǎn)商用的國(guó)際首顆存內(nèi)計(jì)算芯片WTM2101,功耗僅5uA-3mA,同時(shí)兼具高算力,適用端側(cè)智能物聯(lián)網(wǎng)場(chǎng)景。接著,詹慕航預(yù)告了針對(duì)視頻增強(qiáng)場(chǎng)景的WTM-8系列芯片,該芯片可以將單核算力提升80倍,效率提升10倍。

知存科技詹慕航:AI算力提升數(shù)百倍、功耗降低數(shù)十倍!加速存內(nèi)計(jì)算芯片端到邊應(yīng)用丨GACS 2023

以下為詹慕航的演講實(shí)錄:

非常感謝主辦方能讓這么多AI芯片行業(yè)專家們齊聚一堂,我們很欣慰地看到身邊有這么多戰(zhàn)友。

大家都是在為自主可控的目標(biāo),無(wú)論是近存計(jì)算還是存內(nèi)計(jì)算,或者是Chiplet、3D Bounding,無(wú)論是數(shù)字、模擬,SRAM(靜態(tài)存儲(chǔ)器)、RRAM(阻變存儲(chǔ)器)或者是Flash(快閃存儲(chǔ)器)。大家都是在做同樣一件事情,就是將算力提升、功耗降低、面積減少、延時(shí)降低,還有將存儲(chǔ)器的帶寬提高,這也都是我們?cè)诮酉聛?lái)可能要共同去努力的方向。

當(dāng)然不得不提,我們很感謝,知存科技作為存算一體領(lǐng)域里的“排頭兵”得到了行業(yè)和資本的認(rèn)可。我們獲得很多榮譽(yù),近期獲得了國(guó)家級(jí)專精特新“小巨人”。我很樂(lè)意跟大家分享一下我們這個(gè)“排頭兵”做了什么、做到什么程度,做一個(gè)拋磚引玉。

知存科技公司成立較早,于2017年成立。對(duì)于整個(gè)存內(nèi)計(jì)算領(lǐng)域,特別是模擬Flash閃存領(lǐng)域,我們行動(dòng)得較早。創(chuàng)始團(tuán)隊(duì)從2013年開(kāi)始就著手研究,也有了一些成果。

在做芯片方面,我們選了最艱難的一個(gè)模式。2018年,知存科技首顆存算一體的芯片的實(shí)驗(yàn)樣本流片;2020年,小批量生產(chǎn)存算一體加速器WTM1001;2022年,全球首顆基于模擬Flash存算一體的芯片WTM2101正式量產(chǎn)。截至今天,知存科技的出貨已經(jīng)到了kk級(jí)別。我們今年還即將投片和發(fā)布一款基于邊側(cè)的圖像視頻處理芯片WTM-8系列。

今天和大家分享的內(nèi)容主要分三大部分。第一,AI計(jì)算和內(nèi)存墻的問(wèn)題,包括如何從根本上解決內(nèi)存墻/功耗墻等問(wèn)題;第二,知存科技存內(nèi)計(jì)算芯片產(chǎn)品及部署;第三,存內(nèi)計(jì)算的發(fā)展趨勢(shì)。

一、架構(gòu)革新打破“內(nèi)存墻”,用28nm做出逼近7nm的算力

無(wú)論是在摩爾定律有效的階段,還是現(xiàn)在逐漸失效的階段,有一點(diǎn)是不變的,就是對(duì)算力本身的需求。對(duì)于除了Tranformer之外的所有AI模型,(算力需求)每?jī)赡暧?倍的增量;對(duì)于AIGC、生成式AI包括Tranformer模型,(算力需求)有275倍的增量。

算力本身不是偽命題,它只是一個(gè)硬幣的一面,另外一面是存儲(chǔ)的帶寬,或者叫吞吐數(shù)據(jù)的速率。這些年,行業(yè)在算力上的發(fā)展還可以,但存儲(chǔ)的性能指標(biāo)有一些滯后,有一個(gè)很大的Gap。時(shí)常我們?cè)谧ト?shù)據(jù)、吞吐數(shù)據(jù)的時(shí)候,消耗了大量的時(shí)間和功耗,整個(gè)能效比大大地拖延。

要解決內(nèi)存墻/功耗墻的問(wèn)題,需要認(rèn)識(shí)到先進(jìn)工藝已經(jīng)不能有效地解決大算力的需求了,那么我們就從架構(gòu)上進(jìn)行革新。

知存科技詹慕航:AI算力提升數(shù)百倍、功耗降低數(shù)十倍!加速存內(nèi)計(jì)算芯片端到邊應(yīng)用丨GACS 2023

我們回顧一下高中物理的知識(shí),基于歐姆定律:輸出電壓=電流×電阻,電阻倒數(shù)就是電導(dǎo),F(xiàn)lash是浮柵晶體管,我們通過(guò)編程可以微調(diào)電導(dǎo)值,亞閾值可以做出很多。

大家在市面上買到的Flash是基于NOR Flash,買到后需要從底層改寫Flash的浮柵晶體管和電導(dǎo)。做完之后,輸出的電流,整體比如是一千行、一千列。它有兩個(gè)大的優(yōu)點(diǎn):一是密度大,是1000×1000,這是100萬(wàn)個(gè)cell;二是并行度高,因?yàn)樗悄M計(jì)算。

存內(nèi)計(jì)算是放在AD(數(shù)模轉(zhuǎn)換)之前,就去做這樣的運(yùn)算,它的并行度非常高。比如讀取一次用戶數(shù)據(jù)的時(shí)候,就可以在同時(shí)進(jìn)行這1000行、1000列、100萬(wàn)的運(yùn)算。傳統(tǒng)GPU/CPU要去抓取十幾萬(wàn)次,我們只需要抓取一次就能做百萬(wàn)級(jí)的并行運(yùn)算。

整個(gè)AI神經(jīng)網(wǎng)絡(luò)或者CNN矩陣運(yùn)算、卷積運(yùn)算,核心實(shí)際上就是矩陣乘法/乘加運(yùn)算。越是大模型,越是矩陣運(yùn)算,越適合存內(nèi)計(jì)算的方式,因?yàn)榇婧退惚旧碓谝黄穑淮涡圆⑿型瓿伞?/strong>

從工藝來(lái)看,降低成本是行業(yè)共同的目標(biāo)之一,知存科技的存內(nèi)計(jì)算基于成熟工藝,通過(guò)架構(gòu)的創(chuàng)新,能夠達(dá)到兩代以后先進(jìn)工藝所要達(dá)到算力能耗需求。我們?cè)谌ツ炅慨a(chǎn)的WTM2101芯片是基于40nm制程,該芯片在算力和能效比上相當(dāng)于12nm工藝的6到10倍。

知存科技詹慕航:AI算力提升數(shù)百倍、功耗降低數(shù)十倍!加速存內(nèi)計(jì)算芯片端到邊應(yīng)用丨GACS 2023

有人開(kāi)玩笑說(shuō),這是“非馮”和“馮”的一場(chǎng)battle。存內(nèi)計(jì)算最核心的原理是在模擬器件上,因?yàn)樗沁M(jìn)行本計(jì)算,存儲(chǔ)單元本身就是計(jì)算單元,所以我們沒(méi)有獨(dú)立的計(jì)算單元,也沒(méi)有獨(dú)立的存儲(chǔ)單元,這樣就節(jié)省了很多數(shù)據(jù)的吞吐量、搬運(yùn)的能耗。

二、基于Flash的量產(chǎn)存算一體芯片,逐步覆蓋從端到邊

接下來(lái)給大家匯報(bào)一下知存科技目前的產(chǎn)品,以及知存科技將來(lái)的技術(shù)路線圖。

經(jīng)歷過(guò)這么多的事情,一句話總結(jié):我們實(shí)現(xiàn)了0到1的突破。輕舟已過(guò)萬(wàn)重山,我們現(xiàn)在已到了量產(chǎn)級(jí)別。要把一顆芯片從樣片做到量產(chǎn),我們有額外的工作要去做。除了之前做很多的設(shè)計(jì),我們要去解決可靠性、一致性、良率等諸多問(wèn)題。

知存科技整個(gè)團(tuán)隊(duì)在這幾年的時(shí)間里,所有該踩雷的都踩過(guò)了。關(guān)鍵是知存科技作為一個(gè)“排頭兵”,前面沒(méi)有可以對(duì)標(biāo)的產(chǎn)品,沒(méi)有可以去借鑒的技術(shù)。

從整個(gè)規(guī)格的定義,從Flash架構(gòu)到MPU核,我們存算架構(gòu)的設(shè)計(jì)都是自己摸索出來(lái)。我們?cè)谇邦^拿著手電筒,在無(wú)人區(qū)探索出來(lái),包括前端的設(shè)計(jì)模擬、包括數(shù)字、前端后端封測(cè),整個(gè)團(tuán)隊(duì)付出很大努力。幸虧有驚無(wú)險(xiǎn),我們走過(guò)來(lái)了,并擁有了目前業(yè)界唯一可以基于Flash的存算一體架構(gòu)量產(chǎn)芯片。

知存科技詹慕航:AI算力提升數(shù)百倍、功耗降低數(shù)十倍!加速存內(nèi)計(jì)算芯片端到邊應(yīng)用丨GACS 2023

對(duì)于生態(tài)的建設(shè),知存科技志存高遠(yuǎn)。我們有專事工具鏈的團(tuán)隊(duì),不光是做一顆好的芯片,我們要推給客戶的是一顆好用的芯片。在算法的移植上和客戶對(duì)于芯片的使用上,我們對(duì)于工具鏈早早地同步進(jìn)行投入。

介紹一下我們的WTM2101芯片,它用于端側(cè),算力小于1Tops,精度在INT8以下,參數(shù)量為1.8MB,當(dāng)然我們的算力不停地會(huì)有迭代和演進(jìn)。

在WTM2101芯片上,模型參數(shù)的大小已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)市場(chǎng)的需求,其擁有的50Gops算力在很多場(chǎng)景跑不滿,也放不滿1.8MB的模型和參數(shù)。對(duì)于模擬精度的控制,我們有稀疏和致密的方法,在WTM2101上我們可以做到8-bit。WTM-8系列芯片有12-bit的精度,參數(shù)量也是從幾十MB到幾十G不等,取決于客戶的應(yīng)用場(chǎng)景和客戶的模型大小。

給大家看一些實(shí)例,這是量產(chǎn)產(chǎn)品真正的實(shí)測(cè)數(shù)據(jù)。用算法復(fù)雜度間接地折算,來(lái)表現(xiàn)WTM2101的算力,可以看到在降噪以及命令詞的識(shí)別場(chǎng)景下,相較于市場(chǎng)現(xiàn)有方案,WTM2101在AI算力上有數(shù)十倍到百倍的提升;與此同時(shí),功耗降低數(shù)十倍到微安級(jí)別。知存科技的算法復(fù)雜度很大,1000MB左右,市場(chǎng)現(xiàn)有方案能存放的算法復(fù)雜度卻很小。

知存科技詹慕航:AI算力提升數(shù)百倍、功耗降低數(shù)十倍!加速存內(nèi)計(jì)算芯片端到邊應(yīng)用丨GACS 2023

WTM2101的應(yīng)用產(chǎn)品包括智能手表等,當(dāng)客戶把知存科技的芯片放到手表里,發(fā)現(xiàn)有以下兩件事情:

1)健康算法。無(wú)論你做PPG、ECG、心跳心率,還是姿態(tài)的監(jiān)控,比如一個(gè)抬腕的健康類的算法,在用了我們的芯片以后24小時(shí)里的誤識(shí)別率竟然達(dá)到了0。因?yàn)橐プ鯝I Training,我們給它喂大量數(shù)據(jù)、大量時(shí)間的Training訓(xùn)練之后,在這個(gè)芯片真正應(yīng)用的時(shí)候,它能夠很精確地判斷出來(lái)。

2)功耗小且Always on。由于我們的方案節(jié)省功耗,所以續(xù)航很好,如果你的手表以前需要4天充一次電,我們直接會(huì)延長(zhǎng)續(xù)航時(shí)間2-3天。如果算力有10倍的提升,功耗又有10倍降低的時(shí)候,整個(gè)能效是2個(gè)數(shù)量級(jí)的提升,我們的方案是非常驚艷的一個(gè)產(chǎn)品。

WTM2101覆蓋的產(chǎn)品目前主要有語(yǔ)音識(shí)別和人聲增強(qiáng)、健康算法等方面。

具體來(lái)說(shuō),語(yǔ)音的識(shí)別包括人聲增強(qiáng)。WTM2101的應(yīng)用場(chǎng)景有對(duì)講機(jī)、助聽(tīng)器、TWS耳機(jī)。另外在降噪上,我們有大量Training訓(xùn)練數(shù)據(jù),包括做一些加噪的訓(xùn)練、做量化。我們?cè)谔崛?、識(shí)別噪音的時(shí)候是非線性的,所以它可以精確且快速地識(shí)別出各種人聲之外的背景噪音,并有效地把它消除掉,包括回聲消除。健康算法這個(gè)技術(shù)的應(yīng)用場(chǎng)景除了手表,還包括醫(yī)療行業(yè)的產(chǎn)品形態(tài)。

對(duì)于端側(cè)而言,WTM2101是一顆大算力且有效的處理器芯片。

我們的合作伙伴包括一款叫CW01的兒童手表的ODM(原始設(shè)計(jì)制造商)。合作產(chǎn)品還有INMO Air2眼鏡,我們提供命令詞識(shí)別,戴著眼鏡的時(shí)候精準(zhǔn)、快速地識(shí)別語(yǔ)音指令。另外還有上一周剛剛發(fā)布的魅藍(lán)K歌耳機(jī),大家可以搜一下這款耳機(jī),299元,可以K歌,有耳返的功能,這是一個(gè)物有所值、非常好玩的產(chǎn)品。

知存科技詹慕航:AI算力提升數(shù)百倍、功耗降低數(shù)十倍!加速存內(nèi)計(jì)算芯片端到邊應(yīng)用丨GACS 2023

接下來(lái)是一顆支持大算力和端側(cè)大模型的視覺(jué)類芯片——WTM-8系列芯片,大家可以把它理解成類似于R1這顆芯片。它在端側(cè)可以打破很多使用場(chǎng)景,因?yàn)樗谏嵘蠜](méi)有憂慮,對(duì)功耗的控制非常好。從視頻方面來(lái)說(shuō),渲染用傳統(tǒng)GPU做也還不錯(cuò),但超過(guò)三維重構(gòu)、插幀、超分都是更適合用神經(jīng)網(wǎng)絡(luò)技術(shù)。

WTM-8系列芯片的高性能成像功能類似于實(shí)現(xiàn)AI ISP功能,產(chǎn)品可以將功耗大幅地降低,對(duì)于有散熱要求的情況就會(huì)非常友好。對(duì)于分辨率,產(chǎn)品從4K一直可以支持到8K分辨率,幀率可以支持60、90、120。對(duì)于視頻顯示,在幀率比如插幀方面,知存科技可以從30幀插到60、60插到90、90插到120。對(duì)于超分,比如710,我可以超到1080p、2K、4K,包括做一些AI的ME、MC等運(yùn)動(dòng)補(bǔ)償前處理,以及后處理的去噪、寬動(dòng)態(tài)HDR等。

打個(gè)比方,當(dāng)你拿手機(jī)拍照,出來(lái)是很清晰的照片。但當(dāng)你去錄像,截屏經(jīng)常比較糊。如果有我們這顆芯片加持,大家在錄像的時(shí)候,它已經(jīng)進(jìn)行了AI插幀和AI超分,你截取的照片就會(huì)非常清晰。

我們目前在和一些行業(yè)頭部客戶做深度合作的預(yù)演,對(duì)于將來(lái)產(chǎn)品形態(tài),特別是有關(guān)視頻視覺(jué),有更加長(zhǎng)遠(yuǎn)的預(yù)演。

三、大模型、智能駕駛,將是存算一體芯片的新戰(zhàn)場(chǎng)

未來(lái)在AI芯片或者存算會(huì)是什么樣的場(chǎng)景?這幾天談得非常多的是大語(yǔ)言模型,大模型出現(xiàn)神經(jīng)網(wǎng)絡(luò)屬性及矩陣運(yùn)算的形態(tài),我們相信,一定是非常適合存算一體或者存內(nèi)計(jì)算這樣底層架構(gòu)的創(chuàng)新。相比馮·諾依曼來(lái)說(shuō),它是非常適合。我們目前的狀態(tài)是在做研究。

還有一些更加智慧的產(chǎn)品形態(tài)。大家可能在餐館里見(jiàn)到一些送餐機(jī)器人,這是比較初級(jí)的機(jī)器人;更加智能的機(jī)器人,你點(diǎn)了菜之后,它可能幫你進(jìn)行后端的處理。以上都依賴于在高效大算力芯片的支持,這在不久的將來(lái)這都可以實(shí)現(xiàn)。

還有一些類似于高級(jí)駕駛輔助系統(tǒng)ADAS等應(yīng)用,我們也在積極跟進(jìn),而且也相信這很快會(huì)成為AI芯片、存算一體芯片的一個(gè)主戰(zhàn)場(chǎng)

最后我想說(shuō),很高興看到越來(lái)越多的戰(zhàn)友和伙伴加入到AI芯片領(lǐng)域,再到我們存算一體的家庭里,我們希望把整個(gè)市場(chǎng)的蛋糕越做越大,大家都能夠做自主可控、自力更生的事情,謝謝大家!

以上是詹慕航演講內(nèi)容的完整整理。