智東西(公眾號(hào):zhidxcom)
編輯 | 韋世瑋

東西6月5日消息,近日,在落幕不久的GTIC 2021嵌入式AI創(chuàng)新峰會(huì)上,知存科技CEO紹迪博士以《存算一體AI芯片:AIoT設(shè)備的算力新選擇》為題,為大家解讀了存算一體技術(shù)如何帶來(lái)更加高效的AI計(jì)算。

為存算一體AI芯片賽道的領(lǐng)軍者,知存科技主要研發(fā)基于Flash的存算一體芯片。王紹迪談到,現(xiàn)在行業(yè)已經(jīng)進(jìn)入到了后摩爾時(shí)代,尤其當(dāng)芯片進(jìn)入到7nm5nm階段后,研發(fā)進(jìn)度放緩,芯片研發(fā)成本急劇增高,每一次迭代單個(gè)芯片成本增加1倍。

知存科技王紹迪:突破存儲(chǔ)墻瓶頸,詳解存算一體架構(gòu)優(yōu)勢(shì)
知存科技創(chuàng)始人兼CEO紹迪

但碎片化的IoT場(chǎng)對(duì)先進(jìn)工藝芯片的需求并不強(qiáng)烈,反而更青睞低成本、低功耗、易開(kāi)發(fā)的芯片。不過(guò),目前芯片都采用傳統(tǒng)的馮諾伊曼架構(gòu),最先進(jìn)的存儲(chǔ)器仍采用1X藝,所以摩爾定律走到這個(gè)階段,存儲(chǔ)器的速度很難滿(mǎn)足現(xiàn)在行業(yè)的需求。紹迪說(shuō)。

在他看來(lái),現(xiàn)在行業(yè)大多都面臨著存儲(chǔ)墻問(wèn)題,存儲(chǔ)器的數(shù)據(jù)搬運(yùn)慢、搬運(yùn)能耗大,緩存的大小和密度都很難提升。為了解決存儲(chǔ)器瓶頸的問(wèn)題,許多公司都采用了不同的方案,包括3D Xpoint、近內(nèi)存計(jì)算、近存儲(chǔ)計(jì)算和存內(nèi)計(jì)算。

其中,王紹迪認(rèn)為存算一體是最高效率的AI計(jì)算。今年知存科技發(fā)布了基于存算一體技術(shù)開(kāi)發(fā)的第二代芯片WTM2101,算力相比第一代提高10倍,主要面向智能語(yǔ)音和智能健康領(lǐng)域,AI算力達(dá)50Gops預(yù)計(jì)今年第四季度實(shí)現(xiàn)量產(chǎn)。

以下為王紹迪演講實(shí)錄整理:

一、摩爾定律發(fā)展放緩,先進(jìn)工藝芯片研發(fā)成本高昂

存算一體是新興的芯片架構(gòu),已經(jīng)研究了很長(zhǎng)時(shí)間,嵌入式AI也是一個(gè)非常新的技術(shù),最近一年內(nèi)才開(kāi)始落地。我們先來(lái)談?wù)劥嫠阋惑w芯片技術(shù)的研發(fā)背景。

爾定律一直陪伴著我們的成長(zhǎng),在過(guò)去1020年里,硬件設(shè)備的芯片每年都以?xún)杀兑陨系乃俣忍嵘?,同時(shí)芯片的成本也在降低。尤其從2000年到2010年之,摩爾定律的增長(zhǎng)速度都是很快的,符合每18個(gè)月算力提升一倍,成本降低一倍的節(jié)奏。

但自2010年之后,摩爾定律已經(jīng)逐漸放緩,我們很難再看到每過(guò)一、兩年芯片就實(shí)現(xiàn)速度翻倍,成本降低。在2011年之后,每代芯片的更迭只有接近10%的性能提升。

當(dāng)芯片進(jìn)入7nm5nm制程后,芯片的研發(fā)進(jìn)度逐漸放緩,越來(lái)越少的玩家在先進(jìn)工藝上進(jìn)行研發(fā),包括行業(yè)內(nèi)能夠做先進(jìn)工藝的代工廠只剩下三星、臺(tái)積電兩家,其它很多代工廠逐漸放棄了先進(jìn)芯片的研究節(jié)點(diǎn)。

導(dǎo)致這一現(xiàn)象的原因有幾個(gè)。芯片快速發(fā)展的最主要是商業(yè)驅(qū)動(dòng),我們投入新的工藝,到新的技術(shù)節(jié)點(diǎn)上是不是有足夠的商業(yè)回報(bào)?

知存科技王紹迪:突破存儲(chǔ)墻瓶頸,詳解存算一體架構(gòu)優(yōu)勢(shì)

設(shè)我們看現(xiàn)在新的技術(shù)節(jié)點(diǎn)推進(jìn)到了7nm,研發(fā)一個(gè)芯片需要3億美元,成本遠(yuǎn)遠(yuǎn)高于28nm萬(wàn)美元的研發(fā)成本;到5nm,研發(fā)成本又增加了50%,但是性能提升只有10%20%,不像過(guò)去一代芯片比上一代性能提升100%。

未來(lái)3nm的研發(fā)成本更高,達(dá)到6.5億美元,意味著將有40億人民幣的研發(fā)費(fèi)用放到一代芯片上。但研發(fā)新一代芯片又是否能帶來(lái)足夠的利潤(rùn)來(lái)填補(bǔ)整個(gè)投入的研發(fā)成本?

先進(jìn)工藝的研發(fā)成本越來(lái)越高,生產(chǎn)成本也在逐漸提高,5nm的芯片成本比7nm高了一倍。當(dāng)市場(chǎng)沒(méi)有足夠的利潤(rùn)支撐后,廠商就不會(huì)采用先進(jìn)工藝來(lái)生產(chǎn)芯片。

這也意味著,整個(gè)市場(chǎng)能夠真正應(yīng)用先進(jìn)芯片的廠商越來(lái)越少。

與此同時(shí),目前最先進(jìn)工藝最主要的應(yīng)用場(chǎng)景是智能手機(jī),除此之外,高性能計(jì)算也主要采用先進(jìn)工藝,其它碎片化市場(chǎng)很難采用先進(jìn)工藝。

二、單一SoC難滿(mǎn)足AIoT碎片化市場(chǎng),需建立正向生態(tài)

AIoT有很多的爆發(fā)機(jī)會(huì),如果關(guān)注AIoT費(fèi)電子領(lǐng)域,可以發(fā)現(xiàn)消費(fèi)電子近幾年有很多新形態(tài)產(chǎn)品的出貨量增速非??欤缰悄苁直?、TWS耳機(jī)(市場(chǎng))在近幾年都有著指數(shù)級(jí)別的增速,數(shù)據(jù)公司統(tǒng)計(jì)TWS耳機(jī)在2020年出貨量有4億多。

但耳機(jī)僅僅是AIoT的一個(gè)場(chǎng)景,AIoT有成千上萬(wàn)個(gè)場(chǎng)景,是不是每個(gè)場(chǎng)景都能爆發(fā)出這樣的能量呢?目前來(lái)看,智能手環(huán)和智能手表的增速很快,智能家居有潛力,AR/VR也有很大機(jī)會(huì),Facebook、蘋(píng)果、微軟等都押注在這個(gè)領(lǐng)域。這些品類(lèi)在未來(lái)會(huì)不會(huì)成為更大的市場(chǎng)?目前是未知數(shù)。但不可否認(rèn)的是,AIoT有很多的機(jī)會(huì)。

知存科技王紹迪:突破存儲(chǔ)墻瓶頸,詳解存算一體架構(gòu)優(yōu)勢(shì)

AIoT有一個(gè)特點(diǎn),它是一個(gè)碎片化市場(chǎng),這就導(dǎo)致了它的碎片化需求特別多,時(shí)需要芯片做到低成本、易開(kāi)發(fā),低功耗,難度很大。

時(shí),單一的SoC只能滿(mǎn)足有限個(gè)應(yīng)用場(chǎng)景。導(dǎo)致芯片公司在設(shè)計(jì)芯片時(shí),需要去考慮芯片到底要覆蓋什么樣的場(chǎng)景,有多大的市場(chǎng)。

不同的AIoT場(chǎng)景需求變化很大,有些場(chǎng)景需要成本極低,有些場(chǎng)景需要功耗極低。但芯片設(shè)計(jì)無(wú)法做到二者兼顧,兼顧過(guò)多導(dǎo)致冗余度增高,成本效率都會(huì)變差。

AIoT任何一個(gè)細(xì)分場(chǎng)景都需要一個(gè)好的生態(tài),之前兩位嘉賓都講到了從系統(tǒng)和算法層面AIoT態(tài)的建立,包括商湯和大華在生態(tài)建立方面也做了非常多貢獻(xiàn)。這個(gè)生態(tài)要有好用的系統(tǒng)、好用的應(yīng)用、好用的算法,同時(shí)芯片也要好用,成本足夠低,最重要的是開(kāi)發(fā)快。當(dāng)這些東西都齊備的時(shí)候,這個(gè)場(chǎng)景的場(chǎng)就會(huì)爆發(fā)起來(lái)。

例如,智能耳機(jī)市場(chǎng)在過(guò)去兩三年內(nèi)處在飛速發(fā)展階段,應(yīng)用和種類(lèi)越來(lái)越多,芯片也越來(lái)越便宜。更重要的是,TWS耳機(jī)的開(kāi)發(fā)速度很快,一款簡(jiǎn)單的TWS耳機(jī)從開(kāi)始研發(fā)到做出來(lái),只需要兩個(gè)月左右的時(shí)間。

如果一個(gè)新的場(chǎng)景不具備這三個(gè)條件中的任何一個(gè),這個(gè)市場(chǎng)就很難高速增長(zhǎng)。同時(shí),這三個(gè)條件又是互相驅(qū)動(dòng)的,首先要有合適的芯片,芯片可以運(yùn)行合適的系統(tǒng),統(tǒng)需要豐富的應(yīng)用,這樣產(chǎn)品開(kāi)發(fā)和創(chuàng)新速度都可以大幅度增速,場(chǎng)可以快速發(fā)展,市場(chǎng)發(fā)展起來(lái)之后再去驅(qū)動(dòng)統(tǒng)、應(yīng)用和芯片的迭代升級(jí)。

態(tài)需要很多的廠商去參與建立,生態(tài)也會(huì)帶來(lái)收益,很多市場(chǎng)會(huì)因為生態(tài)建立而爆發(fā)。

三、傳統(tǒng)芯片架構(gòu)面臨存儲(chǔ)墻瓶頸

說(shuō)回到我們做的事情,當(dāng)前嵌入式芯片都采用馮諾依曼構(gòu),存算一體是一種不同于馮諾依曼的新架構(gòu),過(guò)去的7-8處于快速發(fā)展階段

計(jì)算架構(gòu)和傳統(tǒng)計(jì)算架構(gòu)有非常大的不同,新計(jì)算架構(gòu)面臨著生態(tài)問(wèn)題,沒(méi)有合適的算法和系統(tǒng),而傳統(tǒng)的馮諾依曼架構(gòu)從上世紀(jì)40年代開(kāi)始就已被應(yīng)用,生態(tài)已經(jīng)非常完備。

馮諾依曼架構(gòu)為了速度越來(lái)越快,存儲(chǔ)器分級(jí)會(huì)越來(lái)越多,最簡(jiǎn)單的分級(jí)緩存、內(nèi)存、儲(chǔ)。在復(fù)中,會(huì)有8-9級(jí),越往外的存儲(chǔ)質(zhì)密度越大,速度越慢,越往內(nèi)的存儲(chǔ)密度越小,速度越快。

儲(chǔ)和內(nèi)存的工藝尺寸發(fā)展落后于邏輯工藝,存儲(chǔ)器件很難縮小,即使是最先進(jìn)的存儲(chǔ)和內(nèi)存,依然采用10nm20nm的工藝,這意味著存儲(chǔ)器的速度很難滿(mǎn)足現(xiàn)在的計(jì)算需求。

知存科技王紹迪:突破存儲(chǔ)墻瓶頸,詳解存算一體架構(gòu)優(yōu)勢(shì)

們?cè)隈T諾依曼構(gòu)中做運(yùn)算時(shí),數(shù)據(jù)需要在多級(jí)儲(chǔ)間搬運(yùn)。內(nèi)部緩存的速度快,但是容量小,當(dāng)數(shù)據(jù)量很大時(shí),數(shù)據(jù)會(huì)跑到外面的存儲(chǔ)器當(dāng)中,但外面的存儲(chǔ)器速度相對(duì)較慢。

當(dāng)前芯片的計(jì)算效率很高,不管采用28nm還是5nm。但是存儲(chǔ)、內(nèi)存、緩存的延遲和功耗遠(yuǎn)高于計(jì)算單元,導(dǎo)致儲(chǔ)墻問(wèn)題。

從功耗對(duì)比圖可以看出來(lái),常用運(yùn)算的功耗在0.xx pJ,緩存和內(nèi)存讀取數(shù)據(jù)的功耗達(dá)到了100pJ2000pJ。并且讀取功耗隨著存儲(chǔ)器密度增大而增大。

計(jì)算中需要的數(shù)據(jù)量越來(lái)越多,數(shù)據(jù)量的需求每年都呈幾何倍數(shù)增長(zhǎng),但是存儲(chǔ)器的速度很難提高。尤其在現(xiàn)在的高算力和大數(shù)據(jù)時(shí)代,處理器的核越來(lái)越多,但是存儲(chǔ)器帶寬提升很少,每個(gè)核使用的帶寬越來(lái)越小,突破存儲(chǔ)墻瓶頸顯得尤為重要。

四、存算一體架構(gòu)的優(yōu)勢(shì),模擬計(jì)算更高效

過(guò)去十年很多公司為了解決存儲(chǔ)墻瓶頸的問(wèn)題,采用了以存儲(chǔ)/內(nèi)存為中心的計(jì)算架構(gòu)。將芯片、內(nèi)存、存儲(chǔ)兩兩組合拉近,減少數(shù)據(jù)搬運(yùn)距離,都可以解決一部分問(wèn)題。

知存科技王紹迪:突破存儲(chǔ)墻瓶頸,詳解存算一體架構(gòu)優(yōu)勢(shì)

比如美光和英特爾推出3D Xpoint儲(chǔ)器,結(jié)合存儲(chǔ)和內(nèi)存,這個(gè)存儲(chǔ)器速度比內(nèi)存稍微慢一些但比盤(pán)快,密度比內(nèi)存大但比存儲(chǔ)小,這是一個(gè)儲(chǔ)型的內(nèi)存(Storage Class Memory。

另外,像三星、臺(tái)灣力晶推出DRAM和邏輯芯片的3D Stacking芯片,可以大幅度提高內(nèi)存和芯片之間的帶寬。

近存儲(chǔ)計(jì)算也是一種方案,在硬盤(pán)中增加一個(gè)計(jì)算芯片,釋放CPU的計(jì)算壓力。

存算一體屬于其中最特別的一種方式,相對(duì)于其它三種計(jì)算方式,存算一體計(jì)算方式直接采用存儲(chǔ)器單元做運(yùn)算,而不是把存儲(chǔ)器和運(yùn)算芯片的距離拉近,計(jì)算更為高效。

存算一體可采用模擬計(jì)算,模擬計(jì)算近幾年的發(fā)展很快,它的一個(gè)特點(diǎn)是可以直接用存儲(chǔ)器單元完成運(yùn)算,可采用不同的存儲(chǔ)器介質(zhì),例如SRAMFlash、RRAM。

擬計(jì)算把向量乘矩陣的運(yùn)算映射到存儲(chǔ)器當(dāng)中,直接用存儲(chǔ)器完成向量乘矩陣的運(yùn)算,整個(gè)運(yùn)算過(guò)程中沒(méi)有乘法器、加法器以及其他邏輯計(jì)算單元參與。

五、3年量產(chǎn)存算一體芯片,用Flash做運(yùn)算

今年是知存科技創(chuàng)始團(tuán)隊(duì)研發(fā)存算一體技術(shù)的第九。早期從20122016年,當(dāng)時(shí)存算一體沒(méi)有主流的方向,沒(méi)有主流架構(gòu),創(chuàng)始團(tuán)隊(duì)采取Flash存算一體進(jìn)行流片嘗試,也是個(gè)實(shí)驗(yàn)科學(xué)。

2016年,我們完成了第七次流片,也是存算一次芯片的首次驗(yàn)證。2017獲得近四千萬(wàn)的項(xiàng)目投資后,公司成立,專(zhuān)注于存算一體技術(shù)開(kāi)發(fā)。

真正把實(shí)驗(yàn)室的技術(shù)做到產(chǎn)品級(jí),中間有非常多坎坷的路要走,從2017年底開(kāi)始做存算一體產(chǎn)業(yè)化,到2020發(fā)布第一個(gè)存算一體產(chǎn)品,再到今年把第一個(gè)存算一體芯片量產(chǎn),同時(shí)推出第二代產(chǎn)品經(jīng)歷過(guò)十多次芯片的迭代。

知存科技王紹迪:突破存儲(chǔ)墻瓶頸,詳解存算一體架構(gòu)優(yōu)勢(shì)

過(guò)去九年們嘗試過(guò)很多存儲(chǔ)器,包括新型存儲(chǔ)器,最終選擇Flash的原因是——它是現(xiàn)在非常成熟、密度高、運(yùn)算效率也是最高存儲(chǔ)器之一。

態(tài)硬盤(pán)、USB盤(pán)、ROM、嵌入式存儲(chǔ)都使用的是浮柵晶體管。存算一體技術(shù)用浮晶體管存儲(chǔ)數(shù)據(jù)又用它完成乘加法運(yùn)算。浮柵晶體管類(lèi)似MOS晶體管,可以像用MOS晶體管處理模擬信號(hào)一樣完成信號(hào)線(xiàn)性放大和累加。同時(shí)浮柵晶體管可以被編程,從而改變其信號(hào)放大能力。

基于這種做法,等同于將Flash儲(chǔ)器的每個(gè)存儲(chǔ)單元都變成一個(gè)乘加法器,這樣意味著一個(gè)2Mbit的小Flash陣列變成了兩百萬(wàn)個(gè)乘加法器,達(dá)到百萬(wàn)級(jí)的并行算力。

六、第二代存算一體芯片將于今年Q4量產(chǎn)

們的第二代芯片WTM2101基于最先進(jìn)eFlash藝設(shè)計(jì),用于嵌入式場(chǎng)景,包括智能語(yǔ)音、智能健康、輕量級(jí)視覺(jué)等場(chǎng)景。

WTM2101芯片的功耗在幾十微安到十幾毫安,算力最大50Gops,最大支持1.8M權(quán)重參數(shù),現(xiàn)在基于該芯片移植了很多商用算法,將在今年第四季度量產(chǎn)。

這個(gè)芯片可用于VAD喚醒、語(yǔ)音識(shí)別、通話(huà)降噪、紋識(shí)別等,可以應(yīng)用在很多嵌入式領(lǐng)域中,包括健康監(jiān)測(cè),以及極低功耗(毫安級(jí))的視覺(jué)識(shí)別。近一年來(lái),我們發(fā)現(xiàn)有很多過(guò)去不存在的應(yīng)用場(chǎng)景,說(shuō)明AIoT創(chuàng)新在加速,場(chǎng)在增大。

知存科技王紹迪:突破存儲(chǔ)墻瓶頸,詳解存算一體架構(gòu)優(yōu)勢(shì)

們的芯片配有深度學(xué)習(xí)網(wǎng)絡(luò)映射工具WITIN Mapper,可以將深度學(xué)習(xí)算法自動(dòng)映射到存算一體矩陣當(dāng)中,然后按順序執(zhí)行運(yùn)算。單次執(zhí)行最多包含40個(gè)矩陣,過(guò)多次執(zhí)行可以運(yùn)行更大規(guī)模的網(wǎng)絡(luò),例如經(jīng)映射了一個(gè)100層的網(wǎng)絡(luò),每層網(wǎng)絡(luò)的運(yùn)算只需要一個(gè)存算一體指令。

今后幾年,我會(huì)和合作伙伴緊密配合,一起推動(dòng)存算一體的AIoT態(tài)。謝謝大家!

以上是王紹迪演講內(nèi)容的完整整理。