智東西(公眾號(hào):zhidxcom)
編輯 | 信儀

GTIC 2020全球AI芯片創(chuàng)新峰會(huì)剛剛在北京圓滿(mǎn)收官!在這場(chǎng)全天座無(wú)虛席、全網(wǎng)直播人數(shù)逾150萬(wàn)人次的高規(guī)格AI芯片產(chǎn)業(yè)峰會(huì)上,19位產(chǎn)學(xué)界重磅嘉賓從不同維度分享了對(duì)中國(guó)AI芯片自主創(chuàng)新和應(yīng)用落地的觀察與預(yù)判。

在峰會(huì)下午場(chǎng),賽靈思人工智能業(yè)務(wù)資深總監(jiān)、前深鑒科技CEO姚頌發(fā)表了題為《AI芯片:新格局與新出路》的演講。

賽靈思姚頌:數(shù)字AI芯片進(jìn)步趨緩,顛覆式創(chuàng)新難 | GTIC2020▲賽靈思人工智能業(yè)務(wù)資深總監(jiān)姚頌

從兩年前登臺(tái)GTIC 2018峰會(huì)至今,姚頌經(jīng)歷了全球FPGA龍頭賽靈思并購(gòu)深鑒科技、AMD收購(gòu)賽靈思兩個(gè)大事件,此次以全新身份出席GTIC峰會(huì)的姚頌,不再作為一家創(chuàng)業(yè)公司的代表,因而從相對(duì)更為中立的角度輸出對(duì)AI芯片行業(yè)的看法。

在姚頌看來(lái),目前數(shù)字AI芯片進(jìn)步趨緩,顛覆式創(chuàng)新難,AI芯片最重要解決的是寬帶不足的問(wèn)題,軟件生態(tài)才是AI芯片的核心壁壘,他認(rèn)為未來(lái)AI芯片行業(yè)最終將會(huì)形成“云端相對(duì)統(tǒng)一,終端相對(duì)垂直”的競(jìng)爭(zhēng)格局。

以下為姚頌演講實(shí)錄整理:

一、 AI和芯片互相需要,算力仍有很大提升空間

姚頌認(rèn)為,AI和芯片緊密相連,AI需要芯片,芯片需要AI。

從背景上來(lái)講,例如反向傳播等算法在上世紀(jì)80年代就已經(jīng)出現(xiàn)了,現(xiàn)在的一些神經(jīng)網(wǎng)絡(luò)與上世紀(jì)90年代Yann LeCun教授做的手寫(xiě)數(shù)字識(shí)別幾乎沒(méi)有本質(zhì)上的區(qū)別,由此可見(jiàn)很多算法在上世紀(jì)已經(jīng)全部具備了。

直到最近幾年,行業(yè)內(nèi)才感覺(jué)到AI的爆發(fā),才感覺(jué)到芯片有這么強(qiáng)的需求。2012年以后,業(yè)內(nèi)在算法方面看到突破,看到深度學(xué)習(xí)能夠發(fā)揮很大的作用。

其中有一個(gè)原因在于,英偉達(dá)當(dāng)時(shí)在2017年、2018年著力推進(jìn)生態(tài)系統(tǒng),搭了很多芯片,但芯片的性能并沒(méi)有太多實(shí)質(zhì)性的增長(zhǎng),這令英偉達(dá)有一段時(shí)間陷入低谷中。在這個(gè)過(guò)程中,英偉達(dá)更換了一位首席科學(xué)家,最終等到了春天。

有一個(gè)很明顯的例子,2012年谷歌的吳恩達(dá)和Jeff Dean做貓臉識(shí)別項(xiàng)目,用了1000臺(tái)服務(wù)器、16核CPU,同期ImageNet用更少的服務(wù)器完成了相同的事情。至此,人們開(kāi)始充分把深度學(xué)習(xí)隨著數(shù)據(jù)增長(zhǎng)性能越來(lái)越好的特點(diǎn)發(fā)揮出來(lái)。

人工智能是將算法、數(shù)據(jù)和算力結(jié)合起來(lái)才有今天,而不是單獨(dú)一點(diǎn)就可以推進(jìn)的,因此如今人工智能的發(fā)展要感謝各種基礎(chǔ)設(shè)施、網(wǎng)絡(luò)、存儲(chǔ)、計(jì)算等的進(jìn)步。

另一方面,整個(gè)半導(dǎo)體行業(yè)的進(jìn)展由新的應(yīng)用驅(qū)動(dòng)和引領(lǐng)。比如最開(kāi)始的雷達(dá),后來(lái)的大型機(jī)、小型機(jī)、Mobile,現(xiàn)在的AI、IoT,這些行業(yè)都有很大的新的應(yīng)用需求,也因此需要做新的芯片滿(mǎn)足這些行業(yè)的需求,這也引領(lǐng)了AI芯片的出現(xiàn)。

2012年Learning出現(xiàn)一些突破,2014年曠視、商湯等公司成立,最近AI在很多領(lǐng)域都有突破,在人臉識(shí)別、自動(dòng)駕駛等領(lǐng)域也有了非常多的應(yīng)用,行業(yè)對(duì)芯片有了更大更新的需求,因此目前也有不少AI芯片出現(xiàn)。

賽靈思姚頌:數(shù)字AI芯片進(jìn)步趨緩,顛覆式創(chuàng)新難 | GTIC2020▲AI芯片在計(jì)算能力上還有很大的進(jìn)步空間

從2012年到2020年,從AlexNet到最新的ImageNet,過(guò)去8年里,AI芯片算法效率提升了44倍,同樣實(shí)現(xiàn)90%的精確度,計(jì)算量只有原來(lái)的1/40,而計(jì)算性能需求卻翻了幾十萬(wàn)倍甚至數(shù)百萬(wàn)倍。以AlphaGo Zero舉例,該算法用了1750億個(gè)參數(shù),有非常龐雜的神經(jīng)網(wǎng)絡(luò),對(duì)算力的需求還需要非常多倍數(shù)的提升。

因此當(dāng)前業(yè)界對(duì)AI芯片的算力需求還有很大的提升空間,絕不僅僅是現(xiàn)在看到很多公司出來(lái)做AI芯片,這個(gè)事情就結(jié)束了。

二、 AI芯片最需解決的是寬帶問(wèn)題

緊接著,姚頌談及對(duì)行業(yè)現(xiàn)狀的看法。他說(shuō),AI芯片這個(gè)詞用得特別泛,AI領(lǐng)域本身就特別寬泛,有一小部分才是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)中的一小部分才是深度學(xué)習(xí),深度學(xué)習(xí)天然切分為訓(xùn)練和推理兩個(gè)階段,其中有數(shù)不過(guò)來(lái)的各種神經(jīng)網(wǎng)絡(luò)。

一個(gè)AI芯片可以指代的東西有很多,因此這是一個(gè)很寬泛的概念,按稍嚴(yán)格的分類(lèi),它可以分成訓(xùn)練、推理兩個(gè)階段,以及云端、終端兩個(gè)應(yīng)用場(chǎng)景。大家目前基本不在終端做訓(xùn)練,因此終端的場(chǎng)景象限基本是空的。

賽靈思姚頌:數(shù)字AI芯片進(jìn)步趨緩,顛覆式創(chuàng)新難 | GTIC2020▲AI芯片分類(lèi):根據(jù)AI的階段與應(yīng)用場(chǎng)景

AI芯片核心解決的是什么問(wèn)題?去堆并行算力?實(shí)際并不是。

谷歌TPU第一代的論文中寫(xiě)道,其芯片最開(kāi)始是為了自己設(shè)計(jì)的GoogLeNet做的優(yōu)化,CNN0的部分就是谷歌自己設(shè)計(jì)的Inception network,谷歌設(shè)計(jì)的峰值性能是每秒92TeraOps,而這個(gè)神經(jīng)網(wǎng)絡(luò)能跑到86,數(shù)值非常高;但是對(duì)于谷歌不太擅長(zhǎng)的LSTM0,其性能只有3.7,LSTM1的性能只有2.8,原因在于它整個(gè)的存儲(chǔ)系統(tǒng)的帶寬其實(shí)不足以支撐跑這樣的應(yīng)用,因而造成了極大的算力浪費(fèi)。

賽靈思姚頌:數(shù)字AI芯片進(jìn)步趨緩,顛覆式創(chuàng)新難 | GTIC2020▲AI芯片最重要解決的是帶寬不足的問(wèn)題

AI芯片最重要解決的問(wèn)題核心是帶寬不足的問(wèn)題,其中一種最粗暴且奢侈的方式就是用大量的片上SRAM(靜態(tài)隨機(jī)存取存儲(chǔ)器),比如原來(lái)寒武紀(jì)用36MB DRAM做DianNao,深鑒科技曾用10.13MB SRAM做EIE,TPU采用過(guò)28MB SRAM。

而將這種工程美學(xué)發(fā)揮到中最“殘暴”的公司,叫做Cerebras,它把一整個(gè)Wafer只切一片芯片,有18GB的SRAM,所有的數(shù)據(jù)、模型都存在片上,因此其性能爆棚。

當(dāng)然這種方式是非常奢侈的,Cerebras要為它單獨(dú)設(shè)計(jì)解決制冷、應(yīng)力等問(wèn)題,單片芯片的成本就在1百萬(wàn)美元左右,對(duì)外一片芯片賣(mài)500美元,這一價(jià)格非常高昂。因此業(yè)內(nèi)就需要用微架構(gòu)等其他方式解決這一問(wèn)題。

業(yè)內(nèi)常用的有兩種解決方式:

一是在操作時(shí)加一些buffer,因?yàn)樯窠?jīng)網(wǎng)絡(luò)是一個(gè)雖然并行,但層間又是串行的結(jié)構(gòu)。把前一層的輸出buffer住,或把它直接用到下一層作為輸入。

二是在操作時(shí)做一些切塊,因?yàn)樯窠?jīng)網(wǎng)絡(luò)規(guī)模比較大,每次將它切一小部分,比如16X16,把切出來(lái)這一塊的計(jì)算一次性做完,在做這部分計(jì)算的時(shí)候同步開(kāi)始讀取下一塊的數(shù)據(jù),讓這件事像流水線(xiàn)一樣串起來(lái),就可以掩蓋掉很多存儲(chǔ)、讀取的延遲。

現(xiàn)在在數(shù)字電路層面,業(yè)內(nèi)更多在做一些架構(gòu)的更新,根據(jù)不同的應(yīng)用需求做架構(gòu)的設(shè)計(jì)。

三、數(shù)字AI芯片顛覆式創(chuàng)新難

在談到AI芯片產(chǎn)業(yè)特點(diǎn)時(shí),姚頌說(shuō),首先AI芯片的概念非常寬泛,所以它并不一定是特別難的事。

賽靈思姚頌:數(shù)字AI芯片進(jìn)步趨緩,顛覆式創(chuàng)新難 | GTIC2020▲數(shù)字AI芯片產(chǎn)業(yè)特點(diǎn)

設(shè)計(jì)一顆特別通用的芯片很難,設(shè)計(jì)CPU和GPU同樣很難,但是如果只做某一顆芯片,只支持某一個(gè)算法和某幾個(gè)算法,其實(shí)并不太難,尤其是對(duì)算力的需求很低的時(shí)候,技術(shù)難度就沒(méi)有那么大了。以至于現(xiàn)在對(duì)于一些簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)的加速,直接付錢(qián)給芯原微電子、GUC等機(jī)構(gòu),都可以幫助做前端定制。因此對(duì)于AI芯片還是要辯證看待,不同的東西難度也不同。

第二,高集成度對(duì)于終端市場(chǎng)來(lái)說(shuō)非常重要,這是所有做AI起家的公司都會(huì)認(rèn)識(shí)到的一點(diǎn)。

舉例來(lái)說(shuō),如果廠(chǎng)商想要將AI芯片做到攝像頭里面,ISP怎么做、SoC誰(shuí)來(lái)做?將AI芯片做到耳機(jī)里面,是語(yǔ)音喚醒的AI部分最終集成藍(lán)牙做成SoC,還是藍(lán)牙的部分集成AI做成SoC?這些都是要考慮的問(wèn)題。

對(duì)于終端市場(chǎng)來(lái)說(shuō),一定是高集成度的方式比分立器件的方式占優(yōu)勢(shì),所以對(duì)于終端市場(chǎng)一定要考慮全面,而不能僅僅考慮AI這一個(gè)IP。

第三,軟件生態(tài)才是AI芯片的核心壁壘。

英偉達(dá)創(chuàng)始人兼CEO黃仁勛最近開(kāi)發(fā)布會(huì)時(shí)說(shuō),英偉達(dá)已經(jīng)有180萬(wàn)的開(kāi)發(fā)者、30萬(wàn)個(gè)開(kāi)源項(xiàng)目,99.99%的初學(xué)者在學(xué)AI時(shí)一定會(huì)買(mǎi)一塊GPU,下載一些Github上的開(kāi)源項(xiàng)目做試驗(yàn)。這是英偉達(dá)最終的一個(gè)護(hù)城河,它會(huì)有源源不斷的開(kāi)發(fā)者加入,開(kāi)發(fā)者又會(huì)為生態(tài)貢獻(xiàn)新的項(xiàng)目,如果開(kāi)發(fā)者沒(méi)有達(dá)到一定數(shù)量,則很難突破AI芯片的生態(tài)壁壘。

姚頌說(shuō),這與滴滴、淘寶以及其他互聯(lián)網(wǎng)平臺(tái)是一個(gè)邏輯,一邊是商家一邊是用戶(hù),一邊是開(kāi)發(fā)者一邊是使用者,這是一個(gè)閉環(huán)軟件生態(tài)的邏輯,是最核心的壁壘。

在單純的數(shù)字芯片領(lǐng)域、單純的學(xué)術(shù)研究做微架構(gòu)迭代的領(lǐng)域,數(shù)字集成電路領(lǐng)域從2016年開(kāi)始至今沒(méi)有見(jiàn)到特別大的創(chuàng)新。

賽靈思姚頌:數(shù)字AI芯片進(jìn)步趨緩,顛覆式創(chuàng)新難 | GTIC2020▲2016年至2019年AI芯片能效指標(biāo)變化

上圖中顯示的是從2016年至2019年的AI芯片能效指標(biāo)變化,“方形”是實(shí)際量產(chǎn)的產(chǎn)品。這個(gè)圖越往上代表性能越好,越往右是功耗越高,因此在這張圖中,越偏向左上角意味著性能越好。

而實(shí)際上大量的“方形”都落在了圖的右上角,處于1~10TOPs/W的兩條線(xiàn)之間,現(xiàn)在性能比較好的產(chǎn)品基本上在1~2TOPs/W的區(qū)間內(nèi),這幾年在量產(chǎn)級(jí)別上沒(méi)有見(jiàn)到特別大的變化。行業(yè)內(nèi)有很多工程在往產(chǎn)品方向走,但是通用的微架構(gòu)迭代的進(jìn)步已經(jīng)趨緩。

此外,姚頌一直在關(guān)注的一個(gè)重點(diǎn)在于,芯片越來(lái)越貴,導(dǎo)致了一個(gè)較大的問(wèn)題:業(yè)內(nèi)原來(lái)很期待在行業(yè)中出現(xiàn)一個(gè)“破壞性創(chuàng)新”的事,也就意味著想要用很低廉、便捷的方式實(shí)現(xiàn)原來(lái)高端產(chǎn)品的能力。比如業(yè)內(nèi)希望AI芯片以低價(jià)、便捷的方式實(shí)現(xiàn)GPU的功能,而現(xiàn)在看起來(lái),實(shí)現(xiàn)這一愿景很困難。

在如今所處的時(shí)間點(diǎn),摩爾定律還沒(méi)有死掉但是越來(lái)越貴。一顆7nm芯片的流片需要3000萬(wàn)美元左右,再加上IP、人力的成本,甚至需要大幾千萬(wàn)甚至是上億美元,需要賣(mài)出很大的量才能收回成本。對(duì)于初創(chuàng)公司來(lái)說(shuō),這是一個(gè)難點(diǎn)。

賽靈思姚頌:數(shù)字AI芯片進(jìn)步趨緩,顛覆式創(chuàng)新難 | GTIC2020▲數(shù)字AI芯片可能不存在顛覆式創(chuàng)新的大機(jī)會(huì)

有些芯片公司,比如壁仞科技,融了很多資金,能夠做兩顆、三顆甚至更多芯片;而有的公司如果沒(méi)有資金,則無(wú)法參與到行業(yè)正面戰(zhàn)場(chǎng)的競(jìng)爭(zhēng)中來(lái)。

這個(gè)市場(chǎng)已經(jīng)發(fā)生變化,隨著摩爾定律的變化,在正面戰(zhàn)場(chǎng)上,我們得想一些其他的辦法,可能不能單純依靠架構(gòu)的優(yōu)勢(shì)取得幾倍的性能提升,業(yè)界也需要找到一些新的底層技術(shù)迭代。

比如做存內(nèi)計(jì)算的知存科技就屬于這一類(lèi),它將計(jì)算和存儲(chǔ)放在一起,將計(jì)算放在Flash中,就可以減少存儲(chǔ)的搬運(yùn),突破卡在存儲(chǔ)的瓶頸;再比如法國(guó)有一家叫UpMem的企業(yè)把計(jì)算放到DRAM中,還有比如普林斯頓大學(xué)教授的小組把計(jì)算放到SRAM中。

另一種技術(shù)路線(xiàn),光計(jì)算,也是業(yè)內(nèi)非??春玫姆较?。用兩束光的光強(qiáng)表示兩個(gè)數(shù)值,通過(guò)一個(gè)干涉儀發(fā)生干涉行為,它出射的強(qiáng)度就是兩個(gè)光強(qiáng)相乘,再乘以他們相位差的cos(余弦),這樣就相當(dāng)于用光的干涉直接完成了乘法,這種操作速度很快、功耗也很低,但也有很大的問(wèn)題。

因?yàn)樗械奈锢砥骷疾皇抢硐氲钠骷饷拷?jīng)過(guò)一個(gè)干涉儀可能要損耗千分之一的強(qiáng)度,如果想要做一個(gè)64X64的陣列或是128X128的陣列,每做一個(gè)計(jì)算的過(guò)程中,每束光要通過(guò)幾百個(gè)干涉器,數(shù)值就變了。

目前國(guó)際最好的水平也只能在64X64陣列上保證8bit信息量是不變的,因此這種方式無(wú)法在高精度、大陣列的要求下施行,也從而沒(méi)辦法實(shí)現(xiàn)特別大的性能,因此這也是一種還在開(kāi)發(fā)中的路線(xiàn)。

四、云端統(tǒng)一終端垂直的新格局

放眼AI芯片未來(lái)的新路線(xiàn)和新格局,姚頌認(rèn)為,一方面,行業(yè)短期內(nèi)不用太為新的技術(shù)路線(xiàn)擔(dān)憂(yōu),在3~5年內(nèi)數(shù)字集成電路依舊是主流,光計(jì)算完全完善還需要時(shí)間。

另一方面,如今被多次提及的量子計(jì)算,距離商用的階段還很遠(yuǎn)。現(xiàn)在全球最好的做量子計(jì)算的水平能達(dá)到50~60 qubit,如果想用它來(lái)形成分子模擬等簡(jiǎn)單的應(yīng)用,大概需要300~400 qubit,還有五年左右的時(shí)間要走。如果想用新技術(shù)實(shí)現(xiàn)通用的做法,比如量子計(jì)算的解密AES,按照現(xiàn)在的算法,大概需要300萬(wàn)個(gè)qubit才能完成。因此姚頌不認(rèn)為量子計(jì)算在20年內(nèi)能在大范圍應(yīng)用中占據(jù)較大優(yōu)勢(shì),短期內(nèi),產(chǎn)業(yè)還是以數(shù)字集成電路為主。

這其中也有不同的路線(xiàn),其中一個(gè)在于,有很多緊密結(jié)合應(yīng)用的芯片出現(xiàn)了,換句話(huà)說(shuō),很多芯片公司的客戶(hù)開(kāi)始做芯片了。

比如百度和三星合作研發(fā)了14nm工藝“昆侖”芯片,阿里開(kāi)發(fā)了“含光800”深度學(xué)習(xí)NPU,還有很多計(jì)算類(lèi)芯片的開(kāi)發(fā)計(jì)劃,包括字節(jié)跳動(dòng)、騰訊、快手等都投資或孵化了相關(guān)的芯片公司。這其實(shí)是對(duì)第三方芯片公司的沖擊,也確實(shí)是未來(lái)行業(yè)發(fā)展的重要路徑,當(dāng)應(yīng)用更明確的時(shí)候,芯片的設(shè)計(jì)難度就會(huì)相應(yīng)降低。

云端市場(chǎng)現(xiàn)在看起來(lái)可能是最大的單一市場(chǎng),但競(jìng)爭(zhēng)確實(shí)相對(duì)激烈。

第一,很多互聯(lián)網(wǎng)公司自己在做云端市場(chǎng);第二,英偉達(dá)這樣的巨頭占了云端市場(chǎng)絕大部分的市場(chǎng)份額;第三,英特爾收購(gòu)了Habana,AMD與賽靈思走到一起,還有很多巨頭公司想擠入這一市場(chǎng);第四,有很多創(chuàng)業(yè)公司正準(zhǔn)備進(jìn)入這一市場(chǎng)。

云端市場(chǎng)的接口相對(duì)統(tǒng)一,需求相對(duì)統(tǒng)一,需要的通用性非常高,最后可能會(huì)是一個(gè)競(jìng)爭(zhēng)激烈但最終走向相對(duì)統(tǒng)一的市場(chǎng)。

在終端市場(chǎng),有很多可以做的事情。舉例來(lái)說(shuō),小蟻科技創(chuàng)始人達(dá)聲蔚創(chuàng)立了芯片公司齊感科技,面向終端小攝像頭做加AI識(shí)別的芯片,售價(jià)僅幾元錢(qián)一個(gè),他們?cè)谑杖肷弦呀?jīng)做得不錯(cuò)。在不同的市場(chǎng),如果廠(chǎng)商能夠做到高集成度,并能夠完整滿(mǎn)足這個(gè)市場(chǎng)方向的需求,實(shí)際上每個(gè)方向都是足夠能支撐1~2家上市公司的。

其中不同的場(chǎng)景有不同的需求,差異很大。比如在無(wú)線(xiàn)耳機(jī)市場(chǎng),廠(chǎng)商要做的是一個(gè)簡(jiǎn)單的語(yǔ)音喚醒,要集成藍(lán)牙;如果廠(chǎng)商要做智能攝像機(jī),則要做的是CNN,這就與簡(jiǎn)單的語(yǔ)音喚醒所需要的加速完全不同。因此必須把場(chǎng)景、SoC都定義清楚,集成度做高,滿(mǎn)足一整個(gè)行業(yè)方案的需求,這就做得非常垂直。

賽靈思姚頌:數(shù)字AI芯片進(jìn)步趨緩,顛覆式創(chuàng)新難 | GTIC2020▲AI芯片市場(chǎng)格局:云端統(tǒng)一,終端垂直

在姚頌看來(lái),最終行業(yè)的格局上,云端還是需要相對(duì)統(tǒng)一,如果創(chuàng)業(yè)公司要進(jìn)入這一領(lǐng)域,需要拿到非常多的資源,才能參與到“正面戰(zhàn)場(chǎng)”的競(jìng)爭(zhēng)。

在終端上,不同的垂直領(lǐng)域都非常有機(jī)會(huì),比如車(chē)、智能視頻、智能語(yǔ)音等領(lǐng)域,這要求廠(chǎng)商做得非常深,從算法、軟件、芯片、硬件上使整個(gè)方案全部打通,只有這樣才能在這個(gè)市場(chǎng)上形成比較強(qiáng)的競(jìng)爭(zhēng)力。

最終,AI芯片領(lǐng)域會(huì)形成云端相對(duì)統(tǒng)一,終端相對(duì)垂直的格局。

以上是姚頌演講內(nèi)容的完整整理。除姚頌外,在本屆GTIC 2020 AI芯片創(chuàng)新峰會(huì)期間,清華大學(xué)微納電子系尹首一教授,比特大陸、地平線(xiàn)、燧原科技、黑芝麻智能、壁仞科技、光子算數(shù)、知存科技、億智電子、豪微科技等芯片創(chuàng)企,Imagination、安謀中國(guó)等知名IP供應(yīng)商,全球EDA巨頭Cadence,以及北極光創(chuàng)投、中芯聚源等知名投資機(jī)構(gòu),分別分享了對(duì)AI芯片產(chǎn)業(yè)的觀察與思考。如感興趣更多嘉賓演講的核心干貨,歡迎關(guān)注芯東西后續(xù)推送內(nèi)容。