智東西(公眾號:zhidxcom
| 心緣

阿里的武俠情結(jié),已經(jīng)延續(xù)到芯片中。

阿里巴巴2019云棲大會開幕首日,平頭哥發(fā)布阿里巴巴第一款芯片含光800,號稱全球性能最強的云端AI推理芯片性能及能效比均全球第一。

含光,正是《列子·湯問》中孔周三大神劍之一。

至此,平頭哥集齊AI芯片(含光800)、高性能處理器IP(玄鐵系列)和一站式芯片設(shè)計平臺(無劍SoC平臺),端云一體全棧芯片產(chǎn)品家族的雛形已然顯現(xiàn)。

阿里巴巴CTO張建鋒說,含光芯片是萬里長征的第一步,阿里今后會成為一家真正軟硬件一體化協(xié)同發(fā)展的科技公司。

不過,主論壇僅簡介含光芯片的性能,芯片的詳細參數(shù)、頂層架構(gòu)設(shè)計圖、阿里關(guān)于芯片布局的思考等細節(jié),都在當日下午的分論壇上一一揭曉。

在云棲大會首日下午的平頭哥生態(tài)論壇上,平頭哥陣營首次亮相,不僅大秀產(chǎn)品進展,官宣IP聯(lián)盟和發(fā)布《云端設(shè)計白皮書》,還攜手清微智能、云天勵飛、炬芯、奉加微、聯(lián)盛德、艾派克、博雅鴻圖等公司連發(fā)7款基于玄鐵處理器的芯片。當日,天貓精靈與平頭哥合作研發(fā)的智能語音芯片也正式發(fā)布,將用于即將推出的天貓精靈音箱中。

會后,平頭哥研究員孟建熠,平頭哥AI芯片負責人驕旸,清微智能首席科學家、清華大學微電子所副所長尹首一教授,云天勵飛研發(fā)副總裁李愛軍,炬芯科技董事長&CEO周正宇等接受智東西等媒體的采訪,對含光芯片的核心優(yōu)勢,它在微架構(gòu)設(shè)計上做的創(chuàng)新,平頭哥三大產(chǎn)品系列的進展、未來計劃和生態(tài)構(gòu)建等問題一一予以解答。

一、上古神劍,高端芯片

造芯,頭件大事就是起名字。

國外有英特爾青睞周邊的山川河流,AMD曾鐘情于F1賽道;國內(nèi)華為對高山和古籍情有獨鐘,紫光展銳看上了動植物所承載的意象,而平頭哥則繼承了馬云對武俠文化的熱愛,玄鐵、無劍、含光三芯片產(chǎn)品連發(fā),每款都是傳說中的利劍。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

含光,上古三大神劍之一?!读凶印珕枴分?,孔周稱其“視之不可見,運之不知有。其所觸也,泯然無際,經(jīng)物而物不覺?!奔纯床灰?、感覺不到,劃過身體也不疼,正如含光800帶來的無形卻強勁的算力。

至于為何從800開始命名,平頭哥AI芯片負責人驕旸說,其實他們最開始想給芯片取名v1.0,后來參考業(yè)內(nèi)其他產(chǎn)品的命名邏輯,800、900代表高端系列,600代表中端系列,200、300代表低端系列。以后平頭哥也會做中端和低端芯片產(chǎn)品。

據(jù)阿里巴巴CTO張建鋒介紹,這款芯片從設(shè)計、驗證到流片,僅用一年半的時間。

二、1顆含光800=10顆圖像GPU

含光800采用臺積電12nm制程工藝,含170億晶體管,支持PCIe 4.0和單機多卡,今年第四季度開始量產(chǎn)。

在芯片測試標準平臺Resnet 50上,含光800的具體分數(shù)為:每秒處理78563張圖片,能效比達500 IPS/W。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

與業(yè)界幾款領(lǐng)先的云端推理芯片相比,含光800的性能大約是第二名的4-5倍,其能效比約是第二名的3.3倍。

目前含光800應(yīng)用于阿里巴巴內(nèi)部核心業(yè)務(wù)中。

在杭州城市大腦的圖像處理業(yè)務(wù)測試中,1顆含光800的算力相當于10顆通用GPU。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

根據(jù)現(xiàn)場演示,杭州城市大腦實時處理主城區(qū)交通,需用40顆傳統(tǒng)GPU,延時為300ms,單路視頻功耗2.8W;而使用含光800僅需4顆,延時降至150ms,單路視頻功耗1W,有效節(jié)約了硬件和時間成本。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

再比如,拍立淘商品庫每天新增10億商品圖片,使用傳統(tǒng)GPU算力識別需1小時,而使用含光800可將時間縮至5分鐘,搜索效率提升12倍。

此外,基于含光800AI云服務(wù)也正式上線。相比傳統(tǒng)GPU算力,性價比提升100%。

這意味著,受限于算力瓶頸的企業(yè)可通過阿里云,在含光800上更高效地運行更復雜、更先進的算法。

三、高性能背后,芯片架構(gòu)創(chuàng)新與算法通用性

那么,含光800如何實現(xiàn)如此高的圖像處理能力,高性能的背后又有哪些創(chuàng)新?

驕旸告訴智東西,阿里巴巴算法團隊將算法中的一些通用特征提取出來,幫助含光800芯片實現(xiàn)架構(gòu)的創(chuàng)新。

1、芯片架構(gòu)設(shè)計優(yōu)化方向

過去一年,平頭哥團隊不斷探索芯片和場景的融合,針對場景深度定制了芯片的軟硬件,包括自研架構(gòu)、軟件編譯器、框架、工具鏈等;后期,平頭哥也針對INT8數(shù)據(jù)類型做了大量優(yōu)化,最終在性能、良率、功耗等指標上均表現(xiàn)良好。

含光800采用平頭哥自研芯片架構(gòu),集成達摩院算法,配以自動化開發(fā)工具。其頂層架構(gòu)采用四核設(shè)計,任一NPU Core壞死,都不會影響芯片工作。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

具體而言,含光芯片在架構(gòu)設(shè)計中主要做了如下優(yōu)化方向:

(1)大大減少內(nèi)存帶寬,每次內(nèi)存訪問會造成較大功耗損失,平頭哥自研架構(gòu)將計算單元放在離存儲很近的位置,高密度的計算和存儲可大幅減少對內(nèi)存的訪問,在保證高性能的情況下,將芯片功耗降到最低水平。

(2)組合算子優(yōu)化融合,對算法網(wǎng)絡(luò)深入調(diào)節(jié),單位對內(nèi)存、片上寄存器的訪問更加精簡,將計算效率、能源利用效率提升至較高水準。

基于馮·諾依曼架構(gòu)的傳統(tǒng)通用處理器,存儲和運算分離,做大量讀寫操作時會遇到帶寬瓶頸,效率受限。

含光800根據(jù)神經(jīng)網(wǎng)絡(luò)推理運算特征,設(shè)計特定的硬件神經(jīng)元、高速連接的存儲結(jié)構(gòu)以及專用指令集,對內(nèi)存和計算單元實現(xiàn)高效組織管理,實現(xiàn)單條指令完成多個操作,提高計算效率和內(nèi)存訪問效率。

(3)算法壓縮,采用稀疏、量化等推理加速技術(shù),以及密集壓縮的計算、存儲、流水線技術(shù),有效解決芯片性能瓶頸問題。除了INT8/INT16 量化加速外,也覆蓋FP16/BFP16的向量計算。

比較突出的一點是基本實現(xiàn)全網(wǎng)絡(luò)量化,所有數(shù)據(jù)存儲按照比較壓縮的形式,計算過程根據(jù)精度要求把數(shù)據(jù)做拓展,保持其較高精度,存儲單元時則變成較壓縮的格式。

4)計算中高度并行處理,含光芯片深度優(yōu)化CNN及視覺類算法,不僅加速矩陣乘法、交換機,支持反卷積、空洞卷積、3D卷積、插值、ROI等,還可加速向量計算、激活函數(shù)等運算,這些優(yōu)化均有效提高其計算能力和效率。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

2、含光的業(yè)務(wù)定位與算法通用性

含光800中集成了達摩院算法,深度優(yōu)化CNN網(wǎng)絡(luò)及視覺DNN模型,有效提升了視覺計算效率。

驕旸介紹了第一顆NPU的業(yè)務(wù)定位,CNN類模型推理加速為主,通用可擴展到其他DNN模型,主要應(yīng)用于數(shù)據(jù)中心、大型端上。

例如,阿里的業(yè)務(wù)中,城市大腦、工業(yè)大腦、圖像視頻審核、圖像視頻標注、圖文搜索等擅長基于CNN的算法加速,搜索推薦、廣告、語音客服、自動翻譯等則通用其他DNN模型。

談及芯片架構(gòu)能否適配新的算法,驕旸舉了個例子。他說,當初芯片設(shè)計時,主要對CNN網(wǎng)絡(luò)做加速,等芯片回來后,他看到做諸如流行趨勢分析、智能服裝設(shè)計、流行的網(wǎng)絡(luò)視頻換臉游戲等的一些業(yè)務(wù),用到生成式對抗網(wǎng)絡(luò)(GAN)等算法。

四、平頭哥的造芯優(yōu)勢:場景、軟件、硬件

阿里巴巴CTO張建鋒表示,阿里巴巴有足夠信心和能力,去做傳統(tǒng)硬件公司能做到的硬件,和不能做到的軟件變硬件。他強調(diào),阿里的軟件和算法,是其最大的傳統(tǒng)優(yōu)勢。

這一雄心壯志背后的底氣,是阿里云的AI驗證場景、達摩院的算法、阿里硬件基礎(chǔ)設(shè)施多年的技術(shù)沉淀。

1、AI與云計算催生豐富場景

阿里巴巴造芯的天然優(yōu)勢,正在于擁有極其豐富的AI應(yīng)用場景。

經(jīng)過十年的發(fā)展,阿里在AI和云計算領(lǐng)域均已躋身全球前列。阿里云更是穩(wěn)居全球云計算廠商前三、亞太第一的位置,為超過一半的中國A股上市公司和80%中國科技類企業(yè)提供云服務(wù)。

阿里經(jīng)濟體橫跨電商、金融、物流、云計算、大數(shù)據(jù)、全球化等場景,用戶規(guī)模龐大,圖像視頻分析、搜索、推薦、網(wǎng)絡(luò)等各種業(yè)務(wù)場景都亟待AI專用芯片,其中圖像和視頻對算力的需求尤其大,這為平頭哥研發(fā)AI芯片提供了絕佳平臺。

2、沉淀19年的硬件實力

盡管平頭哥才成立一年,其硬件能力的積累可遠遠不止一年。

平頭哥由中天微和達摩院自研芯片業(yè)務(wù)整合而成,算上中天微的19年,以及阿里巴巴在服務(wù)器、FPGA以及存儲等硬件基礎(chǔ)設(shè)施上早年的摸索,這些經(jīng)年累月的研發(fā)經(jīng)驗使其在體系結(jié)構(gòu)、編譯技術(shù)等領(lǐng)域擁有深厚的技術(shù)儲備。

芯片設(shè)計流程復雜、風險極高。一旦流片失敗,一切都要推倒重來,很多芯片公司做不到一次流片成功;流片成功后還需經(jīng)過復雜的測試驗證,只有各項指標均符合實際場景需求,才到了真正的商用階段。

而平頭哥完成芯片設(shè)計、流片等全過程用時非常短,7個月完成前端實際,之后僅3個月就一次成功流片,這在業(yè)界還是非常難得的。

3、與達摩院算法高度適配

除適配場景、硬件架構(gòu)外,AI芯片的差異化設(shè)計還體現(xiàn)在軟件算法,它與硬件架構(gòu)高度適配、協(xié)同創(chuàng)新,才能發(fā)揮出芯片的最大價值。

算法方面,阿里巴巴達摩院機器智能實驗室過去兩年構(gòu)建了完整的算法體系,涵蓋語音智能、語言技術(shù)、機器視覺、決策智能等方向,并且取得多個世界領(lǐng)先水平的成果,在國際頂級學術(shù)會議上共發(fā)表了近400篇頂級論文。

基于這些能力,算法和硬件之間的鴻溝得以突破。

五、定位端云一體,全棧產(chǎn)品雛形已現(xiàn)

去年9月,阿里以非洲蜜獾的外號“平頭哥”為名成立平頭哥公司。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

這一名字承載了阿里巴巴對芯片公司寄予的厚望,不同于大多數(shù)芯片商,面對著有強應(yīng)用驅(qū)動和場景碎片化等特點的AIoT市場,平頭哥的目的不是賣芯片,而是通過端云一體芯片生態(tài),端上做芯片技術(shù)設(shè)施,云端為各行業(yè)提供普惠算力,終端玄鐵處理器還可以與云端含光芯片協(xié)同。

今年7月,平頭哥發(fā)布第一款基于RISC-V的處理器IP核“玄鐵910”;8月,它又推出第一款一站式芯片設(shè)計平臺“無劍”;9月,早在一年前就做出預告的云端AI芯片終于如期而至。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

1、基礎(chǔ)單元處理器IP

在端側(cè),有中天微的背景加持,平頭哥已擁有成熟的生態(tài)體系。

其C-Sky系列中,CK801、CK802、CK803、CK805、CK807、CK810、CK860等7款自研嵌入式CPU IP核均已得到大規(guī)模量產(chǎn)的驗證,授權(quán)客戶超100家,累計銷售超十億顆,廣泛應(yīng)用于機器視覺、工業(yè)控制、車載終端、移動通信和信息安全等領(lǐng)域。新發(fā)布的玄鐵系列也為AIoT終端芯片提供高性價比IP。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

平頭哥研究員孟建熠說,玄鐵更重要的是在基礎(chǔ)架構(gòu)之上的可擴展性,能在原有的一些通用處理器上,定制一些差異化的東西。

2、一站式芯片設(shè)計平臺

無劍SoC平臺集成CPU、GPU、NPU等,可降低芯片設(shè)計門檻,將研發(fā)周期縮短50%,開發(fā)成本降低50%。

目前,無劍已推出MCU、語音、視覺三大平臺,后續(xù)還會有更多平臺推出。MCU平臺有5類IP,3家合作伙伴;語音識別平臺有8類IP,3家合作伙伴;機器視覺平臺有9類IP,3家合作伙伴。

除了它們各自擁有的一些差異化創(chuàng)新技術(shù)外,平頭哥為所有平臺云端一體保持全鏈安全。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

無劍的主要原理是讓行業(yè)軟硬件很好融合?,F(xiàn)在芯片的設(shè)計方法是將買IP、模塊,自己做組合、驗證、測試、流片;而無劍更多在共性基礎(chǔ)上從維持生態(tài)的角度去做事,先把硬件上共性的東西都做好,在系統(tǒng)層面也做了芯片的試流片。

玄鐵系列處理器IP和無劍SoC平臺均已服務(wù)多家芯片企業(yè)及AI企業(yè)。

3、AI芯片

在云端,阿里云目前排名全球前三、亞太第一,這為平頭哥服務(wù)企業(yè)提供了絕佳平臺,含光800通過AI云服務(wù)為各企業(yè)的AI場景提供極致算力。

在AI場景中,含光800是異構(gòu)計算的很好補充。據(jù)悉,未來其產(chǎn)品形態(tài)還會進一步完善,包括云端AI訓練芯片和端側(cè)AI推理芯片,平頭哥還在研發(fā)用于阿里云神龍服務(wù)器的SoC專用芯片,以滿足更多場景的算力需求。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

AI芯片是人工智能場景最高效的算力單元,阿里將投入重金打造好這些技術(shù),同時構(gòu)建應(yīng)用生態(tài)。

除此之外,平頭哥還將繼續(xù)開發(fā)操作系統(tǒng),軟硬件融合的算法,核心的IP等,把這些共性的技術(shù)做好、做精、做出競爭力,并形成生態(tài),然后開放給芯片設(shè)計公司,讓他們基于高質(zhì)量的基礎(chǔ)設(shè)施打造芯片產(chǎn)品,從而催生產(chǎn)業(yè)生態(tài)的繁榮,提升整體的產(chǎn)業(yè)競爭力。

六、集結(jié)平頭哥陣營,大曬生態(tài)實力

眾所周知,服務(wù)器領(lǐng)域x86陣營獨大,Arm陣營則是移動芯片時代的主角。如今,平頭哥帶著它的平頭哥陣營來了。

目前,平頭哥的玄鐵系列處理器和無劍平臺已擁有100多家客戶。

在平頭哥分論壇上,清微智能、云天勵飛、炬芯、奉加微、聯(lián)盛德威、艾派克、博雅鴻圖等企業(yè)發(fā)布7款基于玄鐵處理器IP的新款芯片,涵蓋視覺、語音、微控制、無線芯片等應(yīng)用領(lǐng)域。

這其中,炬芯是國內(nèi)老牌IC設(shè)計企業(yè),云天勵飛是國內(nèi)知名AI獨角獸,艾派克是中國打印機主控芯片的龍頭,奉加微是藍牙芯片領(lǐng)域的新秀,清微智能、聯(lián)盛德、博雅鴻圖則分別在AI可重構(gòu)計算芯片、物聯(lián)網(wǎng)通信芯片、數(shù)據(jù)視網(wǎng)膜芯片領(lǐng)域各有專長。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

由于AIoT市場碎片化,端側(cè)芯片性能、存儲、功耗等要求都不相同,比如就本次新發(fā)的芯片中,云天勵飛采用的是玄鐵高端處理器,需1GB以上存儲;清微智能在其可重構(gòu)芯片中采用的是中端處理器玄鐵804/805,存儲需400-500MB;炬芯重點在低功耗、好聲音,選擇的是高能效處理器,它對性能和品質(zhì)要求更低,存儲只要200-300MB。

孟建熠表示,不是說存儲小就代表差,而是在行業(yè)中追求的產(chǎn)品不同,玄鐵面向不同AIoT的系列化產(chǎn)品,有兩代產(chǎn)品,一代是玄鐵老的自主架構(gòu),第二代是RISC-V。

炬芯過去使用的是MIPS,炬芯科技董事長&CEO周正宇說,改用RISC-V還是有些緊張的,但經(jīng)過實踐,如今他們已有4款芯片用玄鐵802、1款芯片使用玄鐵803。

周正宇發(fā)現(xiàn),RISC-V在工具鏈、指令集使用上已超過MIPS,更接近Arm;其功耗、壓縮率上也比MIPS更好。除了提供通用CPU,平頭哥還專門為炬芯打造特別指令集,周正宇表示,雙方會更長期的合作。

奉加微今年年初獲得平頭哥玄鐵802 MCU、YoC操作系統(tǒng)及CSI外設(shè)接口授權(quán),用6個月就完成了芯片設(shè)計,艾派克預計今年搭載平頭哥內(nèi)核的芯片出貨量將達到2億顆。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

同日,阿里人工智能實驗室和平頭哥共同定制開發(fā)智能語音芯片TG6100N,天貓精靈將成為首款采用平頭哥定制芯片的家用產(chǎn)品。

可以看見,AIoT時代下,平頭哥已經(jīng)率先搭建起生態(tài),并正循序漸進地沿著其“普惠芯片”的目標持續(xù)構(gòu)建行業(yè)生態(tài)和開發(fā)者生態(tài)。

一方面,平頭哥持續(xù)完善其技術(shù)及芯片產(chǎn)品陣列;另一方面,平頭哥還將成立芯片開放社區(qū),實現(xiàn)1天上手,5天原型,20天做出產(chǎn)品,進一步為芯片產(chǎn)業(yè)提供開放協(xié)作的平臺。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

平頭哥牽頭發(fā)起的IP聯(lián)盟,已有Cadence等9家半導體IP供應(yīng)商加入。此外,平頭哥還同新思科技、阿里云聯(lián)合發(fā)布《云端設(shè)計,與時間賽跑》白皮書。

在分論壇期間,孟建熠還談到了芯片行業(yè)的新趨勢——Foundry上云、EDA上云、開源芯片、定制化芯片。

解密平頭哥芯片三劍!阿里巴巴芯片產(chǎn)業(yè)生態(tài)玩法大公開

孟建熠認為,EDA承擔的角色至關(guān)重要,云、EDA公司都希望有EDA上云這樣的交集。不過,目前阿里還只是在嘗試這件事,沒有對外推出,新思科技等合作伙伴正在做EDA上云,中國慢慢也在往這一前沿領(lǐng)域走。

他希望平臺能向越來越開放的方向走,如果EDA上云,開發(fā)者可以更快開發(fā)出芯片產(chǎn)品,和無劍平臺的結(jié)合是有價值的。不過,平頭哥本身沒有EDA的工具,需要第三方去做這件事情。

結(jié)語:云計算巨頭跨界造芯成大勢

AI的加速落地使得對底層技術(shù)布局愈發(fā)迫切。阿里龐大的電商、金融、物流、云計算、物聯(lián)網(wǎng)業(yè)務(wù),都對芯片有著越來越大的需求。

如今,芯片、AI與云計算的協(xié)調(diào)發(fā)展已是大勢所趨。AI算法逐漸集成到芯片,專用AI芯片為云服務(wù)提供更強的算力,云計算又加速了AI應(yīng)用的大規(guī)模落地。

對于云計算廠商而言,自研芯片不僅可以降低整體計算的經(jīng)濟成本,還能以云服務(wù)的方式將更高算力、更低功耗提供給更多企業(yè)。這一趨勢推動下,阿里巴巴造芯成為必然。

阿里成立獨立芯片公司平頭哥,既是順應(yīng)云計算巨頭造芯的大勢,實現(xiàn)從底層硬件到上層應(yīng)用的生態(tài)自循環(huán);亦是放眼云計算和AIoT所帶來的廣闊市場,以芯片基礎(chǔ)設(shè)施提供商的定位以期獲取新時代的紅利。

承載著“普惠芯片”的美好愿景,平頭哥已經(jīng)發(fā)布的產(chǎn)品布局非常清晰:端側(cè)處理器IP+芯片設(shè)計平臺,降低芯片公司造芯難度;云端AI芯片,通過阿里云AI使能各企業(yè)智能化升級。

阿里能否如其所期望的那樣,成為AIoT時代的芯片基礎(chǔ)設(shè)施提供商,我們拭目以待。