芯東西(公眾號(hào):aichip001)
編輯 | 高歌

智東西6月4日消息,近日GTIC 2021嵌入式AI創(chuàng)新峰會(huì)在北京圓滿收官!在這場(chǎng)全天座無(wú)虛席、全網(wǎng)直播觀看人數(shù)逾150萬(wàn)次的高規(guī)格產(chǎn)業(yè)峰會(huì)上,來(lái)自產(chǎn)業(yè)鏈上下游的16位大佬共聚一堂,圍繞嵌入式AI的軟硬件生態(tài)創(chuàng)新、家居AIoT、移動(dòng)機(jī)器人和工業(yè)制造產(chǎn)業(yè)4大版塊地圖,帶來(lái)了深入淺出的分享。

會(huì)上,安謀中國(guó)AI技術(shù)高級(jí)市場(chǎng)經(jīng)理吳彤以《構(gòu)建AI智能生態(tài)》為題,對(duì)當(dāng)前AI芯片發(fā)展趨勢(shì)以及安謀自研人工智能專用處理器IP“周易”AIPU進(jìn)行解讀。

如今行業(yè)已進(jìn)入以數(shù)據(jù)為驅(qū)動(dòng)的計(jì)算時(shí)代,也稱為第五波計(jì)算浪潮,從網(wǎng)絡(luò)架構(gòu)到計(jì)算架構(gòu)都產(chǎn)生了大量需求。依托Arm世界領(lǐng)先的生態(tài)系統(tǒng)資源與技術(shù)優(yōu)勢(shì),安謀中國(guó)面向國(guó)內(nèi)市場(chǎng)獨(dú)立研發(fā)了周易”AIPU。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)▲安謀中國(guó)AI技術(shù)高級(jí)市場(chǎng)經(jīng)理吳彤

吳彤談到當(dāng)下AI芯片市場(chǎng)有四大發(fā)展趨勢(shì),一是端側(cè)芯片市場(chǎng)增速非常高,二是未來(lái)5-10年端側(cè)推理市場(chǎng)的增速最快,三是ASIC定制化芯片將成為未來(lái)的主流,四是細(xì)分市場(chǎng)規(guī)模將會(huì)保持高速增長(zhǎng)。

另一方面,AI芯片行業(yè)專用架構(gòu)(DSA)正在興起,主流AI算法也呈現(xiàn)輕量化趨勢(shì)。在這些趨勢(shì)下,安謀中國(guó)自研的“周易”AIPU擁有完全自主可控、完整生態(tài)等特點(diǎn),目前已經(jīng)推出兩代產(chǎn)品,分別為“周易”Z1和“周易”Z2。

其中,“周易”Z1是邊緣計(jì)算通用的AI IP,面向IoT&Edge,基于“周易”Z1研發(fā)的全志R329智能語(yǔ)音芯片即將大規(guī)模商用;“周易”Z2面向邊緣計(jì)算中高性能場(chǎng)景,基于“周易”Z2開(kāi)發(fā)的芯片也即將應(yīng)用落地,主要覆蓋中高端安防和自動(dòng)駕駛/智能座艙領(lǐng)域。

此外,吳彤還介紹了兩款A(yù)I IP的應(yīng)用案例,包括人體關(guān)鍵點(diǎn)檢測(cè)、駕駛員疲勞監(jiān)測(cè)(DMS) 和DTV超級(jí)分辨率應(yīng)用等。

以下是吳彤的演講實(shí)錄整理:

一、第五波計(jì)算浪潮或助推Arm芯片出貨超萬(wàn)億

吳彤:首先感謝主辦方智東西的邀請(qǐng),我是安謀中國(guó)AI技術(shù)市場(chǎng)吳彤。今天給大家?guī)?lái)的分享主題《構(gòu)建AI智能“芯”生態(tài)》。我的主題分享分為三部分,第一部分是介紹整個(gè)Arm架構(gòu)的賦能情況,第二部分是一個(gè)對(duì)AI芯片以及AIoT市場(chǎng)簡(jiǎn)單的分析,最后一部分是我們整個(gè)安謀中國(guó)自研的AI IP“周易”兩代產(chǎn)品的市場(chǎng)、技術(shù)情況。

首先,有一個(gè)概念叫做第五波計(jì)算浪潮,大家都知道在以前最開(kāi)始的時(shí)候,我們有PC、個(gè)人計(jì)算、互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng),可以稱之為前四波計(jì)算浪潮。什么叫第五波計(jì)算浪潮?一句話總結(jié),一個(gè)以數(shù)據(jù)為驅(qū)動(dòng)的計(jì)算時(shí)代。第五波計(jì)算浪潮主要特點(diǎn)除了芯片層面多樣化的需求以外,從網(wǎng)絡(luò)架構(gòu),包括從計(jì)算架構(gòu)都有大量的需求產(chǎn)生。作為Arm的一家生態(tài)型公司,我們一直在思考怎么樣在這個(gè)體系下通過(guò)和我們合作伙伴提供更多定制化的服務(wù),包括架構(gòu)以及芯片類的創(chuàng)新,能夠賦能整個(gè)生態(tài)。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

這是我們整個(gè)Arm的一個(gè)從1991年一直到現(xiàn)在Arm計(jì)算架構(gòu)走向萬(wàn)億級(jí)生態(tài)的圖。大家可以看到,從1991年一直到2017年用了26年的時(shí)間,(Arm)達(dá)到了全球第一個(gè)一千億芯片的出貨量。從2017年到2021年,其實(shí)我們只用了四年時(shí)間就達(dá)到了第二個(gè)一千億芯片的出貨量,這個(gè)增長(zhǎng)非常快。(在)第五代計(jì)算浪潮的驅(qū)動(dòng)下,我們希望未來(lái)能達(dá)到一萬(wàn)億芯片的出貨量。

安謀中國(guó)從成立之初到現(xiàn)在,幾年內(nèi),安謀中國(guó)在國(guó)內(nèi)服務(wù)的客戶超過(guò)兩百家以上,在國(guó)內(nèi)的(芯片)出貨量將近兩百億。

二、端側(cè)AI芯片增速快,領(lǐng)域?qū)S眉軜?gòu)興起

下面給大家分享一下AI芯片以及整個(gè)AIoT市場(chǎng)整體的情況。這里有四張圖從AI芯片的市場(chǎng)規(guī)模、按場(chǎng)景、按架構(gòu)、按應(yīng)用層面對(duì)AI芯片的整體介紹。

1、AI芯片發(fā)展趨勢(shì):端側(cè)增速最快

首先第一張圖是整個(gè)AI人工智能芯片的市場(chǎng)規(guī)模,2017年到2025年接近十年的區(qū)間,有一個(gè)趨勢(shì)可以看到,從紅色數(shù)值可以看出,和云端相比,端側(cè)AI芯片的市場(chǎng)增速非常高,尤其在未來(lái)的5—10年的區(qū)間之內(nèi)。

第二張圖是AI芯片按場(chǎng)景來(lái)劃分的趨勢(shì),這個(gè)場(chǎng)景分成四塊,兩大部分。第一個(gè)維度是整個(gè)的云端,包括云端推理和云端訓(xùn)練。第二維度Edge端側(cè),包括推理和訓(xùn)練。這張圖得出一個(gè)結(jié)論,在未來(lái)5—10年內(nèi),我們可以看到,在整個(gè)端側(cè)包括云端還有Edge端推理市場(chǎng)的增速是最快的。

第三個(gè)圖是AI芯片按架構(gòu)劃分,能夠看到人工智能芯片所有看到的主流架構(gòu),包括GPU、FPGA、包括ASIC等等。從中也可以看到,ASIC定制類的芯片也會(huì)在未來(lái)的五到十年內(nèi)成為市場(chǎng)上的一個(gè)主流。

最后一張圖,是按照人工智能的細(xì)分垂直領(lǐng)域場(chǎng)景來(lái)看,這里面我們看到,手機(jī)端不用說(shuō)了,也是Arm比較主流的一個(gè)行業(yè),手機(jī)端依然保持相對(duì)比較高速的增長(zhǎng)。同時(shí)像可穿戴設(shè)備、包括智能音箱幾個(gè)細(xì)分市場(chǎng)未來(lái)幾年之內(nèi)也會(huì)保持比較高的增長(zhǎng)。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

2、AI芯片領(lǐng)域?qū)S眉軜?gòu)(DSA)開(kāi)始流行

這個(gè)是從垂直市場(chǎng)的層面來(lái)講,我們談到,整個(gè)人工智能芯片有一個(gè)比較重要的概念叫DSA。談到之前,我們先看一個(gè)很有意思的試驗(yàn),這個(gè)試驗(yàn)是一個(gè)算法,這個(gè)算法主要以矩陣乘法為主。

我們可以看到,增速很快的這條曲線在不同的硬件環(huán)境包括軟件環(huán)境下做的實(shí)驗(yàn)。從最開(kāi)始在Python環(huán)境,第二個(gè)是在純C的環(huán)境下做,再往后我們加入了很多并行計(jì)算包括memory優(yōu)化、包括目前主流的SIMD助理,在不同的體系架構(gòu)下,同一套算法從最原始的Python到最后的SIMD形式(的執(zhí)行效率)增長(zhǎng)63000多倍。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

這個(gè)試驗(yàn)說(shuō)明什么問(wèn)題?在我們現(xiàn)在AI芯片領(lǐng)域里面,其實(shí)DSA也就是專用架構(gòu)可以處理特定領(lǐng)域的一些問(wèn)題,目前甚至將來(lái)應(yīng)該會(huì)成為一個(gè)主流。這種DSA我給大家舉一個(gè)例子,就是什么樣的(架構(gòu))屬于DSA呢?比較知名的像是NVIDIA GPU、包括很多網(wǎng)絡(luò)處理器芯片、包括現(xiàn)在我們比較熱門的NPU神經(jīng)網(wǎng)絡(luò)處理器都可以理解為一種處理某些特定領(lǐng)域問(wèn)題的架構(gòu),我們都(可以)叫DSA

這是我們看到的目前、包括未來(lái)有可能AI芯片架構(gòu)整體技術(shù)演進(jìn)的趨勢(shì)。從最上面的GPU,以英偉達(dá)和AMD為代表,GPU本身做圖形處理,最開(kāi)始不是給AI人工智能來(lái)用,英偉達(dá)為代表的這些公司在GPU里面做了大量改進(jìn),加入HWAHard·Wired·Accelerator),也就是我們叫TensorCore,把它(GPU)變成面向人工智能領(lǐng)域很好的處理器芯片。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

還有一類也是傳統(tǒng)做信號(hào)處理的DSP,現(xiàn)在也有很多公司把它變成人工智能芯片,在DSP基礎(chǔ)上加入大量的MAC陣列。比如英特爾收購(gòu)的一家公司較Habana他們的架構(gòu)也是基于這個(gè)架構(gòu)設(shè)計(jì)的。

另有一類,以ARM為代表的異構(gòu)計(jì)算,加了CPU,同時(shí)也有DSA的專用領(lǐng)域,加入專業(yè)面向矩陣加速的HWA加速器,構(gòu)成了一種異構(gòu)計(jì)算模式。這種模式我們認(rèn)為,在目前包括未來(lái)將會(huì)成為主流,它可以同時(shí)滿足很好的PPA(Power Perform Area),包括各種能效比都會(huì)達(dá)到很高的數(shù)值。

3、6大維度評(píng)判AI芯片

這里是我們根據(jù)很多客戶的需求,我們大概總結(jié)了一下,當(dāng)很多公司都在談一款好的AI芯片,不管你自己設(shè)計(jì)還是用各種成熟的IP也好,什么樣的芯片才能稱之為好的AI芯片?我大概分了六個(gè)維度。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

一顆好的AI芯片經(jīng)過(guò)各種國(guó)際主流的benchmark評(píng)測(cè),包括像MLPerf;像人工智能聯(lián)盟的benchmark,也是在國(guó)內(nèi)很知名的benchmark;還有等等。這個(gè)是衡量AI芯片算法模型很主流的評(píng)測(cè)標(biāo)準(zhǔn)。

還有一個(gè),我們不光從硬件,我們還要從整個(gè)生態(tài)鏈、軟件棧,也就是我們經(jīng)常說(shuō)的工具鏈(來(lái)看)。從工具鏈層面,很多公司尤其像我們?cè)O(shè)計(jì)了很完整的工具鏈體系。工具鏈的完整是衡量你AI芯片是否成熟的一個(gè)標(biāo)準(zhǔn),同時(shí)也是看到你能夠給客戶提供什么樣的這種支持。

還有一個(gè)很多媒體都在談的,AI芯片一定要談算力TOPS。其實(shí)TOPS不是唯一衡量AI芯片算力的標(biāo)準(zhǔn),還有很多其它因素,比如有TOPS/瓦能效比,跟微觀、功耗包括算力利用率都是有關(guān)的。還有很重要的因素,就是存儲(chǔ)帶寬。剛剛知存科技的王總也提到了,為什么我們現(xiàn)在存算一體芯片非常熱門,就是它能夠解決數(shù)據(jù)搬移的問(wèn)題。

當(dāng)然了,還有幾個(gè)維度關(guān)于AI芯片這塊。

首先AI芯片要有很好的靈活性,因?yàn)槲覀兊乃懔Σ皇枪潭ǖ臇|西,需要支持常見(jiàn)的神經(jīng)網(wǎng)絡(luò),同時(shí)有很強(qiáng)的擴(kuò)展能力,比如客戶能力很強(qiáng),會(huì)自定義自己的算子,作為IP或者芯片供應(yīng)商來(lái)說(shuō),我們需要能夠支持客戶做自定義算子的擴(kuò)展。

當(dāng)然了,還有除了AI層面的其它因素,我把它列了叫非AI功能。我們接觸了很多客戶后發(fā)現(xiàn),客戶對(duì)我們的需求不僅僅只在AI一個(gè)層面。比如對(duì)于安防場(chǎng)景來(lái)說(shuō),安防客戶不僅僅需要你只提供一個(gè)AI芯片,希望你提供更多的Solution解決方案,比如需要ISP、VPU、視頻處理等等。

其實(shí)很多非AI功能如果你能把它變成一個(gè)總體解決方案,在未來(lái)很多垂直領(lǐng)域是非常有競(jìng)爭(zhēng)力的。目前安謀中國(guó)也在打造這樣比較完整的IP組合平臺(tái)。

4、AI算法正趨于輕量化

這是一個(gè)對(duì)AIoT芯片市場(chǎng)的分析。簡(jiǎn)單說(shuō),整個(gè)AIoT芯片剛才幾位嘉賓也講過(guò),AIoT整個(gè)市場(chǎng)其實(shí)比較碎片化,目前看它的增速非常快,端側(cè)的芯片增速也非常快。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

但是首先它有很多這種需求,比如對(duì)低功耗要求非常高,在很多低功耗的場(chǎng)景,甚至達(dá)到毫瓦級(jí)的水平,比如可穿戴設(shè)備等。同時(shí),對(duì)于很多場(chǎng)景來(lái)講,可能算力要求沒(méi)有特別高,尤其對(duì)于AIoT領(lǐng)域,在100 GOPS下就可以覆蓋大部分場(chǎng)景。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

這個(gè)是我們看到的整個(gè)AI算法市場(chǎng)的一個(gè)輕量化趨勢(shì)。左邊這張圖來(lái)說(shuō),2014年開(kāi)始市面上主流的輕量化算法,對(duì)算力需求越來(lái)越低。我們看到,很多主流的算法輕量化趨勢(shì)非常明顯,它的計(jì)算量包括權(quán)重跟之前相比已經(jīng)減少了幾十倍左右。舉個(gè)例子,我們做多目標(biāo)檢測(cè)的時(shí)候,如果想做30FPS Throughput(吞吐量),只需要大概百GOPS算力就可以了,每幀計(jì)算量可以降低到5GOPS以內(nèi)。

此外,算法輕量化的趨勢(shì)商湯的閆總也提到了,我們有大量模型輕量化的手段,都是一些很主流的量化、剪枝、共享、知識(shí)蒸餾等等。那么這種模型量化的手段是日益的在演進(jìn),也就把我們算法輕量化的趨勢(shì)推的越來(lái)越明顯。

三、“周易”AIPU:兩代產(chǎn)品覆蓋全場(chǎng)景、全棧平臺(tái)

前面分享了Arm架構(gòu)和AI芯片和AIoT芯片的趨勢(shì)。后面重點(diǎn)講一下安謀中國(guó)“周易”AIPU的一個(gè)整體情況?!爸芤住盇IPU是安謀中國(guó)自研IP產(chǎn)品線中AI人工智能部分,我們還有CPU、ISP其他等等的產(chǎn)品線。

這是我們目前,“周易”也是AIPU產(chǎn)品線上看到的市場(chǎng)上幾個(gè)比較熱門的機(jī)會(huì)。第一個(gè)是比較熱的安防,我們目前有客戶和合作伙伴已經(jīng)在基于我們的AIPU定制自己安防前端的芯片,應(yīng)該很快產(chǎn)品就會(huì)出來(lái)。手機(jī)是ARM在手機(jī)端生態(tài)里面比較優(yōu)勢(shì)的一塊,未來(lái)作為安謀中國(guó)自研“周易”AIPU將來(lái)關(guān)注的市場(chǎng)。

還有另外一個(gè)市場(chǎng)就是自動(dòng)駕駛和智能座艙。如果大家去看各種峰會(huì)、媒體(報(bào)道),智能汽車已經(jīng)成為目前最熱的一個(gè)詞,而不是之一。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

從安謀中國(guó)來(lái)講,我們對(duì)自動(dòng)駕駛以及智能座艙領(lǐng)域非常關(guān)注。首先,Arm能夠提供的IP組合通過(guò)級(jí)聯(lián)等,做到幾百體T(TOPS)以上的算力,同時(shí)我們可以提供的不僅僅是AI,而是包括AI完整的一套面向智能汽車完整的解決方案,(這)也是未來(lái)我們希望著力去發(fā)展的領(lǐng)域之一。而且目前我們有比較知名的合作伙伴,也會(huì)在今年或者明年推出基于我們AIPU的座艙類產(chǎn)品。

其他幾種,像智能家居、機(jī)器人、新零售,目前智能家居已經(jīng)有落地的芯片,今年年內(nèi)有智能音箱的產(chǎn)品出來(lái),也是一家TOP的公司。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

1、“周易”AIPU四大特點(diǎn):本土研發(fā)、生態(tài)完整、架構(gòu)創(chuàng)新、滿足高PPA指標(biāo)

安謀中國(guó)的“周易”AIPU有四個(gè)特點(diǎn),這是我們硬件一個(gè)比較簡(jiǎn)單的框架圖:

1)首先“周易”AIPU由中國(guó)本土團(tuán)隊(duì)研發(fā),所有的知識(shí)產(chǎn)權(quán)完全自主可控,目前“周易”AIPU在幾個(gè)比較重點(diǎn)的領(lǐng)域安防、汽車、智能語(yǔ)音領(lǐng)域開(kāi)始即將大規(guī)模商用;

2)同時(shí),我們會(huì)給客戶、合作伙伴提供完整的技術(shù)生態(tài),它是一個(gè)硬件加上完整的工具鏈以及適配整個(gè)硬件算法的體系;

3)從架構(gòu)層面,自研一套專門面向深度學(xué)習(xí)的指令集架構(gòu),也是安謀中國(guó)技術(shù)團(tuán)隊(duì)自主研發(fā);

4)從PPA的三個(gè)指標(biāo)來(lái)講,通過(guò)我們的實(shí)際測(cè)試和客戶的反饋,可以達(dá)到很好的匹配。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

這是我們整個(gè)“周易”架構(gòu)相對(duì)比較詳細(xì)的介紹。從技術(shù)層面,指令集層面分成三類,第一類指令集叫做張量指令集,也就是我們經(jīng)常常見(jiàn)的向量Vector,能夠?qū)σ话愕纳窠?jīng)網(wǎng)絡(luò)進(jìn)行運(yùn)算和處理。

第二類我們把它叫做AI Fix Function,這一類有點(diǎn)類似硬件加速單元,它是針對(duì)卷積操作里面很常見(jiàn)的一些操作來(lái)做特定的硬件加速,能夠提供很好的效率,比如像卷積、池化、激活等等。

最后一類屬于算力需求比較低的我們叫標(biāo)量,主要做一些循環(huán)跳轉(zhuǎn)類的處理,有點(diǎn)類似CPU模式。“周易”從架構(gòu)級(jí)層面來(lái)說(shuō),三種不同的處理混合在一起,能夠滿足客戶從算力很低到算力很高不同的需求。同時(shí),Arm還有一個(gè)知名度比較高的Trustzone可安全擴(kuò)展,本身在“周易”里面也集成了我們的安全保護(hù),可以有效保護(hù)用戶信息,比如算法的數(shù)據(jù)等。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

最后一點(diǎn),也是比較關(guān)鍵的一點(diǎn),我們跟很多客戶接觸中發(fā)現(xiàn),很多客戶如果選用比較成熟的IP做自己的SoC的時(shí)候,有很多客戶的算法能力非常強(qiáng),需要有算子自定義的需求。根據(jù)我們的調(diào)研,大概50%以上的客戶有算子自定義的需求、本身我們的“周易”AIPU就有很好的支持客戶算子的自定義擴(kuò)展。

本身AIPU關(guān)鍵的一點(diǎn)就是靈活可編程。在設(shè)計(jì)一款芯片的時(shí)候,其生命周期在5年左右。在這5年的區(qū)間里,算法本身的迭代是非??斓摹T谠O(shè)計(jì)芯片之初,就要考慮有很完整的算子支持,甚至IP的變化是完全可編程的,這才能滿足算法的不同需求。本身我們的IP也是朝這個(gè)方向去做。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

“周易”AIPU可以提供一個(gè)比較完整的可擴(kuò)展能力。因?yàn)椤爸芤住北旧硎潜容^通用的AIPU平臺(tái),可以提供從最小0.2T算力甚至上百T算力的組合。這里面對(duì)很多比如常見(jiàn)神經(jīng)網(wǎng)絡(luò)層,包括算子可以完全實(shí)現(xiàn)可編程,通過(guò)TEC張量來(lái)做的。

針對(duì)特定的卷積類操作,比如池化、激活、權(quán)重、特征圖壓縮等,我們通過(guò)一個(gè)特定的AI指令集也就是AI Fix Function來(lái)做,同時(shí)支持客戶的擴(kuò)展。

從工具鏈層面,我們會(huì)給客戶提供完整易用的SDK。舉個(gè)例子來(lái)說(shuō),我們有命令行甚至圖形的方式讓客戶能夠快速一鍵生成我們的模型,比如你有一個(gè)TensorFlow或者Caffe的模型,通過(guò)命令行輸入,直接通過(guò)SDK一鍵轉(zhuǎn)化,很快生成AIPU可執(zhí)行的文件,整個(gè)操作非常方便。同時(shí),從模型框架方面,目前支持現(xiàn)在市面上比較主流的一些模型,包括TensorFlow、Python、TensorFlowLite等。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

這是我們的總結(jié),面向人工智能領(lǐng)域端、邊、云三大類,“周易”基本可以覆蓋全場(chǎng)景人工智能解決方案,從端側(cè)、邊緣側(cè)、云端做一個(gè)總結(jié)。端側(cè)有門鎖、可穿戴設(shè)備,像TWS、智能音箱、包括手機(jī)智能終端等每年市場(chǎng)的規(guī)模,包括需要的算力需求以及它的功耗,我大概做了一個(gè)整體的分析。

從這里面,我們可以得出一個(gè)結(jié)論,目前市場(chǎng)主流的解決方案基本還是以GPU包括DSP為主,但是未來(lái)的趨勢(shì),也就是最佳的解決方案,面向所有的場(chǎng)景來(lái)說(shuō),ASIC定制化的芯片將成為主要的解決方案。對(duì)于“周易”AI IP來(lái)講,兩代產(chǎn)品包括今年年末發(fā)的第三代產(chǎn)品基本上可以覆蓋從端側(cè)到邊緣側(cè)所有的人工智能場(chǎng)景。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

人工智能芯片除了硬件層面,整個(gè)軟件棧就是我們的生態(tài)是非常重要的,這是目前“周易”全棧式異構(gòu)平臺(tái)的軟件棧。最底層對(duì)Arm整體Cortex CPU、Mali GPU以及我們自研的AIPU硬件體系的支持;到上層很多計(jì)算庫(kù),包括合作伙伴完整的driver以及run time庫(kù),像Arm NN、Tengine的支持;到最上面像TensorFlow、Caffe、PyTorch等等支持,“周易”覆蓋了整個(gè)軟件站各個(gè)層面的支持。

從工具鏈層面,我們目前針對(duì)一顆芯片來(lái)說(shuō),所有的工具鏈全部都是支持的,包括Simulator、Debugger、Profiler、Compiler還有Build Tool,也是構(gòu)建整個(gè)完整生態(tài)非常重要的一個(gè)環(huán)節(jié)。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

這里面是我們剛剛講的,“周易”是通用的AIPU平臺(tái),如果通用的話,我們一定要談到對(duì)目前市場(chǎng)上主流的深度學(xué)習(xí)算子支持,內(nèi)置的Model Zoo預(yù)訓(xùn)練模型的支持,涵蓋了目前市面上可以看到的主流算法,比較熱門的transformer等等。

在算子層面,“周易”的第二代產(chǎn)品支持超過(guò)120個(gè)以上的主流算子,而且還在持續(xù)的增加過(guò)程中。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

在安防、自動(dòng)駕駛很多場(chǎng)景里面,客戶需要完整的解決方案,針對(duì)客戶需求我們打造了面向CV視覺(jué)領(lǐng)域完整的IP解決方案。這里面不僅僅包括AI,包括ISP、CPU,通過(guò)互聯(lián)的方式組成完整的生態(tài)鏈。

Arm的M和A系列是完全支持的,ISP也有Arm中國(guó)自研的玲瓏,(該產(chǎn)品)前段時(shí)間剛剛發(fā)布,ISP和“周易”、Video Encoder等一起,可以為客戶提供一個(gè)完成比較完整的視覺(jué)IP解決方案。

2、“周易”Z1:邊緣計(jì)算通用的AI IP,面向IoT&Edge

這是我們“周易”的第一代產(chǎn)品,叫“周易”Z1。這是我們跟全志科技(合作)已經(jīng)正式量產(chǎn),今年很快大規(guī)模商用。全志R329用的是周易Z1的AIPU,提供的算力在0.2TOPS左右。

這個(gè)算力也讓我們看到了在智能音箱領(lǐng)域算力的一個(gè)趨勢(shì),我們可以看到,端到端的語(yǔ)音算法將會(huì)成為一個(gè)主流的趨勢(shì)。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

“周易”可以很快解決端到端的處理,把數(shù)據(jù)直接通過(guò)神經(jīng)網(wǎng)絡(luò)送進(jìn)來(lái),不需要單獨(dú)像之前由DSP做前端處理,可以通過(guò)AIPU處理。通過(guò)試驗(yàn)對(duì)比,我們跟一些DSP做了一些測(cè)算。能效比包括算力(“周易”AIPU)相當(dāng)于它(DSP)的七倍以上。

這也是“周易”Z1,可以提供不同的算力組合。這是我們做了一個(gè)人體關(guān)鍵點(diǎn)檢測(cè)的應(yīng)用案例,實(shí)際應(yīng)用去跑,支持人臉關(guān)鍵檢測(cè)的算法,像Open pose、Deep pose等,在1TOPS計(jì)算力環(huán)境下吞吐量基本可以做到80FPS。而且在這個(gè)環(huán)境下,我們的bandwidth(帶寬)非常低,整個(gè)成本相較來(lái)說(shuō)也比較低。

3、“周易”Z2:針對(duì)邊緣計(jì)算中高端場(chǎng)景優(yōu)化

“周易”Z2(是)第二代產(chǎn)品,跟Z1有一點(diǎn)不同,“周易”Z2更多面向邊緣計(jì)算和中高端的場(chǎng)景,比如自動(dòng)駕駛、中高端的安防等等。

Z2和上一代產(chǎn)品相比,它的特點(diǎn)在于單核算力是上一代產(chǎn)品的兩倍甚至更高,同時(shí)支持多核級(jí)聯(lián),其算力在128TOPS左右,可以做到自動(dòng)駕駛甚至中高端場(chǎng)景的需求,芯片面積Z2比上一代產(chǎn)品節(jié)省30%左右

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

從算法層面來(lái)講,“周易”Z2支持混合精度計(jì)算,同時(shí)在同等算力配置下,通過(guò)測(cè)算“周易”Z2比上一代產(chǎn)品針對(duì)某些網(wǎng)絡(luò)模型的性能高很多,兩代產(chǎn)品做了一個(gè)對(duì)比,找了一個(gè)比較知名的網(wǎng)絡(luò)模型MobileNet?V2,在帶寬節(jié)省30%同時(shí),性能提升接近3倍左右

“周易”Z2在今年或者明年也有一些合作伙伴,基于“周易”Z2 AI IP做應(yīng)用和場(chǎng)景的落地,主要面向安防和智能汽車兩個(gè)領(lǐng)域。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

這是我們?cè)凇爸芤住盳2實(shí)際的應(yīng)用環(huán)境做的智能汽車比較熱的領(lǐng)域DMS駕駛員的疲勞監(jiān)測(cè)。我們和主流的DMS公司做了算法的合作,涵蓋了Face Detection、Face landmark、Head pose、Gaze等所有算法我們做了一個(gè)融合?!爸芤住盳2在1TOPS算力環(huán)境下,throughput做到了70fps左右。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

這是另外一個(gè)應(yīng)用,“周易”Z2做了超級(jí)分辨率DTV(的一個(gè)案例)。我們也是跟主流的超級(jí)分辨率公司做了合作,用的“周易”Z2 1T算力硬件環(huán)境,經(jīng)過(guò)我們的測(cè)算能夠做到4K 60幀左右,同時(shí)使用業(yè)內(nèi)知名的圖象或者質(zhì)量評(píng)價(jià)工具WMAF,其評(píng)分達(dá)到93分?;旧希ㄔ搼?yīng)用的)93分是非常高的分值,一般做到80分以上就非常高了。

安謀中國(guó)吳彤:ASIC定制化芯片或成未來(lái)芯片架構(gòu)趨勢(shì)

最后跟大家整體的總結(jié)一下,目前安謀中國(guó)基于全球Arm的標(biāo)準(zhǔn),我們?cè)谶@個(gè)基礎(chǔ)上做了很多本土創(chuàng)新的工作。第一,我們的“周易”AIPU是面向安防、車載甚至移動(dòng)很多IT場(chǎng)景的AI通用處理器。

還有其它的安謀中國(guó)自研產(chǎn)品,包括“山?!?,是面向物聯(lián)網(wǎng)領(lǐng)域的安全解決方案,目前很多客戶在落地。還有兩個(gè)是我們的CPU和ISP解決方案,一個(gè)是“星辰”(STAR),(一個(gè)是“玲瓏”)。在TWS領(lǐng)域,OPPO用了我們“星辰”CPU IP(的產(chǎn)品),已經(jīng)大規(guī)模量產(chǎn)和出貨?!扳彮嚒笔俏覀兘趧倓偘仓\中國(guó)推出的自研ISP解決方案,后面還會(huì)推出面向安防和智能汽車不同應(yīng)用場(chǎng)景的解決方案。

我今天的介紹就到這里,謝謝大家。

以上是吳彤演講內(nèi)容的完整整理。