芯東西(ID:aichip001
編輯 |? 溫淑

GTIC 2020全球AI芯片創(chuàng)新峰會剛剛在北京圓滿收官!在這場全天座無虛席、全網(wǎng)直播觀看人數(shù)逾150萬次的高規(guī)格AI芯片產(chǎn)業(yè)峰會上,19位產(chǎn)學(xué)界重磅嘉賓從不同維度分享了對中國AI芯片自主創(chuàng)新和應(yīng)用落地的觀察與預(yù)判。

在峰會下午場,Imagination Technologies公司副總裁&中國區(qū)總經(jīng)理劉國軍,發(fā)表了題為《多核GPU與專用NNA推動從云到端側(cè)智能應(yīng)用》的演講。

Imagination劉國軍:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

▲Imagination Technologies公司副總裁&中國區(qū)總經(jīng)理劉國軍

劉國軍講解了Imagination的產(chǎn)品設(shè)計思路。隨著AI賦能的時代來臨,從互聯(lián)網(wǎng)到物聯(lián)網(wǎng)、從指紋解鎖到高性能計算,各個領(lǐng)域?qū)λ懔Φ男枨蟾邼q。后摩爾時代,異構(gòu)加速計算成為滿足全球各領(lǐng)域算力需求的可行解決方案。CPU、GPU、FPGA、ASIC、專用AI加速器的異構(gòu)融合,為提高算力開辟了新的方向。

面向算力需求,Imagination打造GPU IP和神經(jīng)網(wǎng)絡(luò)加速器(NNA)IP的產(chǎn)品組合,分別著眼于AI計算的靈活性,以及高計算密度、低功耗需求。

Imagination分別于今年10月和11月,發(fā)布了采用多核架構(gòu)的最新B系列GPU IP和第四代NNA IP。在GTIC AI芯片創(chuàng)新峰會上,劉國軍亦分享了這兩款重磅新品的性能特點,其中B系列GPU IP包含四款產(chǎn)品,功耗較前代產(chǎn)品降低30%,面積縮減25%,算力可達6TFLOPS,能滿足從移動終端到自動駕駛應(yīng)用的不同需求;而最新第四代NNA IP產(chǎn)品擁有全新多核架構(gòu),可提供600TOPS甚至更高的性能,能為大型神經(jīng)網(wǎng)絡(luò)工作負(fù)載提供極低的帶寬和延遲。

以下為劉國軍演講實錄整理:

一、Imagination所有知識產(chǎn)權(quán)沒有源自美國

Imagination Technologies是一家全球領(lǐng)先的戰(zhàn)略性獨立的IP供應(yīng)商。

1994年,Imagination在倫敦交易所上市。NEC和ST micro的PC以及世嘉Dreamcast游戲機,都采用過PowerVR 3D技術(shù)。后期公司GPU技術(shù)轉(zhuǎn)向移動端,并獲得了巨大成功。因為公司運營的成功,Imagination創(chuàng)始人和當(dāng)時的CEO被英國伊麗莎白女王授予勛章。

基于GPU方面的成就,近十年Imagination一直致力于研發(fā)人工智能IP技術(shù),并開發(fā)了人工智能產(chǎn)品線。

2017年,在失去了最大客戶后,Imagination被中資背景的凱橋基金會全資收購。

去年年底,Imagination曾經(jīng)的最大客戶重新回歸,與Imagination達成新的多年期授權(quán)協(xié)議。

Imagination有最核心的關(guān)鍵專利,公司專利技術(shù)多達1500多項。采用Imagination IP的芯片發(fā)貨量超過110億。在全球很多地方,Imagination設(shè)有研發(fā)人員和銷售機構(gòu)。

還有一點很特別,目前Imagination所有的知識產(chǎn)權(quán)沒有源自美國,這在當(dāng)前的形勢下很關(guān)鍵。

二、用“GPU+AI加速器破解算力需求

Imagination現(xiàn)有產(chǎn)品分兩大類。

一類是GPU圖形處理IP,可用于移動設(shè)備、物聯(lián)網(wǎng)、微控制器、數(shù)字電視和汽車等眾多市場領(lǐng)域。目前Imagination在全球移動GPU IP市場占有率為36%,在汽車GPU IP領(lǐng)域占到43%。Imagination今年剛推出的多核架構(gòu)IMG BXT產(chǎn)品,能夠達到數(shù)據(jù)中心的性能水平。

同時在圖形渲染方面,Imagination是全球為數(shù)不多發(fā)布了硬件光線追蹤技術(shù)的高科技公司。

Imagination還有一類產(chǎn)品是神經(jīng)網(wǎng)絡(luò)加速器NNA IP。神經(jīng)網(wǎng)絡(luò)加速器,簡單來講就是AI計算加速。

Imagination構(gòu)建了一個通用的計算平臺和專用的人工智能網(wǎng)絡(luò)加速的平臺。此外還有以太網(wǎng)的數(shù)據(jù)處理器,這是汽車整體解決方案中的一個重要技術(shù)。

ImaginationGPU IPNNA IP應(yīng)用范圍很廣,可應(yīng)用在移動、汽車、物聯(lián)、云游戲等各個領(lǐng)域。

GTIC AI芯片創(chuàng)新峰會的討論離不開算力。在信息與數(shù)據(jù)的社會,從互聯(lián)網(wǎng)上的幾十億數(shù)據(jù),到物聯(lián)網(wǎng)上數(shù)萬億的設(shè)備互相連接,這其中的AI應(yīng)用需要強大算力的支撐。應(yīng)用端也是一樣,從一個指紋的識別到最高性能的計算,都需要算力來支撐。

傳統(tǒng)的CPU遠(yuǎn)遠(yuǎn)不能滿足當(dāng)前從云到端的算力需求。從云端到邊端,到2024年,數(shù)據(jù)中心市場可以達到約1000億美元。在這當(dāng)中,AI推理芯片在邊緣計算市場占據(jù)了很大份額,達到約63.6%

隨著AI邊緣推理應(yīng)用向前發(fā)展,大家可以看到,移動互聯(lián)、工業(yè)、安防、物聯(lián)網(wǎng)、多媒體、自動駕駛等領(lǐng)域中的相關(guān)應(yīng)用逐漸落地。

算力需求怎么滿足?Imagination選取的是“GPU+AI加速器的解決方案,用“GPU+NNA”面向自動駕駛和數(shù)據(jù)中心應(yīng)用。

在邊緣計算場景,AI 芯片主要承擔(dān)推理任務(wù)。由于邊緣側(cè)場景多種多樣、各不相同,對于計算硬件平臺的算力和能耗等性能需求也不同。因此,不同于云端AI芯片需具備“高端、通用”的性能特點,應(yīng)用于邊緣側(cè)的AI芯片需要針對特殊場景進行針對性設(shè)計,以實現(xiàn)最優(yōu)的解決方案。

IMG的邊緣側(cè)推理解決方案將GPU和NNA相結(jié)合,靈活地將不同的工作負(fù)荷分配到最適合的硬件單元,最大限度地發(fā)揮不同硬件單元的性能。

Imagination劉國軍:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

三、全新B系列GPU IP & 4系列 NNA IP均采用多核架構(gòu)

今年十月份,Imagination在北京發(fā)布B系列的GPU。隨后在11月,Imagination發(fā)布第四代NNA IP。最新一代GPU IPNNA IP有什么特點?在AI芯片獲取算力方面,做出哪些提升?

劉國軍分享,B系列GPU IP共包含BXE、BXM、BXTBXS四款產(chǎn)品,從低到高提供不同的性能。

其中,BXS是符合ISO 26262標(biāo)準(zhǔn)的汽車GPU IP內(nèi)核,采用虛擬化技術(shù)及分塊區(qū)域保護技術(shù),具備全新的功能和安全機制。這些功能都集成在硬件中,對于汽車GPU和自動駕駛應(yīng)用而言,這種設(shè)計有利于提升安全性。

BXT采用多核架構(gòu),算力可達6TFLOPS、192Gigapixel/s,且具備可擴展性,可以去中心化。針對7nm、5nm制程,BXT可做特定優(yōu)化,以滿足從移動終端到數(shù)據(jù)中心的使用需求。

新的架構(gòu)在多核配置的時候,與傳統(tǒng)的配置有所不同。針對memory多核算力增加時的效率問題、memory的讀取存儲問題,Imagination也有比較好的解決方案。

對比市場上使用同樣半導(dǎo)體制造工藝的PCIe顯卡,IMG BXT具有更高的計算密度。這意味在同樣的硅片面積下,BXT可以提供更高的單精度(FP32)運算能力。

Imagination劉國軍:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

Imagination最新4系列NNA IP也采用多核架構(gòu),這是NNA IP系列的第四代產(chǎn)品。

NNA IP系列第一代產(chǎn)品沒有發(fā)布。第二代NNA IP產(chǎn)品PowerVR 2NX于2017年在深圳發(fā)布。PowerVR 2NX單核IP運行在保守頻率800?MHz,能提供2048?MACs/cycle(行業(yè)標(biāo)準(zhǔn)性能指標(biāo))操作,即可達到每秒3.2萬億次推理操作。

紫光展銳采用這款IP開發(fā)的虎賁T710芯片,在去年的Benchmark跑分中拿到第一名。

今年最新發(fā)布的第四代NNA IP計算效率和計算密度都十分杰出。4NX-MC4一個四核方案可提供50TOPS算力,由于具備可擴展性,基于最新NNA IP的解決方案可將算力擴展至200甚至500TOPS

Imagination劉國軍:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

多核的特點是什么?是可擴展。在整個計算過程中,多核架構(gòu)可以做到近memory計算,降低延遲。另外,多核架構(gòu)的各種調(diào)度和分配方式都十分靈活且可預(yù)測。

NNA IP可以多網(wǎng)絡(luò)運行,也就是說一個核可同時運行多個網(wǎng)絡(luò),同一個網(wǎng)絡(luò)也可以切分到不同的核上去運行,這樣就可以預(yù)測計算的時間。Imagination有一個離線工具,來對特定應(yīng)用作分配和調(diào)度。

根據(jù)各類實驗結(jié)果,ImaginationTensor?Tiling技術(shù)(ITT)平均可以降低90%的帶寬。

目前,Imagination正在為ITT技術(shù)申請專利,這項技術(shù)也被應(yīng)用于4系列NNA IP。

ITT技術(shù)可以通過對計算任務(wù)進行tiling,充分利用片上存儲,提升數(shù)據(jù)處理效率,并節(jié)省訪問外部存儲的帶寬。利用本地數(shù)據(jù)的依賴性,ITT技術(shù)可將中間數(shù)據(jù)保存在片上存儲器中,最大限度地減少將數(shù)據(jù)傳輸至外部存儲器,從而將帶寬降低多達90%。作為一種可擴展的算法,ITT在擁有大量輸入數(shù)據(jù)的網(wǎng)絡(luò)上具有顯著優(yōu)勢。

Imagination的解決方案里,GPU承擔(dān)計算任務(wù),同時承擔(dān)渲染的任務(wù);NNA承擔(dān)神經(jīng)網(wǎng)絡(luò)計算任務(wù)。

GPU的渲染能力基于Imagination已經(jīng)出貨多年的專利技術(shù)——硬件虛擬化。

借助硬件虛擬化技術(shù),一個GPU可以承擔(dān)多個屏的計算渲染任務(wù),支持多個操作系統(tǒng)。同時,多個GPU之間有物理隔離,不會相互干擾。

這樣就實現(xiàn)了結(jié)合GPU的靈活性和NNA的效率,再加上memory,形成一個異構(gòu)的計算平臺。

這個異構(gòu)計算平臺具備非常靈活的任務(wù)分配和配置功能,上面是兩個GPU,下面是NNA,中間有內(nèi)部的總線。這是一種非常有效的算力配置方法,能滿足從ADAS到自動駕駛的功能需求。

Imagination劉國軍:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

同時,Imagination提供統(tǒng)一的API,可以給開發(fā)者提供統(tǒng)一的接口去支持各種不同的網(wǎng)絡(luò)。對工作量和網(wǎng)絡(luò)類型的適配,都可以由統(tǒng)一的API支持。另外,GPU IPNNA IP支持同一個開發(fā)工具,這方便了廣大開發(fā)者的使用。

以上是劉國軍演講內(nèi)容的完整整理。除劉國軍外,在本屆GTIC 2020 AI芯片創(chuàng)新峰會期間,清華大學(xué)微納電子系尹首一教授,比特大陸、地平線、燧原科技、黑芝麻智能、壁仞科技、光子算數(shù)、知存科技、億智電子、豪微科技等芯片創(chuàng)企,全球FPGA領(lǐng)先玩家賽靈思,知名IP供應(yīng)商安謀中國,全球EDA巨頭Cadence,以及北極光創(chuàng)投、中芯聚源等知名投資機構(gòu),分別分享了對AI芯片產(chǎn)業(yè)的觀察與思考。如感興趣更多嘉賓演講的核心干貨,歡迎關(guān)注芯東西后續(xù)推送內(nèi)容。