芯東西(公眾號(hào):aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西5月8日?qǐng)?bào)道,今日,Imagination Technologies推出兼顧邊緣AI計(jì)算和圖形渲染需求的全新E系列GPU IP。E系列(E-Series)憑借其高效的并行處理架構(gòu),INT8/FP8算力可在2到200 TOPS之間擴(kuò)展,為邊緣應(yīng)用提供了一種通用且可編程的解決方案。

該GPU IP適用于圖形渲染、桌面應(yīng)用、智能手機(jī)上的自然語(yǔ)言處理、工業(yè)計(jì)算機(jī)視覺(jué)以及自動(dòng)駕駛等領(lǐng)域。首款E系列GPU IP將于2025年秋季正式上市,目前已完成授權(quán)。汽車(chē)、消費(fèi)電子、桌面及移動(dòng)版本亦在同步開(kāi)發(fā)中。

Imagination推出E-Series,AI算力多達(dá)200TOPS,兼顧圖形渲染與AI計(jì)算

Imagination的PowerVR GPU架構(gòu)以能效著稱,已在功耗受限設(shè)備中應(yīng)用近二十年。E系列進(jìn)一步引入全新的爆發(fā)式處理器(Burst Processors) 技術(shù),在AI推理、游戲和用戶界面等工作負(fù)載下平均功耗效率再提升35%。

Imagination創(chuàng)新與工程負(fù)責(zé)人Tim Mamtora談道:“E系列將GPU放在圖形與邊緣AI系統(tǒng)的核心位置。對(duì)需要同時(shí)運(yùn)行圖形與計(jì)算任務(wù)的系統(tǒng)設(shè)計(jì)者而言,E系列GPU提供了一種高度靈活的解決方案,既無(wú)需依賴額外的向量處理器或固定功能AI加速器,又能在降低整體系統(tǒng)設(shè)計(jì)成本的同時(shí),實(shí)現(xiàn)面向未來(lái)的可擴(kuò)展性?!?/p>

在媒體溝通會(huì)上,Imagination中國(guó)區(qū)董事長(zhǎng)兼亞太總裁白農(nóng)告訴芯東西等媒體,這款新產(chǎn)品是Imagination在圖形和計(jì)算領(lǐng)域多年來(lái)累積的又一個(gè)里程碑,它不僅在性能、功耗和面積方面實(shí)現(xiàn)了全面的優(yōu)化,更在架構(gòu)設(shè)計(jì)上實(shí)現(xiàn)了從傳統(tǒng)渲染將通用計(jì)算的深度拓展,具備高度的靈活性和可擴(kuò)展性。

Imagination推出E-Series,AI算力多達(dá)200TOPS,兼顧圖形渲染與AI計(jì)算

“中國(guó)一直是我們?nèi)蜃钪匾膽?zhàn)略市場(chǎng)之一,”白農(nóng)談道,“未來(lái),我們將持續(xù)加大對(duì)中國(guó)市場(chǎng)的投入,不僅為加大本土技術(shù)支持團(tuán)隊(duì)的建設(shè),還將升華與本土生態(tài)伙伴的合作,幫助客戶抓住新一輪AI浪潮帶來(lái)的市場(chǎng)機(jī)遇?!?/p>

一、兩大核心創(chuàng)新,AI算力可擴(kuò)展至200TOPS

Imagination E系列GPU IP的每個(gè)GPU核深度集成低精度、高能效AI加速能力。小核在1GHz頻率下有8Gpixel/s的像素填充率、0.25TFLOPS浮點(diǎn)算力、2TOPS INT8算力,可滿足輕量級(jí)應(yīng)用需求。4核配置在1.6GHz頻率下可提供400Gpixel/s的像素填充率、12.8TFLOPS浮點(diǎn)算力(FP32)、超過(guò)200TOPS的INT8算力。

E系列有兩項(xiàng)核心創(chuàng)新:Neural Cores(神經(jīng)核)與Burst Processors(爆發(fā)式處理器)。

神經(jīng)核計(jì)算密度高,AI性能可擴(kuò)展至200 TOPS INT8 ,較前代D系列提升高達(dá)400%。它支持FP32、FP16、BF16、INT8、FP8、MXFP8、FP4、MXFP4等多種主流AI數(shù)值格式,能夠滿足不同精度、性能與功耗需求。其AI友好的內(nèi)存架構(gòu)在計(jì)算時(shí)優(yōu)先使用本地內(nèi)存,大幅降低了訪問(wèn)外部?jī)?nèi)存所消耗的功耗和性能成本。

Imagination推出E-Series,AI算力多達(dá)200TOPS,兼顧圖形渲染與AI計(jì)算

爆發(fā)式處理器擁有創(chuàng)新的架構(gòu)設(shè)計(jì),使邊緣應(yīng)用中平均功耗效率提升35%。該技術(shù)深度集成于GPU中,改變了GPU原有指令調(diào)度方式,通過(guò)縮短流水線深度、減少數(shù)據(jù)在GPU內(nèi)部的移動(dòng)等方式,實(shí)現(xiàn)盡可能多的數(shù)據(jù)重復(fù)使用和共享,從而減少很多不必要的計(jì)算開(kāi)銷(xiāo),提升能效。

Imagination推出E-Series,AI算力多達(dá)200TOPS,兼顧圖形渲染與AI計(jì)算

爆發(fā)式處理器主要優(yōu)勢(shì)包括:對(duì)特定指令進(jìn)行調(diào)度,最小化控制器開(kāi)銷(xiāo),不會(huì)犧牲很多的延遲;重新設(shè)計(jì)ALU流水線,對(duì)流水線級(jí)數(shù)做縮減,實(shí)現(xiàn)了更高效的利用率,從而降低整體延遲和功耗;大量重復(fù)利用來(lái)自本地存儲(chǔ)的數(shù)據(jù),這也給功耗降低提供助力。

Imagination推出E-Series,AI算力多達(dá)200TOPS,兼顧圖形渲染與AI計(jì)算

E系列GPU上的創(chuàng)新建立在原有硬件資源的基礎(chǔ)上,并不會(huì)顯著增加芯片的面積,還可以對(duì)能效進(jìn)行持續(xù)改進(jìn)。

例如其一項(xiàng)重要架構(gòu)設(shè)計(jì)是在每一個(gè)計(jì)算單元都有將近0.5Mb的寄存器空間,能在芯片上高效保留需處理的數(shù)據(jù)。這些資源是GPU進(jìn)行圖形處理時(shí)就存在的,現(xiàn)在又增加了AI相關(guān)的高效處理流水線,本質(zhì)上沒(méi)有額外增加芯片面積。

圖形處理和其他計(jì)算之間的靈活性取決于兩者之間的負(fù)載平衡,而Imagination實(shí)現(xiàn)了一種具有高靈活性的解決方案,可以對(duì)幾何像素和傳統(tǒng)計(jì)算進(jìn)行負(fù)載平衡,還有基于優(yōu)先級(jí)的一些MCU調(diào)度機(jī)制。另一個(gè)優(yōu)勢(shì)是,GPU需要對(duì)多種不同紋理類型格式進(jìn)行處理,本身就支持非常廣泛的數(shù)據(jù)類型,如今又拓展了數(shù)據(jù)轉(zhuǎn)換流水線來(lái)支持AI數(shù)據(jù)類型。

二、軟硬件充分協(xié)同,在GPU上可編程地開(kāi)發(fā)AI模型

GPU作為可編程處理器,通過(guò)面向未來(lái)的架構(gòu)設(shè)計(jì),使設(shè)備能夠持續(xù)應(yīng)對(duì)AI、計(jì)算和圖形工作負(fù)載的演進(jìn)。

E系列延續(xù)了Imagination GPU的出色圖形處理能力,支持光線追蹤。通過(guò)在GPU內(nèi)部深度集成AI加速能力,其神經(jīng)核與更廣泛的GPU及異構(gòu)計(jì)算軟件生態(tài)實(shí)現(xiàn)無(wú)縫協(xié)同,有助于降低開(kāi)發(fā)門(mén)檻。

Imagination也投入了大量的時(shí)間和工程資源,在更底層上確保認(rèn)不同的AI工具和接口能夠與其硬件形成一種經(jīng)優(yōu)化的配合流程。

E系列GPU IP的算力可通過(guò)OpenCL等主流API直接調(diào)用,開(kāi)發(fā)者借助oneAPI、Apache TVM或LiteRT等開(kāi)放標(biāo)準(zhǔn)工具,能輕松將工作負(fù)載遷移至神經(jīng)核。Imagination的計(jì)算庫(kù)與高度優(yōu)化的圖形編譯器,可提高硬件利用率,進(jìn)一步釋放GPU的潛能。

Imagination推出E-Series,AI算力多達(dá)200TOPS,兼顧圖形渲染與AI計(jì)算

當(dāng)代設(shè)備日益復(fù)雜,處理器需同時(shí)支持圖形與AI多項(xiàng)工作負(fù)載。為保障用戶體驗(yàn),實(shí)現(xiàn)高質(zhì)量服務(wù)(QoS)和清晰劃分任務(wù)優(yōu)先級(jí)至關(guān)重要。E系列在前代產(chǎn)品的多任務(wù)處理能力基礎(chǔ)上實(shí)現(xiàn)了增強(qiáng),將Imagination GPU支持的、具備硬件加速且零開(kāi)銷(xiāo)的虛擬機(jī)數(shù)量從8個(gè)翻倍至16個(gè),并提供了先進(jìn)的QoS支持。

E系列GPU IP的多核版本可利用額外的核心來(lái)提升性能或增強(qiáng)靈活性。這些GPU能夠同時(shí)處理多種圖形工作負(fù)載、多種AI工作負(fù)載,或圖形與AI工作負(fù)載的組合。

結(jié)語(yǔ):可集成到各類SoC設(shè)計(jì)中,在任意設(shè)備上靈活部署新算法

IDC研究總監(jiān)Phil Solis認(rèn)為:“各類設(shè)備上的AI功能正在迅速演進(jìn),但AI系統(tǒng)設(shè)計(jì)者依然面臨性能、效率與靈活性的多重挑戰(zhàn)。Imagination憑借其長(zhǎng)期深耕低功耗GPU的經(jīng)驗(yàn),成功實(shí)現(xiàn)了GPU架構(gòu)對(duì)圖形與AI的靈活支持。E系列結(jié)合了GPU的可編程性與AI性能的飛躍,為邊緣AI系統(tǒng)開(kāi)發(fā)者帶來(lái)了極具吸引力的解決方案。”

在行業(yè)分析師看來(lái),要實(shí)現(xiàn)終端智能的真正潛力,邊緣AI的軟硬件必須協(xié)同演進(jìn)。E系列便做到了各類開(kāi)發(fā)者都能在任意設(shè)備上靈活部署最新算法。

由于Imagination提供的是一個(gè)軟IP解決方案,客戶可將其GPU IP集成到幾乎任何種類的SoC設(shè)計(jì)中。無(wú)論是想要開(kāi)發(fā)用于智能手機(jī)或者其他系統(tǒng)的傳統(tǒng)SoC芯片,還是打造帶有自家顯存控制和PCIe總線的獨(dú)立GPU芯片、然后把它設(shè)計(jì)成一塊完整顯卡,都可以通過(guò)選用Imagination IP解決方案來(lái)實(shí)現(xiàn)。