GPU是Graphics Processing Unit(圖形處理器)的簡稱,它是一種專門在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上運行繪圖運算工作的微處理器。圖形處理器是NVIDIA公司(NVIDIA)在1999年8月發(fā)表NVIDIA GeForce 256(GeForce 256)繪圖處理芯片時首先提出的概念,在此之前,電腦中處理影像輸出的顯示芯片,通常很少被視為是一個獨立的運算單元。而對手冶天科技(ATi)亦提出視覺處理器(Visual Processing Unit)概念。圖形處理器使顯卡減少對中央處理器(CPU)的依賴,并分擔部分原本是由中央處理器所擔當?shù)墓ぷ?,尤其是在進行三維繪圖運算時,功效更加明顯。圖形處理器所采用的核心技術有硬件坐標轉換與光源、立體環(huán)境材質貼圖和頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等。

圖形處理器可單獨與專用電路板以及附屬組件組成顯卡,或單獨一片芯片直接內嵌入到主板上,或者內置于主板的北橋芯片中,現(xiàn)在也有內置于CPU上組成SoC的。個人電腦領域中,在2007年,90%以上的新型臺式機和筆記本電腦擁有嵌入式繪圖芯片,但是在性能上往往低于不少獨立顯卡。但2009年以后,AMD和英特爾都各自大力發(fā)展內置于中央處理器內的高性能集成式圖形處理核心,它們的性能在2012年時已經(jīng)勝于那些低端獨立顯卡,這使得不少低端的獨立顯卡逐漸失去市場需求,兩大個人電腦圖形處理器研發(fā)巨頭中,AMD以AMD APU產(chǎn)品線取代旗下大部分的低端獨立顯示核心產(chǎn)品線。而在手持設備領域上,隨著一些如平板電腦等設備對圖形處理能力的需求越來越高,不少廠商像是高通(Qualcomm)、Imagination、ARM、NVIDIA等,也在這個領域“大顯身手”。

GPU不同于傳統(tǒng)的CPU,如Intel i5或i7處理器,其內核數(shù)量較少,專為通用計算而設計。相反,GPU是一種特殊類型的處理器,具有數(shù)百或數(shù)千個內核,經(jīng)過優(yōu)化,可并行運行大量計算。雖然GPU在游戲中以3D渲染而聞名,但它們對運行分析、深度學習和機器學習算法尤其有用。GPU允許某些計算比傳統(tǒng)CPU上運行相同的計算速度快10倍至100倍。

本期的智能內參,我們推薦方正證券的報告《GPU研究框架》,從GPU的底層技術、產(chǎn)業(yè)鏈發(fā)展情況和國產(chǎn)GPU的自主之路三方面全面解析GPU及其產(chǎn)業(yè)。

本期內參來源:方正證券

原標題:

《GPU研究框架》

作者:陳杭 等

一、GPU:專用計算時代的“畫師”

GPU(graphics processing unit)圖形處理器,又稱顯示核心、視覺處理器、顯示芯片,是一種在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上做圖像和圖形相關運算工作的微處理器。GPU通常包括圖形顯存控制器、壓縮單元、BIOS、圖形和計算整列、總線接口、電源管理單元、視頻管理單元、顯示界面。GPU的出現(xiàn)使計算機減少了對CPU的依賴,并解放了部分原本CPU的工作。在3D圖形處理時,GPU采用的核心技術有硬件T&L(幾何轉換和光照處理)、立方環(huán)境材質貼圖和頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等,而硬件T&L技術可以說是GPU的標志。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

▲GPU的內部組成部分

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

▲GPU核心及PCB板

GPU的微架構(Micro Architecture)是一種給定的指令集和圖形函數(shù)集合在處理器中執(zhí)行的方法。圖形函數(shù)主要用于繪制各種圖形所需要的運算。當前和像素、光影處理、3D坐標變換等相關運算由GPU硬件加速來實現(xiàn)。相同的指令集和圖形函數(shù)集合可以在不同的微架構中執(zhí)行,但實施的目的和效果可能不同。優(yōu)秀的微架構對GPU性能和效能的提升發(fā)揮著至關重要的作用,GPU體系是GPU微架構和圖形API的集合。

以目前最新的英偉達安培微架構為例,GPU微架構的運算部份由流處理器(Stream Processor,SP)、紋理單元(Texture mapping unit, TMU)、張量單元(Tensor Core)、光線追蹤單元(RT Cores)、光柵化處理單元(ROPs)組成。這些運算單元中,張量單元,光線追蹤單元由NVIDIA在伏特/圖靈微架構引入。

除了上述運算單元外,GPU的微架構還包含L0/L1操作緩存、Warp調度器、分配單元(Dispatch Unit)、寄存器堆(register file)、特殊功能單元(Special function unit,SFU)、存取單元、顯卡互聯(lián)單元(NV Link)、PCIe總線接口、L2緩存、二代高位寬顯存(HBM2)等接口。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達安培內核概覽

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達安培內核“SM”單元

GPU的流處理器單元是NVIDIA對其統(tǒng)一架構GPU內通用標量著色器的命名。SP單元是全新的全能渲染單元,是繼Pixel Pipelines(像素管線)和Vertex Pipelines(頂點管線)之后新一代的顯卡渲染技術指標。SP單元既可以完成VS(Vertex Shader,頂點著色器)運算,也可以完成PS(Pixel Shader,像素著色器)運算,而且可以根據(jù)需要組成任意VS/PS比例,從而給開發(fā)者更廣闊的發(fā)揮空間。

流處理器單元首次出現(xiàn)于DirectX 10時代的G80核心的Nvidia GeForce 8800GTX顯卡,是顯卡發(fā)展史上一次重大的革新。之后AMD/ATI的顯卡也引入了這一概念,但是流處理器在橫向和縱向都不可類比,大量的流處理器是GPU性能強勁的必要非充分條件。

紋理映射單元(TMU)作為GPU的部件,它能夠對二進制圖像旋轉、縮放、扭曲,然后將其作為紋理放置到給定3D模型的任意平面,這個過程稱為紋理映射。紋理映射單元不可簡單跨平臺橫向比較,大量的紋理映射單元是GPU性能強勁的必要非充分條件。

光柵化處理單元(ROPs)主要負責游戲中的光線和反射運算,兼顧AA、高分辨率、煙霧、火焰等效果。游戲里的抗鋸齒和光影效果越厲害,對ROPs的性能要求就越高,否則可能導致幀數(shù)的急劇下降。NVIDIA的ROPs單元是和流處理器進行捆綁的,二者同比例增減。在AMD GPU中,ROPs單元和流處理器單元沒有直接捆綁關系。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達安培內核SP、ROPs、TMU拆解

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達RTX 3080 GPU-Z參數(shù)

消費GPU的實時光線追蹤在2018年由英偉達的“圖靈”GPU首次引入,光追單元(RT Cores)在此過程中發(fā)揮著決定性的作用。圖靈GPU的光追單元支持邊界體積層次加速,實時陰影、環(huán)境光、照明和反射,光追單元和光柵單元可以協(xié)同工作,進一步提高幀數(shù)和陰影的真實感。

光追單元在英偉達的RTX光線追蹤技術、微軟DXR API、英偉達Optix API和Vulkan光追API的支持下可以充分發(fā)揮性能。擁有68個光追單元的RTX2080Ti在光線處理性能上較無光追單元的GTX1080Ti強10倍。

張量單元(Tensor Core)在2017年由英偉達的“伏特”GPU中被首次引入。張量單元主要用于實時深度學習,服務于人工智能,大型矩陣運算和深度學習超級采樣(DLSS),可以帶來驚人的游戲和專業(yè)圖像顯示,同時提供基于云系統(tǒng)的快速人工智能。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達RTX2080Ti張量單元算力

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達圖靈GPU光追單元運作流程

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達圖靈GPU張量單元提供多精度AI

GPU的API(Application Programming Interface)應用程序接口發(fā)揮著連接應用程序和顯卡驅動的橋梁作用。不過隨著系統(tǒng)優(yōu)化的深入,API也可以直接統(tǒng)籌管理高級語言、顯卡驅動和底層匯編語言。

3D API能夠讓編程人員所設計的3D軟件只需調動其API內的程序,讓API自動和硬件的驅動程序溝通,啟動3D芯片內強大的3D圖形處理功能,從而大幅地提高3D程序的設計效率。同樣的,GPU廠家也可以根據(jù)API標準來設計GPU芯片,以達到在API調用硬件資源時的最優(yōu)化,獲得更好的性能。3D API可以實現(xiàn)不同廠家的硬件、軟件最大范圍兼容。如果沒有API,那么開發(fā)人員必須對不同的硬件進行一對一的編碼,這樣會帶來大量的軟件適配問題和編碼成本。

目前GPU API可以分為2大陣營和若干其他類。2大陣營分別是微軟的DirectX標準和KhronosGroup標準,其他類包括蘋果的Metal API、AMD的Mantle(地幔)API、英特爾的One API等。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

微軟DirectX和Khronos Group API組合對比

DirectX是Direct eXtension的簡稱,作為一種API,是由微軟公司創(chuàng)建的多媒體編程接口。DirectX可以讓以Windows為平臺的游戲或多媒體程序獲得更高的執(zhí)行效率,加強3D圖形和聲音效果,并提供設計人員一個共同的硬件驅動標準,讓游戲開發(fā)者不必為每一品牌的硬件來寫不同的驅動程序,也降低用戶安裝及設置硬件的復雜度。DirectX已被廣泛使用于Windows操作系統(tǒng)和Xbox主機的電子游戲開發(fā)。

OpenGL是Open Graphics Library的簡稱,是用于渲染2D、3D矢量圖形的跨語言、跨平臺的應用程序編程接口(API),相比DirectX更加開放。這個接口由近350個不同的函數(shù)調用組成,用來繪制從簡單的二維圖形到復雜的三維景象。OpenGL常用于CAD、虛擬現(xiàn)實、科學可視化程序和電子游戲開發(fā)。

正是由于OpenGL的開放,所以它可以被運行在Windows、MacOS、Linux、安卓、iOS等多個操作系統(tǒng)上,學習門檻也比DirectX更低。但是,效率低是OpenGL的主要缺點。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

DirectX和OpenGL特點對比

Metal是Apple在2014年創(chuàng)建的接近底層的,低開銷的硬件加速3D圖形和計算著色器API。Metal在iOS 8中首次亮相。Metal在一個API中結合了類似于OpenGL和OpenCL的功能。它旨在通過為iOS,iPadOS,macOS和tvOS上的應用程序提供對GPU硬件的底層訪問來提高性能。相較于OpenGL ES,Metal減少了10倍的代碼擁擠,提供了更好的解決方案,并將會在蘋果設備中取代OpenGL。Metal也支持英特爾HD和IRIS系列GPU、AMD的GCN和RDNA GPU、NVIDIA GPU。Metal也是可以使用Swift或Objective-C編程語言調用的面向對象的API。GPU的全部操作是通過Metal著色語言控制的。

2017年,蘋果推出了Metal的升級版Metal2,兼容前代Metal硬件,支持iOS11,MacOS和tvOS11。Metal2可以在Xcode中更有效地進行配置和調試,加快機器學習速度,降低CPU工作量,在MacOS上支持VR,充分發(fā)揮A11 GPU的特性。

Vulkan是一種低開銷,跨平臺的3D圖像和計算API。Vulkan面向跨所有平臺的高性能實時3D圖形應用程序,如視頻游戲和交互式媒體。與OpenGL,Direct3D 11和Metal相比,Vulkan旨在提供更高的性能和更平衡的CPU/GPU用法。除了較低的CPU使用外,Vulkan還旨在使開發(fā)人員更好地在多核CPU中分配工作。

Vulkan源自并基于AMD的Mantle API組件,最初的版本被稱為OpenGL的下一代。最新的Vulkan1.2發(fā)布于2020年1月15日,該版本整合了23個額外經(jīng)常被使用的Vulkan拓展。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

Metal與OpenGL性能對比

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

OpenGL和Vulkan對比

軟件生態(tài)方面,GPU無法單獨工作,必須由CPU進行控制調用才能工作,而CPU在處理大量類型一致的數(shù)據(jù)時,則可調用GPU進行并行計算。所以,GPU的生態(tài)和CPU的生態(tài)是高度相關的。

近年來,在摩爾定律演進的放緩和GPU在通用計算領域的高速發(fā)展的此消彼長之下,通用圖形處理器(GPGPU)逐漸“反客為主”,利用GPU來計算原本由CPU處理的通用計算任務。

目前,各個GPU廠商的GPGPU的實現(xiàn)方法不盡相同,如NVIDIA使用的CUDA(compute unified device architecture)技術、原ATI的ATI Stream技術、Open CL聯(lián)盟、微軟的DirectCompute技術。這些技術可以讓GPU在媒體編碼加速、視頻補幀與畫面優(yōu)化、人工智能與深度學習、科研領域、超級計算機等方面發(fā)揮異構加速的優(yōu)勢。以上4種技術中,只有OpenCL支持跨平臺和開放標注的特性,還可以使用專門的可編程電路來加速計算,業(yè)界支持非常廣泛。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

DirectX和OpenGL生態(tài)對比

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

OpenCL聯(lián)盟生態(tài)

GPU根據(jù)接入方式可以劃分為獨立GPU和集成GPU。獨立GPU一般封裝在獨立的顯卡電路板上,擁有獨立顯存,而集成GPU常和CPU共用一個Die,共享系統(tǒng)內存。GPU根據(jù)接入方式可以劃分為獨立GPU和集成GPU。獨立GPU一般封裝在獨立的顯卡電路板上,擁有獨立顯存,而集成GPU常和CPU共用一個Die,共享系統(tǒng)內存。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

GPU的主要分類

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

▲獨立GPU

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

▲集成GPU Die

GPU顯存是用來存儲顯卡芯片處理過或者即將提取的渲染數(shù)據(jù),是GPU正常運作不可或缺的核心部件之一。GPU的顯存可以分為獨立顯存和集成顯存兩種。目前,獨立顯存主要采用GDDR3、GDDR5、GDDR5X、GDDR6,而集成顯存主要采用DDR3、DDR4。服務器GPU偏好使用Chiplet形式的HBM顯存,最大化吞吐量。

集成顯存受制于64位操作系統(tǒng)的限制,即便組成2通道甚至4通道,與獨立顯存的帶寬仍有相當差距。通常這也造成了獨立GPU的性能強于集成GPU。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

顯存的主要分類

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

▲獨立顯存的工作方式

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

▲獨立顯存的工作方式

集成顯卡是指一般不帶顯存,而是使用系統(tǒng)的一部分主內存作為顯存的顯卡。集成顯卡可以被整合進主板作為北橋芯片的一部分,也可以和CPU集成在同一個Die中。集成顯卡的顯存一般根據(jù)系統(tǒng)軟件和應用軟件的需求自動調整。如果顯卡運行需要占用大量內存空間,那么整個系統(tǒng)運行會受限,此外系統(tǒng)內存的頻率通常比獨立顯卡的顯存低很多,因此集成顯卡的性能比獨立顯卡要遜色一些。

獨立顯卡是將顯示芯片及相關器件制作成一個獨立于電腦主板的板卡,成為專業(yè)的圖像處理硬件設備。獨立顯卡因為具備高位寬、高頻獨立顯存和更多的處理單元,性能遠比集成顯卡優(yōu)越,不僅可用于一般性的工作,還具有完善的2D效果和很強的3D水平,因此常應用于高性能臺式機和筆記本電腦,主要的接口為PCIe。

如今,獨立顯卡與集成顯卡已經(jīng)不是2個完全割裂,各自為營的圖像處理單元了。二者在微軟DX12的支持下也可以實現(xiàn)獨核顯交火,同時AMD和NVIDIA的顯卡也可實現(xiàn)混合交火。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

集成顯卡和獨立顯卡對比

GPU對比CPU:從芯片設計思路看,CPU是以低延遲為導向的計算單元,通常由專為串行處理而優(yōu)化的幾個核心組成,而GPU是以吞吐量為導向的計算單元,由數(shù)以千計的更小、更高效的核心組成,專為并行多任務設計。

CPU和GPU設計思路的不同導致微架構的不同。CPU的緩存大于GPU,但在線程數(shù),寄存器數(shù)和SIMD(單指令多數(shù)據(jù)流)方面GPU遠強于CPU。

微架構的不同最終導致CPU中大部分的晶體管用于構建控制電路和緩存,只有少部分的晶體管完成實際的運算工作,功能模塊很多,擅長分支預測等復雜操作。GPU的流處理器和顯存控制器占據(jù)了絕大部分晶體管,而控制器相對簡單,擅長對大量數(shù)據(jù)進行簡單操作,擁有遠勝于CPU的強大浮點計算能力。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

GPU和CPU的核心設計思路對比

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

GPU和CPU的核心對比

后摩爾時代,隨著GPU的可編程性不斷增強,GPU的應用能力已經(jīng)遠遠超出了圖形渲染,部份GPU被用于圖形渲染以外領域的計算成為GPGPU。與此同時,CPU為了追求通用性,只有少部分晶體管被用于完成運算,而大部分晶體管被用于構建控制電路和高速緩存。但是由于GPU對CPU的依附性以及GPU相較CPU更高的開發(fā)難度,所以GPU不可能完全取代CPU。我們認為未來計算架構將是GPU+CPU的異構運算體系。

在GPU+CPU的異構運算中,GPU和CPU之間可以無縫地共享數(shù)據(jù),而無需內存拷貝和緩存刷新,因為任務以極低的開銷被調度到合適的處理器上。CPU憑借多個專為串行處理而優(yōu)化的核心運行程序的串行部份,而GPU使用數(shù)以千計的小核心運行程序的并行部分,充分發(fā)揮協(xié)同效應和比較優(yōu)勢。

異構運算除了需要相關的CPU和GPU等硬件支持,還需要能將它們有效組織的軟件編程。OpenCL是(OpenComputing Language)的簡稱,它是第一個為異構系統(tǒng)的通用并行編程而產(chǎn)生的統(tǒng)一的、免費的標準。OpenCL支持由多核的CPU、GPU、Cell架構以及信號處理器(DSP)等其他并行設備組成的異構系統(tǒng)。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

OpenCL異構運算構成

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

異構運算下的GPU工作流程

GPU與ASIC和FPGA的對比:數(shù)據(jù)、算力和算法是AI三大要素,CPU配合加速芯片的模式成為典型的AI部署方案,CPU提供算力,加速芯片提升算力并助推算法的產(chǎn)生。常見的AI加速芯片包括GPU、FPGA、ASIC三類。

GPU用于大量重復計算,由數(shù)以千計的更小、更高效的核心組成大規(guī)模并行計算架構,配備GPU的服務器可取代數(shù)百臺通用CPU服務器來處理HPC和AI業(yè)務。

FPGA是一種半定制芯片,靈活性強集成度高,但運算量小,量產(chǎn)成本高,適用于算法更新頻繁或市場規(guī)模小的專用領域。

ASIC專用性強,市場需求量大的專用領域,但開發(fā)周期較長且難度極高。

在AI訓練階段需要大量數(shù)據(jù)運算,GPU預計占64%左右市場份額,F(xiàn)PGA和ASIC分別為22%和14%。推理階段無需大量數(shù)據(jù)運算,GPU將占據(jù)42%左右市場,F(xiàn)PGA和ASIC分別為34%和24%。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

不同應用場景AI芯片性能需求和具體指標

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

GPU、FPGA、ASIC AI芯片對比

在PC誕生之初,并不存在GPU的概念,所有的圖形和多媒體運算都由CPU負責。但是由于X86 CPU的暫存器數(shù)量有限,適合串行計算而不適合并行計算,雖然以英特爾為代表的廠商多次推出SSE等多媒體拓展指令集試圖彌補CPU的缺陷,但是僅僅在指令集方面的改進不能起到根本效果,所以誕生了圖形加速器作為CPU的輔助運算單元。

GPU的發(fā)展史概括說來就是NVIDIA、AMD(ATI)的發(fā)展史,在此過程中曾經(jīng)的GPU巨頭Imagination、3dfx、東芝等紛紛被后輩超越。如今獨立顯卡領域主要由英偉達和AMD控制,而集成顯卡領域由英特爾和AMD控制。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

GPU的發(fā)展史

英偉達的GPU架構自2008年以來幾乎一直保持著每2年一次大更新的節(jié)奏,帶來更多更新的運算單元和更好的API適配性。在每次的大換代之間,不乏有一次的小升級,如采用開普勒二代微架構的GK110核心相較于采用初代開普勒微架構的GK104核心,升級了顯卡智能動態(tài)超頻技術,CUDA運算能力提升至3.5代,極致流式多處理器(SMX)的浮點運算單元提升8倍,加入了Hyper-Q技術提高GPU的利用率并削減了閑置,更新了網(wǎng)格管理單元(Grid Management Unit),為動態(tài)并行技術提供了靈活性。

英偉達GPU微架構的持續(xù)更新,使英偉達GPU的能效提升了數(shù)十倍,占領了獨立顯卡技術的制高點。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

2008-2020英偉達GPU微架構進化

圖形API在GPU的運算過程中發(fā)揮著連接高級語言、顯卡驅動乃至底層匯編語言的作用,充當GPU運行和開發(fā)的“橋梁”和“翻譯官”。微軟DirectX標準可以劃分為顯示部份、聲音部份、輸入部分和網(wǎng)絡部分,其中與GPU具有最直接關系的是顯示部分。顯示部份可分為DirectDraw和Direct3D等標準,前者主要負責2D圖像加速,后者主要負責3D效果顯示。

從1995年發(fā)布的初代DirectX 1.0開始微軟的DirectX已經(jīng)更新到了DirectX 12。在此過程中,DirectX不斷完善對各類GPU的兼容,增加開發(fā)人員的權限,提高GPU的顯示質量和運行幀數(shù)。

DirectX一般和Windows操作系統(tǒng)同步更新,如Windows 7推出了DX11、Windows 10推出了DX12。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

1998-2014微軟DirectX進化

GPU和CPU都是以先進制程為導向的數(shù)字芯片。先進制程可以在控制發(fā)熱和電能消耗的同時,在有限的Die中放入盡可能多的晶體管,提高GPU的性能和能效。

NVIDIA的GPU從2008年GT200系列的65納米制程歷經(jīng)12年逐步升級到了RTX3000系列的7/8納米制程,在整個過程中,晶體管數(shù)量提升了20多倍,逐步確立了在獨立GPU的市場龍頭地位。

同時在整個過程中,NVIDIA一直堅持不采用IDM的模式,而是讓臺積電負責GPU的制造,自生專注于芯片設計,充分發(fā)揮比較優(yōu)勢。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

2008-2020英偉達GPU主要制程和晶體管數(shù)進化

根據(jù)前12年的GPU發(fā)展軌跡來看,GPU微架構的升級趨勢可以簡要地概括為”更多”、”更?!薄ⅰ备悄堋?。“更多”是指晶體管數(shù)量和運算單元的增加,其中包括流處理器單元、紋理單元、光柵單元等數(shù)量上升?!案鼘!笔侵赋顺R?guī)的計算單元,GPU還會增加新的運算單元。例如,英偉達的圖靈架構相較于帕斯卡架構新增加了光追單元和張量單元,分別處理實時光線追蹤和人工智能運算?!案悄堋笔侵窯PU的AI運算能力上升。如第三代的張量單元相較于上代在吞吐量上提升了1倍。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達GTX1080對比RTX2080

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達伏特微架構對比安培微架構AI加速性能

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達安培架構提升

綜合分析微軟的DirectX12、蘋果的Metal2、Khronos Group的Vulkan API分別相較于前代DirectX11、Metal、OpenGL的升級,我們認為GPU API的升級趨勢是提高GPU的運行效率、增加高級語言和顯卡驅動之間的連接、優(yōu)化視覺特效等。其中,提供更底層的支持:統(tǒng)籌高級語言、顯卡驅動和底層語言是幾乎所有API升級的主要方向。

不過提供更底層的支持只是更高的幀數(shù)或更好的畫質的必要非充分條件。在整個軟件的開發(fā)過程中,軟件開發(fā)商需要比驅動程序和系統(tǒng)層更好地調度硬件資源,才能充分發(fā)揮底層API的效果。

在顯示質量方面,DirectX 12 Ultimate采用當下最新的圖形硬件技術,支持光線追蹤、網(wǎng)格著色器和可變速率著色,PC和Xbox共用同一個API,堪稱次世代游戲的全新黃金標準。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

非底層DirectX 11對比底層DirectX 12

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

DirectX 12 Ultimate新特性

GPU制造升級趨勢:以先進制程為導向。GPU性能的三大決定因素為主頻、微架構、API。這些因素中主頻通常是由GPU的制程決定的。制程在過去通常表示晶體管或柵極長度等特征尺寸,不過出于營銷的需要,現(xiàn)在的制程已經(jīng)偏離了本意,因此單純比較納米數(shù)沒有意義。按英特爾的觀點,每平方毫米內的晶體管數(shù)(百萬)更能衡量制程。據(jù)此,臺積電和三星的7nm工藝更接近英特爾的10nm工藝。

先進的制程可以降低每一個晶體管的成本,提升晶體管密度,在GPU Die體積不變下實現(xiàn)更高的性能;先進制程可以提升處理器的效能,在性能不變的情況下,減少發(fā)熱或在發(fā)熱不變的情況下,通過提升主頻來拉高性能。

先進制程的主要目的是降低平面結構帶來的漏電率問題,提升方案可以通過改變工藝,如采用FinFET(鰭式場效應晶體管)或GAA(環(huán)繞式柵極);或采用特殊材料,如FD-SOI(基于SOI的超薄絕緣層上硅體技術)。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

先進制程工藝之FinFET

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英特爾10nm先進制程帶來的性能和效能提升

GPU制造升級趨勢:Chiplet化。高位寬內存(HBM)是小芯片(Chiplet)在GPU中的常見應用。HBM是一種高速計算機存儲器3D堆棧SDRAM接口。首款HBM于2013年推出,第二代HBM2已于2016年被JEDEC接受。目前,HBM主要應用在高端獨立顯卡和服務器顯卡。

HBM通過3D堆疊4個DRAM Die和1片邏輯Die組成一個Chiplet,其中每片DRAM具有2個128位通道,通過TSV(硅通孔)相連。所以,一片Chiplet總共8個128位通道,總位寬1024比特。每片Chiplet又與GPU封裝在同一中介層(Interposer)連接GPU芯片。相比之下,GDDR5內存的總線寬度為32位,帶有512位內存接口的顯卡也只有16個通道,而且采用傳統(tǒng)的FBGA封裝。HBM與GDDR5相比,每GB的表面積減少94%,每GB/S帶寬的能效提升2倍多。

HBM支持最多每個Chiplet 4GB的存儲,HBM2在HBM的基礎上將每片Chiplet的最大容量提升至了8GB,顯存主頻提升1倍,同時總位寬保持不變。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

HBM的GPU應用

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

GDDR5對比HBM

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

HBM先進封裝結構

GPU制造可分為IDM和Fab+Fabless。IDM集芯片設計、芯片制造、芯片封裝和測試等多個產(chǎn)業(yè)鏈環(huán)節(jié)于一身。英特爾為IDM的代表。

Fabless只負責芯片的電路設計與銷售,將生產(chǎn)、測試、封裝等環(huán)節(jié)外包。蘋果和AMD為Fabless的代表。Foundry只負責制造,不負責芯片設計,可以同時為多家設計公司服務,但受制于公司間的競爭關系。臺積電為Foundry的代表。目前英特爾GPU落后的主要原因是GPU制程的落后,根本原因是英特爾受困于IDM運作模式。隨著28納米以下先進制程的發(fā)展,芯片的制造成本和設計成本成指數(shù)級上升。同時,一條12英寸晶圓的生產(chǎn)線從建設到生產(chǎn)的周期約2年,投資至少30-50億美元,資本支出占比80%,整體風險非常大。英特爾以有限的資源不支持它持續(xù)的設計和生產(chǎn)的的兩線作戰(zhàn)。

Fab+Fabless的模式通過充分發(fā)揮比較優(yōu)勢,分散了GPU設計和制造的風險,符合半導體分工的大趨勢。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

IDM與Fab+Fabless對比

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

芯片設計費用趨勢(億美元)

過去20多年里,GPU的基本需求源于視頻加速,2D/3D游戲。隨后GPU運用自身在并行處理和通用計算的優(yōu)勢,逐步開拓服務器、汽車、礦機、人工智能、邊緣計算等領域的衍生需求。雖然GPU無法離開CPU獨立運作,但是在當前“云化”加速的時代,離開了GPU的CPU也無法勝任龐大的計算需求。所以GPU和CPU組成了異構運算體系,從底層經(jīng)由系統(tǒng)軟件和驅動層支持著上層的各種應用。GPU已經(jīng)成為了專用計算時代的剛需。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

現(xiàn)代云計算中GPU加速的剛需

二、GPU的全球格局

2020年全球GPU市場價值預計為254.1億美元,預計2027年將達到1853.1億美元,年平均增速為32.82%。按GPU的類型進行劃分,市場可以細分為獨立、集成和混合。2019年,集成GPU占GPU市場的主導地位,但是由于混合GPU同時擁有集成和專用GPU的能力,所以混合細分市場預計實現(xiàn)最高復合增長率。

按GPU的設備進行劃分,市場可細分為計算機、平板電腦、智能手機、游戲機、電視、其他。就收入而言,智能手機細分市場占比最大,在未來也將保持這一趨勢。但是,由于醫(yī)療等其他設備中對小型GPU的需求不斷增加,預計未來的年復合增長率將最高。

按GPU的行業(yè)進行劃分,市場可細分為電子、IT與電信、國防與情報、媒體與娛樂、汽車、其他。由于GPU在設計和工程應用中的廣泛使用,預計汽車細分行業(yè)的年復合增長率最高。

按GPU的地理區(qū)域劃分,市場可細分為北美、歐洲、亞太和其他地區(qū)。亞太地區(qū)在2019年主導了全球GPU市場,預計在整個預測期內將保持主導地位。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

全球GPU市場規(guī)模預測

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

2015-2025全球前三GPU供應商營收總和

全球GPU已經(jīng)進入了寡頭壟斷的格局。在傳統(tǒng)GPU市場中,排名前三的Nvidia、AMD、Intel的營收幾乎可以代表整個GPU行業(yè)收入。英偉達的收入占56%、AMD占26%、英特爾占18%。

在手機和平板GPU方面,聯(lián)發(fā)科、海思麒麟、三星Exynos的GPU設計主要基于公版ARM MaliGPU或PowerVR微架構。高通驍龍Adreno和蘋果A系列采用自研GPU微架構。2019Q2,ARM、高通、蘋果、Imagination科技、英特爾是全球智能手機和平板的前五大GPU供應商。同期ARM Mali在以上五大GPU供應商中占43%的市場份額,高通Adreno占36%的份額,蘋果占12%的份額。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

2019前三家GPU供應商收入份額對比

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

2019 Q2手機和平板GPU供應商份額

1、英偉達

英偉達公司成立于1993年,于1999年率先推出“GPU”的圖形解決方案。公司主要設計游戲和專業(yè)市場的GPU,移動計算和自動駕駛汽車的SoC,是GPU計算領域公認的全球領導者。它主要的GPU產(chǎn)線“GeForce”和AMD的“Radeon”形成直接競爭。同時,英偉達為了拓展移動游戲平臺,推出了掌機Shield、Shield平板、Shield電視盒子和云游戲服務GeForce Now。目前,公司已經(jīng)完成了由芯片供應商向計算平臺的轉型。

英偉達的四大增長驅動力分別是游戲業(yè)務、數(shù)據(jù)中心業(yè)務、專業(yè)視覺業(yè)務、自動駕駛業(yè)務,各業(yè)務的代表性GPU方案分別是GeForce,DGX、EGX、HGX,Quadro、AGX。

英偉達2021財年營收167億美元,其中游戲、數(shù)據(jù)中心、專業(yè)視覺、自動駕駛業(yè)務在2020財年分別貢獻了營收的47%、40%、6%、3%。公司繼2014年毛利率突破50%后,于2021財年毛利率突破60%。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達2021財年的業(yè)務構成

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達的主要增長驅動力

英偉達的游戲業(yè)務由GeForce和Shield組成。其中Shield面向移動端和云,GeForce面向PC。游戲筆記本和云游戲是公司拓展市場的2大方向。GeForce是英偉達游戲業(yè)務的核心。GeForce是全球最大的游戲平臺,擁有超過2億名玩家。在PC游戲領域,英偉達的營收是其他主要GPU供應商的三倍多。GeForce已經(jīng)來到了RTX30系列,采用第二代NVIDIA RTX架構-NVIDIA安培架構,搭載全新的RT Core、Tensor Core及流式多處理器,擁有RTX游戲、DLSS、G-SYNC、DirectX12等先進技術,可帶來逼真的光線追蹤效果和先進的AI性能。

除了PC游戲市場,英偉達也向合作伙伴–任天堂Switch主機提供定制版Tegra SoC。作為合作的一部分,Shield主機可以暢享任天堂的游戲,GameStream串流游戲和熱門游戲,實現(xiàn)4KHDR畫質,支持百度DuerOS對話式人工智能。

英偉達的數(shù)據(jù)中心業(yè)務的技術根源是CUDA(統(tǒng)一計算設備架構)。CUDA首次推出于2006年的G80核心,隸屬于通用并行計算架構,創(chuàng)造了GPGPU。在“安培”時代,CUDA核心已經(jīng)進化到了8.0,被運用在幾乎所有的英偉達產(chǎn)品線。

CUDA兼容DirectCompute、OpenCL等計算接口。與Direct3D、OpenGL等高級圖形API相比,CUDA可以使開發(fā)者更容易使用GPU資源。當前,CUDA在廣義上既代表GPU的硬件平臺又代表GPU的軟件平臺。

在硬件平臺方面,CUDA包含了CUDA指令集以及GPU內部的并行計算引擎。GPU平臺的矢量運算如INT、FP32、FP64都由CUDA承擔。開發(fā)人員可以使用C語言和Fortran語言為CUDA編寫程序。

在軟件平臺方面,基于CUDA的CUDA-X加速庫、工具和科技集合,向上對接不同的行業(yè)應用需求。在英偉達的軟件棧體系中,分為CUDA-X AI和CUDA-X HPC,分別面向AI和HPC兩大領域,可以在人工智能和高性能計算方面提供遠超其他競品的性能。CUDA-X的開發(fā)者已經(jīng)超過100萬。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達CUDA-X HPC

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達CUDA-X AI

英偉達數(shù)據(jù)中心的產(chǎn)品包括適用于AI的DGX系統(tǒng),適用于邊緣計算的EGX平臺,適用于超算的HGX平臺、適用于數(shù)據(jù)處理的DPU、簡化深度學習,機器學習,高性能計算的NGC目錄。相關的GPU加速器有采用安培架構的A100、A40,采用圖靈架構的T4、RTX6000、RTX8000,采用伏特架構的V100。

過去5個財年中,英偉達數(shù)據(jù)中心的營收從8.3億美元上升至66.96億美元,年復合增速69%。同時,公司的注冊開發(fā)者超過200萬,與主要的云供應商如谷歌、騰訊、阿里建立了供應關系,世界500強超算中的份額從6%上升至70%。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達主要云合作伙伴

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達數(shù)據(jù)中心營收趨勢

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達在超算500強中份額

英偉達專業(yè)視覺業(yè)務主要由Quadro產(chǎn)品線組成。Quadro在GeForce的基礎上加強了NVLink、GPU的通用計算性能和顯存容量,擁有Iray、Omniverse平臺、材質定義語言等特有技術。Quadro被廣泛應用在臺式工作站、筆記本電腦、EGX服務器、虛擬工作空間、云端、定制化方案中。英偉達Quadro方案有超過50種應用、4000萬設計用戶和2000萬企業(yè)用戶,并正在不斷解鎖新市場。

在過去的5個財年,英偉達專業(yè)視覺的營收從8.35億美元上升至10.53億美元,年復合增速6%。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達專業(yè)視覺GPU加速合作伙伴

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達專業(yè)視覺營收趨勢

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達專業(yè)視覺方案

英偉達的汽車產(chǎn)品包括相關駕駛軟件、駕駛基礎設計、AGX平臺,提供訓練、模擬、智能駕駛艙體驗、高清地圖和定位等解決方案。在絕對性能方面,搭載4顆Drive AGX Origin的蔚來ADAM超算平臺支持L4以上自動駕駛,超過7個特斯拉FSD算力總和。

不同于特斯拉自動駕駛追求軟硬件的高度契合,英偉達的方案更追求開放性。公司在汽車領域的合作伙伴以軟件服務和轎車居多,分別達到了76家和42家。同時,公司與大眾、豐田、本田、奔馳、寶馬、奧迪、沃爾沃、馬牌、滴滴、采埃孚、蔚來、小鵬、圖森等世界知名公司建立了強力的生態(tài)。

在過去的5個財年,英偉達自動駕駛的營收從4.87億美元上升至5.36億美元,年復合增速3%。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達自動駕駛營收趨勢

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達自動駕駛合作伙伴分布數(shù)

2020年9月13日,NVIDIA宣布以400億美元收購ARM。本次收購意義可以細分為以下5個方面:

1. 創(chuàng)造AI時代的世界級計算公司,將英偉達領先的AI計算平臺和ARM龐大的CPU生態(tài)相結合;

2. 通過英偉達在移動端和PC等大型終端市場的科技拓展ARM的IP授權組合;

3. 加速ARM的服務器CPU、數(shù)據(jù)中心、邊緣AI、IoT發(fā)展;

4. 將英偉達計算平臺的開發(fā)者由200萬提升至超過1500萬;

5. 并購可以立即增加英偉達的非GAAP毛利率和非GAAP每股收益;

合并后的英偉達將把計算從云、智能手機、PC、自動駕駛車和機器人技術推進到了邊緣物聯(lián)網(wǎng),將AI計算拓展到全球,在拓展大規(guī)模、高增長市場的同時加速創(chuàng)新。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英偉達從云到邊緣

2、全球GPU先驅:AMD

AMD是全球唯一可以同時提供高性能GPU和CPU的企業(yè)。AMD的顯卡來源于2006年并購的ATI科技。在這之后的4年中,AMD繼續(xù)使用ATI作為顯卡品牌。直到2010年,AMD才拋棄原ATI的品牌命名方式。

目前,AMD同時提供獨立GPU和集成GPU,其集成GPU主要運用在Ryzen APU、嵌入式、半定制平臺中,獨立GPU分為Radeon和Instinct系列,主要用于游戲、專業(yè)視覺、服務器等應用。

過去六年,AMD的計算和圖形收入的營收由18.05億美元上升至64.32億美元,年復合增速29%。

未來五年,AMD計劃成為高性能計算的領導者,提供顛覆性的CPU和GPU方案。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

AMD計算和圖形部門營收

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

AMD GPU的聚焦領域

AMD的集成GPU主要被運用在臺式機和筆記本的APU產(chǎn)品中,和CPU組成異構運算單元。臺式和筆記本APU的GPU部份共用微架構和核心技術,二者GPU的主要差異在于TDP和處理單元的數(shù)量,臺式強于筆記本。

“Renior”APU的GPU繼續(xù)使用Vega微架構,但受益于7納米制程,每個處理單元效能顯著提升。

7納米Vega的提升包括:數(shù)據(jù)網(wǎng)絡翻倍、優(yōu)化低功耗狀態(tài)轉換、25%主頻提升、77%存儲位寬提升。這些提升帶來了在保持15W功耗不變的前提下,每個計算單元59%的性能提升、1.79TFLOPS的32位浮點峰值吞吐。

在3DMark Time Spy(DX12)的跑分中,7納米的Ryzen 4800U的GPU表現(xiàn)超過10納米i7-1065G7,是14納米i7-10710U的2倍以上。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

AMD “RENIOR”APU

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

▲AMD “RENIOR”APU內核解析

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

▲AMD “RENIOR”APU跑分對比

AMD的Radeon系列游戲獨立GPU按微架構推出時間依次遞減可以分為RX6000系列、RX5000系列、Radeon 7、 RX500系列。以上四大系列中,除RX500系列外均采用臺積電7納米制程。

2020年11月推出的RDNA2微架構相較于前代RDNA絕對性能最高提升一倍,能效提高54%,支持DirectX12 Ultimate,硬件光線追蹤和可變速率著色器等先進技術。搭載16GBGDDR6顯存和128MB InfinityCache高速緩存的RX 6900XT的游戲性能接近英偉達的RTX 3090。

為了發(fā)揮AMD CPU和GPU的協(xié)同效應,Radeon擁有AMD SmartAccess Memory技術,銳龍CPU和顯卡之間能實現(xiàn)更出色的通信。RX6800系列顯卡在部分游戲中4K畫質性能額外提升最高可達7%。

2022年前,AMD將基于更先進的制程打造RDNA3微架構,進一步強化光追等計算表現(xiàn)。

除了傳統(tǒng)的BGA顯存封裝,AMD還積極運用HBM系列顯存。在Radeon7中,16GB的HBM2顯存擁有1TB/S的帶寬,超過同期Titan RTX 50%。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

AMD獨立游戲GPU路線圖

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

AMD獨立游戲GPU產(chǎn)品線

AMD的數(shù)據(jù)中心GPU業(yè)務由Radeon Instinct加速器系列、以客戶為核心的數(shù)據(jù)中心解決方案和ROCm組成。AMD的主要合作伙伴包括戴爾、惠普等OEM,同時AMD也向微軟AZURE和亞馬遜網(wǎng)絡服務提供視覺云解決方案。

ROCm是全球首個針對加速式計算且不限定編程語言的超大規(guī)模開源平臺,遵循UNIX的選擇哲學、極簡主義以及針對GPU計算的模塊化軟件開發(fā)。

ROCm適合大規(guī)模計算,支持多路GPU,有豐富的系統(tǒng)運行庫,包括框架、庫、編程模型、互聯(lián)和Linux Kernel上游支持,提供各種重要功能來支持大規(guī)模應用、編譯器和語言運行庫的開發(fā)。

AMD正與美國能源部、橡樹嶺國家實驗室和Cray公司合作,使用EPYC(霄龍)CPU、Radeon Instinct GPU和ROCm打造超過150億億次FLOPS的全球最快超算平臺。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

AMD ROCm開源軟件生態(tài)

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

AMD數(shù)據(jù)中心GPU產(chǎn)品線

Radeon Instinct MI 100加速器采用專注計算的CDNA微架構,在計算和連接方面實現(xiàn)了巨大飛躍,與AMD上一代加速器相比,高性能計算工作負載(FP32矩陣)性能提升近3.5倍,而人工智能工作負載(FP16)性能提升近7倍。InstinctMI 100在FP32和FP64的峰值TFLOPS中超越了同期英偉達安培A100,同時功耗比后者低100瓦。

為了滿足多路GPU的互聯(lián)通訊需求,AMD研發(fā)了InfinityFabric技術。Infinity Fabric擁有先進的平臺連接性和可拓展性,最多支持4路GPU互聯(lián)。P2P帶寬是PCIe 4.0的2倍,四GPU集群的P2P帶寬最高可達552GB/s。

未來,AMD將基于更先進的制程打造CDNA2微架構,進入百億億級時代。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

Instinct MI 100與安培A100對比

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

AMD數(shù)據(jù)中心GPU路線圖

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

AMD Infinity Fabric互聯(lián)

AMD的其他獨立GPU主要包括嵌入式、半定制化、Radeon Pro工作站顯卡。半定制化獨立顯卡主要倍運用在索尼、微軟的本世代和次世代主機中。如今,AMD的技術存在于2.2億個家庭暢享游戲和視頻娛樂時所用設備的核心。

嵌入式GPU的特點包括卓越的圖形性能、多屏顯示、外形緊湊、高能效、長期供貨。嵌入式GPU分為超高性能嵌入式GPU、高性能嵌入式GPU、高能效嵌入式GPU,它們主要使用14納米的GCN 1.4北極星微架構,TDP覆蓋20W-135W范圍。

Radeon Pro系列顯卡被廣泛應用于建筑工程、設計制造、媒體娛樂等領域,擁有AMD遠程工作站、AMD Eyefinity多屏顯示技術、AMD Radeon ProRender等技術。Radeon Pro系列采用Vega微架構,7或14納米制程,直接競爭對手是英偉達的Quadro系列。Radeon Pro移動和臺式工作站的合作伙伴包括蘋果、戴爾、惠普等。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

Radeon? Pro VII GPU規(guī)格

3、英特爾:全球GPU追趕者

英特爾是全球最大的PC GPU供應商,也是PC和服務器顯卡唯一的IDM廠商。英特爾的GPU最早可以追溯到1998年的i740,但是由于羸弱的性能和緩慢的更新速度,一直沒有非常大的起色。進入Core i時代后,英特爾通過將核芯顯卡和CPU進行捆綁銷售,利用CPU的龐大市場份額,確立了公司在集成GPU領域的寡頭壟斷地位,在此過程中AMD的APU一直是酷睿的直接競爭對手。

2020年,英特爾推出了第12代GPGPU,采用全新的Xe微架構和10納米Super Fin制程。相較于第11代核顯,Xe-LP在保持電壓不變的前提下,大幅提升主頻,能效顯著提高。搭載Xe-LP的i7 1185G7在GPU性能方面已經(jīng)超過同期AMD的Vega核顯和英偉達的MX系列獨顯。

Xe系列可以細分為,集成/低功耗的Xe-LP、娛樂/游戲的Xe-HPG、數(shù)據(jù)中心/高性能的Xe-HP、高性能計算的Xe-HPC。

目前,Xe-LP的集成版本已經(jīng)被第11代酷睿所采用。Xe-LP的移動獨立GPU版本DG1和服務器獨立GPU版本SG1也已發(fā)布。獨顯版在核顯版的基礎上進一步提升主頻,并加入了128位4GB LPDDR4X-4266獨立顯存,單精度浮點算力提升15%。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英特爾Xe縱向對比第11代核顯

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英特爾Xe產(chǎn)品線

英特爾的集成GPU在形式上表現(xiàn)為核芯顯卡。核芯顯卡使用系統(tǒng)DRAM作為非獨立顯存,通過處理器內部的環(huán)狀總線與CPU連接,負責處理游戲、視頻娛樂等圖像負載。

英特爾Xe核顯借助10納米SuperFin的優(yōu)勢,將處理單元最高提升至96個,相較于Icelake的64個提升了50%,并且將連接CPU和GPU的總線帶寬提升一倍,獨立最終緩存(LLC)提高50%,支持最高86GB/s的存儲帶寬。以上這些提升使i7-1185G7的3DMark跑分較前代i7-1065G7提升接近一倍,超過AMD的R74800U和同期英偉達的MX350。

Xe核顯的顯示引擎和媒體引擎也都得到加強。接口方面,內部支持雙eDP,外部支持DP1.4、HDMI2.0、雷電4、USB4 Type-C。畫質方面,支持8K、HDR10、12比特BT2020色域、360赫茲刷新率等。

英特爾Xe核心顯卡和CPU經(jīng)由自家One API驅動中間層框架和上層應用。英特爾One API解決了編碼模型在不同微架構間的壁壘,最大化跨平臺表現(xiàn)和最小化開發(fā)成本。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英特爾Tiger Lake 實物圖和Die

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英特爾Tiger Lake Xe核顯3DMark性能對比

英特爾獨立GPU分為銳炬Xe MAX和服務器GPU,均隸屬于Xe LP系列,微架構與核顯Xe相同,采用標準封裝和10納米SuperFin制程。

目前,銳炬Xe MAX是第一款基于英特爾 Xe 架構的面向輕薄型筆記本電腦的GPU。銳炬Xe MAX在Xe集成GPU的基礎上增加了4GBLPDDR4X-4266的獨立顯存,TDP 25W,峰值主頻1650MHz,單精度浮點性能2.46TFLOPs。銳炬Xe MAX可以和11代酷睿處理器、銳炬Xe GPU同時工作。借助英特爾Deep Link技術,獲得具有強大性能和經(jīng)過功耗優(yōu)化的集成系統(tǒng),以改進創(chuàng)造力和游戲體驗。

目前,英特爾服務器GPU在Xe核顯的基礎上,TDP提升到23W,增加了8GB LPDDR4的獨立顯存,支持高密度、低延遲的安卓云游戲和高密度媒體轉碼/編碼,以實現(xiàn)實時的OTT視頻直播。同時,英特爾服務器GPU支持2顆、4顆獨立GPU的聚合,成倍提高性能。

未來,英特爾還將推出面向游戲和高性能桌面的Xe HPG產(chǎn)品線,增加了光線追蹤等硬件支持,采用傳統(tǒng)封裝,外包生產(chǎn)。英特爾服務器GPU將使用Xe HPC、Xe HP微架構,采用2.5D和3D先進封裝,10納米SuperFin及更先進自家或外包工藝。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英特爾Xe服務器GPU參數(shù)

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英特爾Xe產(chǎn)品、封裝、制程

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

英特爾銳炬Xe MAX

4、ARM Mali:全球GPU IP巨頭

ARM是全球最大的半導體IP提供商。全世界超過95%的智能手機和平板電腦都采用ARM架構。2019Q2,全球近43%的手機和平板GPU由Mali驅動。2020第四季度,ARM半導體合作伙伴基于ARM技術的芯片出貨量達到67億顆,再創(chuàng)歷史新高,超過其他所有流行的CPU指令集架構—X86、ARC、Power、MIPS的總和。

國產(chǎn)SoC中,有95%是基于ARM處理器技術,ARM中國授權客戶超過150家,基于ARM架構的國產(chǎn)芯片出貨量已經(jīng)超過184億。

ARM的Mali GPU按性能可以分為3大類,分別是高性能、主流、高能效。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

ARM IP組合和SoC設計

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

ARM Mali GPU路線圖

Arm Mali-G78 GPU是用于高端設備的第二代基于Valhall架構的GPU。Mali-G78是性能最高的ArmGPU,可支持復雜的應用,例如適用于Vulkan和OpenCL等所有最新API的游戲圖形和機器學習(ML)。

Mali-G78與上一代設備相比,GPU性能提高了25%,并增強了設備上的ML功能,從而有助于將高度復雜的游戲帶入移動設備。Mali-G78最多支持24個內核,并包含異步頂級功能,可確保性能有效地分布在各個內核上,從而使圖形運行更加流暢。全新執(zhí)行引擎中的新型融合乘加(FMA)單元可進一步降低30%的單元能耗。

在GFXBench Aztec Ruin的跑分中,使用臺積電5納米工藝,搭載24個Mali-G78內核的麒麟9000 SoCGPU的幀數(shù)強于驍龍865的Adreno 650,但仍落后于蘋果A14。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

ARM Mali-G78

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

麒麟9000系列的ARM Mali-G78應用

Imagination Technologies是一家總部在英國,專注于半導體和相關知識產(chǎn)權許可,銷售PowerVR移動圖形處理器,MIPS嵌入式微處理器和消費電子產(chǎn)品。公司還提供無線基帶處理,網(wǎng)絡,數(shù)字信號處理器,視頻和音頻硬件,IP語音軟件,云計算,以及芯片和系統(tǒng)設計服務。2017年,董事會宣布公司被中資的Canyon Bridge收購。

Imagination在GPU領域歷史悠久,在其超過25年的歷史中,Imagination先后推出過多代GPU產(chǎn)品,已積累超過1500項GPU專利,曾為蘋果供應圖像處理器(GPU),在圖像處理器(GPU)領域與高通、ARM三分天下,曾占GPU市場大約占據(jù)三分之一的份額,在汽車領域更是達到43%。帶有Imagination IP的芯片產(chǎn)品累計出貨量已超過110億。

Imagination的IP包括圖形處理器和視覺與人工智能2類。公司Power VR產(chǎn)品被廣泛應用于移動設備(智能手機、平板)、汽車(儀表、信息娛樂、輔助駕駛)、沉浸式體驗(AR/VR)、消費電子(電視、機頂盒)。

根據(jù)Imagination的GPU路線圖,在A系列GPU性能最高提升2.5倍之后,B系列到D系列GPU的年復合增速在30%左右。2021年的C系列GPU將首次加入L4級別的光線追蹤,從硬件層面支持一致性分類的層次包圍體(BVH)和復雜光線處理,相比目前英偉達和AMD的L3級別光線追蹤方案可顯著提升能效,實現(xiàn)更好的用戶體驗。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

IMG系列GPU路線圖

5、全球GPU IP巨頭:Imagination

2020年10月,Imagination推出了全新的IMG B系列GPU,這是公司第一個包含新多核架構的GPU IP系列,也是首次采用RISC-V,可提供最高的性能密度。得益于多核架構和Imagination圖像壓縮技(IMGIC),B系列相比A系列,功耗降低30%,帶寬降低35%、面積縮減25%,AI算力達到24 TOPS,且填充率比競品IP內核高2.5倍。與A系列相似,B系列GPU也支持AI協(xié)同技術,在提供圖形處理功能的同時,可用備用資源來處理可編程AI等任務。

IMG B系列GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四種系列。其中IMG BXE面向高清顯示應用,IMG BXM主打圖形處理體驗,IMG BXT面向高性能應用,IMG BXS面向未來汽車。

BXS系列符合ISO 26262標準,也是迄今為止所開發(fā)的最先進汽車GPU IP內核。BXS提供了一個完整的產(chǎn)品系列,從入門到高端,可為下一代人機界面(HMI)、UI顯示、信息娛樂系統(tǒng)、數(shù)字駕艙、環(huán)繞視圖提供解決方案。高計算能力的配置可支持自動駕駛和ADAS。

憑借核心可擴展的優(yōu)勢,IMG B系列適用于傳統(tǒng)移動設備、消費類設備、物聯(lián)網(wǎng)、微控制器、數(shù)字電視(DTV)和汽車等市場領域。IMG B系列也可擴展至桌面GPU、云端GPU服務器,且支持自動駕駛和輔助駕駛等。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

IMG B系列對比A系列能效提升

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

Imagination GPU組合

6、高通Adreno:全球移動GPU先驅

高通的自研GPU Adreno源于收購的AMD移動GPU Imageon系列。早期的Adreno 100系列只有2D圖形加速和有限的多媒體功能。2008年發(fā)布的Adreno 200是首款被集成到驍龍SoC中的GPU,并加入了3D硬件加速功能。

2020年12月,高通推出了搭載Adreno 660的驍龍888 SoC。Adreno 660繼承了Adreno650的微架構,采用了三星5納米LPE工藝,大幅提高主頻,使圖形渲染性能提高35%,能效提高20%。Adreno 660全面支持Qualcomm? Snapdragon Elite Gaming和Qualcomm? Game Quick Touch ,二者將可變速率渲染和響應速度分別提升30%和20%。

在GFXBench Aztec Ruin 1080P測試中,Adreno 660的峰值幀數(shù)追平麒麟9000,但相較蘋果A14仍有近20%的差距。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

高通Adreno 660 1080P性能對比

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

高通Adreno 660 GPU

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

高通Adreno 660參數(shù)

7、蘋果:全球移動GPU新秀

蘋果的自研GPU首次出現(xiàn)于2017年的A11 SoC。A11的三核心GPU作為蘋果的首款自研GPU,其性能超過采用Power VR GT7600+的A10 GPU 30%。其后,所有的A系列SoC的GPU均為蘋果自研。

2020年,蘋果推出了5納米制程的M1芯片,該款SoC基于A14芯片,在CPU、GPU、NPU、緩存等各方面都進行了強化,用于驅動蘋果的Mac產(chǎn)品。M1芯片的發(fā)布標志著蘋果繼2005年放棄IBM的PowerPC指令集轉向Intel的X86指令集后的又一大PC領域轉換。

采用8核GPU的M1擁有128個執(zhí)行單元,可以同步運行近25000個線程,單精度浮點算力達到2.6 TFLOPs。M1 GPU的能效表現(xiàn)是當時同類PC中集成GPU的三倍,峰值性能最高可達其他GPU的2倍。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

蘋果M1 GPU參數(shù)

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

蘋果M1能效對比

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

蘋果M1 8核GPU

三、國產(chǎn)GPU自主之路

國產(chǎn)GPU的發(fā)展落后于國產(chǎn)CPU,直到2014年4月,景嘉微才成功研發(fā)出國內首款國產(chǎn)高性能、低功耗GPU芯片—JM5400。在國產(chǎn)GPU的開發(fā)中,GPU對CPU的依賴性和GPU的高研發(fā)難度,阻礙了該產(chǎn)業(yè)的快速發(fā)展。

首先,GPU對CPU有依賴性。GPU結構沒有控制器,必須由CPU進行控制調用才能工作,否則GPU無法單獨工作。所以國產(chǎn)CPU較國產(chǎn)GPU先行一步是符合芯片產(chǎn)業(yè)發(fā)展邏輯的。

再者,GPU技術難度很高。Moor Insights & Strategy首席分析師莫海德曾表示:“相比CPU,開發(fā)GPU要更加困難,而GPU設計師、工程師和驅動程序的作者都要更少?!眹鴥热瞬湃笨谝彩菄a(chǎn)GPU發(fā)展緩慢的重要原因之一。在芯片行業(yè),一般來說,培養(yǎng)一位擁有豐富經(jīng)驗并且能夠根據(jù)市場動態(tài)及時修改芯片設計方案的成熟工程師,至少需要10年。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

國產(chǎn)GPU公司及其業(yè)務簡介

中國GPU市場規(guī)模和潛力非常大,龐大的整機制造能力意味著巨量的GPU采購。雖然近些年,計算機整機和智能手機產(chǎn)量增長都出現(xiàn)瓶頸,但由于這兩類產(chǎn)品體量龐大,2019年國內智能手機出貨量為3.72億部,電子計算機整機年產(chǎn)量達到3.56億臺,GPU的需求量大且單品價值非常高,市場規(guī)模依然非??捎^。

同時,服務器GPU伴隨著整機出貨的快速成長,需求量增長也較為迅速。據(jù)統(tǒng)計,2018年國內服務器出貨量達到330.4萬臺,同比增長26%,其中互聯(lián)網(wǎng)、電信、金融和服務業(yè)等行業(yè)的出貨量增速也均超過20%。另外,國內在物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、人工智能等新興計算領域,對GPU也存在海量的需求。

據(jù)統(tǒng)計,近年來中國集成電路自給率不斷提升,2018年為13%,預計2020年有望提升至15%,但仍然處于較低水平。根據(jù)國務院印發(fā)的《新時期促進集成電路產(chǎn)業(yè)和軟件產(chǎn)業(yè)高質量發(fā)展的若干政策》等文件,中國芯片自給率要在2025年達到70%,這將產(chǎn)生8000億元的國產(chǎn)芯片需求。中國芯片產(chǎn)業(yè)發(fā)展空間非常大。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

2019年中國大陸集成電路進口額結構

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

2012-2020年中國大陸集成電路自給率

1、景嘉微:具有完全自主知識產(chǎn)權,打破國外GPU長期壟斷

長沙景嘉微電子股份有限公司成立于2006年4月,位于長沙市高新技術開發(fā)區(qū),公司擁有經(jīng)驗豐富的集成電路設計團隊,是國產(chǎn)GPU的主要參與者,也是唯一自主開發(fā)并已經(jīng)大規(guī)模商用的企業(yè)。

2014年4月,成功研發(fā)出國內首款國產(chǎn)高可靠、低功耗GPU芯片-JM5400,具有完全自主知識產(chǎn)權,打破了國外產(chǎn)品長期壟斷我國GPU市場的局面,在多個國家重點項目中得到了成功的應用;

2018年8月,公司自主研發(fā)的新一代高性能、高可靠GPU芯片-JM7200流片成功,將國產(chǎn)GPU的技術發(fā)展提高到新的水平,可為各類信息系統(tǒng)提供強大的顯示能力;

2019年,公司在JM7200基礎上,推出了商用版本-JM7201,滿足桌面系統(tǒng)高性能顯示需求,并全面支持國產(chǎn)CPU和國產(chǎn)操作系統(tǒng),推動國產(chǎn)計算機的生態(tài)構建和進一步完善。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

景嘉微發(fā)展歷程

景嘉微已完成兩個系列、三款GPU的量產(chǎn)應用,產(chǎn)品覆蓋軍用和民用兩大市場。景嘉微第一代GPU JM5400主要運用于軍用市場,替代原ATI M9、M54、M72等美系GPU芯片。景嘉微第二代GPU JM7200在產(chǎn)品性能和工藝設計上較JM5400有較大提升,是首例進入民用市場的圖形芯片。公司與國內主要CPU廠商和計算機整機廠商已建立合作關系。JM7201在JM7200的基礎上對民用市場的桌面應用進行了優(yōu)化,推出標準MXM和標準PCIE顯卡,在保證性能的同時,降低了功耗,縮小了體積。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

景嘉微國產(chǎn)GPU芯片產(chǎn)品線

景嘉微的第二代GPU JM7200系列于2018年8月流片成功,并在2019年3月獲得首個訂單。相較于前代JM5400,JM7200在理論性能上有翻倍的提升,同時制程也進化到了28納米。但是JM7200在顯存帶寬、像素填充率、浮點性能等方面較2012年發(fā)售,采用完整版GK107核心的英偉達GT640還有相當差距。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

各景嘉微GPU參數(shù)對比

2018年12月,景嘉微定增募集10.88億元,用于高性能通用圖形處理器和面向消費電子領域的通用類芯片研發(fā)和產(chǎn)業(yè)化項目。其中,高性能通用圖形處理器項目包括JM9231和JM9271兩款GPU芯片,分別面向不同應用領域的中、高檔系列產(chǎn)品。據(jù)公司2020年中報顯示,下一代圖形處理器研發(fā)處于后端設計階段,研發(fā)進程一切順利。

景嘉微JM9系列是繼JM5400和JM7200局部渲染計算內核之后,首次采用統(tǒng)一渲染結構的GPU,并且增加了可編程計算模塊數(shù)量。JM9231和JM9271在性能表現(xiàn)分別與英偉達于2016年推出的GTX1050和GTX1080相近。JM9系列的推出將使公司GPU水平與海外龍頭水平縮短至5年,大幅提升公司在GPU領域的競爭力。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

景嘉微后續(xù)高性能通用GPU性能參數(shù)對比

2、芯原微電子:國產(chǎn)GPU IP龍頭

芯原微電子是依托自主半導體IP,為客戶提供平臺化、全方位、一站式芯片定制服務和半導體IP授權服務的企業(yè)。公司至今擁有高清視頻、高清音頻及語音、車載娛樂系統(tǒng)處理器、視頻監(jiān)控、物聯(lián)網(wǎng)連接、數(shù)據(jù)中心等多種一站式芯片定制解決方案,以及5類自主可控的處理器IP,分別為圖形處理器IP、神經(jīng)網(wǎng)絡處理器IP、視頻處理器IP、數(shù)字信號處理器IP和圖像信號處理器IP,以及1,400多個數(shù)?;旌螴P和射頻IP,年均流片項目超過40個。主營業(yè)務的應用領域廣泛包括消費電子、汽車電子、計算機及周邊、工業(yè)、數(shù)據(jù)處理、物聯(lián)網(wǎng)等,主要客戶包括IDM、芯片設計公司,以及系統(tǒng)廠商、大型物聯(lián)網(wǎng)公司等。

芯原在傳統(tǒng)CMOS、先進FinFET和FD-SOI等全球主流半導體工藝節(jié)點上都具有優(yōu)秀的設計能力,先進工藝制程覆蓋14nm/10nm/7nm FinFET和28nm/22nm FD-SOI,并已開始進行5nm FinFET 芯片的設計研發(fā)和新一代 FD-SOI 工藝節(jié)點芯片的設計預研。

此外,根據(jù)Ipnest統(tǒng)計,芯原是2019年中國大陸排名第一、全球排名第七的半導體IP授權服務供應商,全球市場占有率約為1.8%。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

芯原股份發(fā)展歷程

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

2019全球IP企業(yè)市占率排名

芯原GPU IP源于公司在2016年收購的美國嵌入式GPU設計商圖芯技術(Vivante)。芯原在GPU IP領域已經(jīng)掌握了支持主流圖形加速標準、自主可控指令集和可拓展性強,性能范圍廣泛等核心技術,可廣泛應用于IOT、汽車電子、PC等市場。根據(jù) IPnest 報告,芯原GPU IP(含 ISP)市場占有率排名全球前三,僅次于ARM和Imagination,2019 年全球市場占有率約為 11.8%。

目前,芯原在圖形處理器技術的研發(fā)課題包括通用圖形處理器運算內核的持續(xù)優(yōu)化和矢量圖形處理器DDR-Less技術。矢量GPU DDR-Less技術可以在不使用外部存儲器DDR的基礎上,實現(xiàn)架構清晰、分工明確、易于使用、軟件控制流程簡單等優(yōu)點,適用于物聯(lián)網(wǎng)、可穿戴設備和車載設備。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

2019全球IP設計分類

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

芯原GPU IP的核心技術和典型應用示例

芯原可拓展Vivante GPU IP應用涵蓋從低功耗的小型物聯(lián)網(wǎng)MCU(GPU Nano IP系列)到面向汽車和計算機應用的強大SoC(GPUArcturus圖形IP),可滿足各種芯片尺寸和功耗預算,是具有成本效益的優(yōu)質圖形處理器解決方案。

芯原的的圖形處理器技術支持業(yè)界主流的嵌入式圖形加速標準Vulkan1.0、OpenGL3.2、OpenCL1.2 EP/FP和OpenVX1.2等,具有自主可控的指令集及專用編譯器,支持每秒2500億次的浮點運算能力及128個并行著色器處理單元。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

芯原GPU Nano IP產(chǎn)品線及其可應用場景

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

芯原GPU IP API和操作系統(tǒng)兼容性

芯原股份現(xiàn)有的半導體IP分為處理器IP、數(shù)?;旌螴P及射頻IP,其中GPU IP隸屬于處理器IP。整體來看,2017-2019芯原得益于不斷豐富的IP儲備及一站式芯片定制業(yè)務的協(xié)同效應,公司半導體IP授權業(yè)務收入持續(xù)上升,GPU IP的年復合增速達13%。2019年GPU IP的營收占公司半導體IP營收的31.29%,主要由于其他類型IP收入上升,GPU IP比重相對下降。

芯原在圖形處理器技術方面的研發(fā)包括高性能的通用圖形處理器GC8400 IP,該IP適用于汽車電子,目前仍處IP設計驗證階段,擬達到每秒1萬億次的浮點運算能力雙倍精密度,512個并行著色器處理單元 。

3、航錦科技

航錦科技是一家大型化工生產(chǎn)基地,公司的前身是錦西化工總廠。2017下半年,航錦科技通過收購長沙韶關和威科電子兩家軍工企業(yè),挺進電子產(chǎn)業(yè),形成化工+電子雙主業(yè)發(fā)展模式,構建起三個支撐板塊(化工、電子、金融)。

航錦科技電子板塊以芯片為核心產(chǎn)品,圍繞高端芯片與通信兩大領域,覆蓋高端芯片(圖形處理芯片/特種FPGA/存儲芯片/總線接口芯片)、北斗3芯片以及通信射頻三大主要產(chǎn)業(yè)。堅持軍民兩用為發(fā)展方向,產(chǎn)品廣泛應用于航空、航天、兵器、船舶、電子等領域,擁有廣闊的市場空間。

航錦科技的GPU技術源于并購的長沙韶光。2018年,長沙韶光自主研發(fā)和合作研發(fā)的第一代及第二代圖形處理芯片(GPU)獲得集成電路布圖設計登記證書;2019年,長沙韶光自主研發(fā)的第二代改進型圖形處理芯片在自主可控設備領域的應用得到驗證,并收獲相關訂單。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

航錦科技自主可控芯片板塊示意圖

4、兆芯:同時掌握CPU、GPU、芯片組三大核心技術

上海兆芯集成電路有限公司,簡稱“兆芯”,由上海聯(lián)合投資有限公司(上海市國資委完全出資)和中國臺灣威盛電子共同成立,也是世界上第三家擁有X86授權的微處理器公司,總部位于上海張江,在北京、西安、武漢、深圳等地設有研發(fā)中心和分支機構。

公司同時掌握CPU、GPU、芯片組三大核心技術,且具備三大核心芯片及相關IP設計與研發(fā)的能力,致力于通過技術創(chuàng)新與兼容主流的發(fā)展路線,推動信息產(chǎn)業(yè)的整體發(fā)展,并獲評了“高新技術企業(yè)資質”。兆芯提供了桌面整機,服務器,工業(yè)主板,工業(yè)平臺,系統(tǒng)級解決方案,在黨政辦公,交通,金融,能源,教育,網(wǎng)絡安全方面有著廣泛的應用。

2019Q2,兆芯發(fā)布了全新的用于PC的處理器KX-6000系列。KX-6000是業(yè)內第一款完整集成CPU、GPU、芯片組的SoC單芯片國產(chǎn)通用處理器。

KX-6000系列處理器采用16納米制程,集成高性能顯卡,支持DP/HDMI/VGA輸出,兼容DirectX、OpenGL、OpenCL等主流API,最高可同時輸出3臺顯示器,分辨率可達4K。

全新的KX-6000系列處理器擁有出色的兼容性和應用體驗,包括Windows操作系統(tǒng),日常辦公應用,4K視頻解碼和主流游戲。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

兆芯KX-6000系列兼容性和應用體驗

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

▲兆芯KX-6000處理器芯片架構?

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

▲兆芯KX-6000處理器集成顯卡參數(shù)

兆芯KX-6000的C-960 GPU在使用惠普兆芯圖形DCH驅動的情況下,Dota 2游戲性能表現(xiàn)遠落后英特爾酷睿i5-7400的UHD 630。未來,兆芯還會對KX系列處理器進行進一步的更新,使用全新的CPU架構,將內存從DDR4升級為DDR5,將總線從PCIe3.0升級至PCIe4.0。內存和總線的升級分別可以提高顯卡的帶寬和CPU與GPU間的通訊速度。

除了以上集成GPU外,兆芯還計劃發(fā)布一款采用臺積電28納米工藝,TDP 70瓦的獨立GPU。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

兆芯KX6000 GPU游戲性能對比

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

兆芯處理器發(fā)展路線圖

5、凌久電子GPU

凌久電子創(chuàng)立于1983年,是中國船舶重工集團公司第七〇九研究所控股的高新技術企業(yè)。

凌久電子以嵌入式實時信號處理與高性能計算技術為基礎,面向船舶、航空、航天、兵器等國防電子領域及軌道交通、海工裝備、能源電力、半導體制造等民用高科技領域提供芯片級、模塊級、設備級、系統(tǒng)級等軟硬件產(chǎn)品;面向科研院所、部隊及軍校提供作定制化軍事仿真服務。

凌久電子產(chǎn)品包括元器件類產(chǎn)品、基礎硬件設備、基礎支撐軟件、應用類產(chǎn)品四大類。其中國產(chǎn)通用GPU GP101隸屬于元器件類產(chǎn)品。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

凌久電子平臺產(chǎn)品

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

凌久電子元器件類產(chǎn)品分類

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

凌久電子股權結構

GP101是由中國船舶重工集團第709研究所控股的凌久電子研制,具備完全自主知識產(chǎn)權的圖形處理器芯片。GP101支持2D/3D圖形加速,支持二維矢量圖形加速,支持4K分辨率、視頻解碼和硬件圖層處理等功能GP101支持VxWorks、Linux、Windows等通用操作系統(tǒng),支持中標麒麟、道等國產(chǎn)操作系統(tǒng),支持龍芯、飛騰、申威等國產(chǎn)處理器。

GP101實現(xiàn)了我國通用3D顯卡零的突破,在信息安全和供貨能力方便有充分的保障,可以廣泛應用于軍民多個領域。

6、中船重工716研究所:JARI G12 GPU

七一六所自主研發(fā)的JARI G12是2018年性能最強的國產(chǎn)通用圖形處理器。該處理器采用混合渲染架構,兼顧數(shù)據(jù)帶寬和渲染延時需求,極大地增強了芯片的靈活性和適應性;

提供PCIe 3.0總線,支持x86處理器和龍芯、飛騰、申威等國產(chǎn)處理器;支持4路數(shù)字通道和1路VGA輸出,提供DP、eDP、HDMI、DVI等通用顯示介面,單路數(shù)字通道最大輸出分辨率為3840×2160@60fps,支持擴展、復制顯示和“擴展+復制”顯示模式;

內建視頻編解碼硬核,支持2路3840×2160分辨率視頻的編碼、解碼功能;

支持OpenGL 4.5和OpenGL ES 3.0,滿足高性能3D加速和VR顯示需求;

支持OpenCL 2.0,滿足并行計算和云計算的使用需求;

集成張量加速計算硬核,支持AI計算加速。該GPU支持Windows、Linux、VxWorks等主流操作系統(tǒng),同時支持中標麒麟、JARI-Works、道等國內自主可控操作系統(tǒng),具備健全的生態(tài)環(huán)境體系。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

JARI G12架構示意圖

7、芯動科技:國產(chǎn)IP和芯片定制先驅

芯動科技是中國一站式IP和芯片定制領軍企業(yè),提供全球6大工藝廠(臺積電/三星/格芯/中芯國際/聯(lián)華電子/英特爾)從130nm到5納米全套高速混合電路IP核和ASIC定制解決方案,聚焦先進制程。

芯動科技15年來立足本土發(fā)展,所有IP和產(chǎn)品全自主可控,連續(xù)十年中國市場份額領先。公司客戶群涵蓋華為海思、中興通訊、瑞芯微、全志、君正、AMD、Microsoft、Amazon、Microchip、Cypress等全球知名企業(yè)。

在高性能計算/多媒體&汽車電子/IoT物聯(lián)網(wǎng)等領域,芯動解決方案具有國際先進水平,涵蓋DDR5/4、LPDDR5/4、GDDR6/GDDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes(含
PCIe5/4/USB3.2/SATA/RapidIO/GMII等)、ADC/DAC、智能圖像處理器GPU和多媒體處理內核等多種技術。芯動科技的芯片定制,跨工藝跨封裝,涉及從需求到產(chǎn)品, 能端到端為客戶加速從規(guī)格、設計到流片量產(chǎn),及封裝成型全流程。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

芯動科技一站式IP系列

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

芯動科技高性能計算平臺IP

2020年10月13日,芯動科技與Imagination達成合作。采用最前沿的多晶粒芯片(chiplet)和GDDR6高速顯存等SOC創(chuàng)新,芯動科技將全球首發(fā)Imagination全新頂配BXT多核架構。

在信創(chuàng)和算力安全方面,“風華”系列GPU內置國產(chǎn)物理不可克隆iUnique Security PUF信息安全加密技術,提升數(shù)據(jù)安全和算力抗攻擊性,支持桌面電腦和數(shù)據(jù)中心GPU計算自主可控生態(tài)。

“風華”系列GPU自帶浮點和智能3D圖形處理功能,全定制多級流水計算內核,兼具高性能渲染和智能AI算力,還可級聯(lián)組合多顆芯片合并處理能力,靈活性強,適配國產(chǎn)桌面市場1080P/4K/8K高品質顯示,支持VR/AR/AI,多路服務器云桌面、5G數(shù)據(jù)中心、云教育、云游戲、云辦公等中國新基建5G風口下的大數(shù)據(jù)圖形應用場景。

8、華為海思:GPU Turbo

GPU Turbo是一種軟硬協(xié)同的圖形加速技術,可以減少無用渲染次數(shù),優(yōu)化或合并渲染區(qū)域。通過算法,將相關運算放在一個或相鄰的寄存器中,以此來優(yōu)化圖形處理效率。

GPU Turbo技術打通了EMUI操作系統(tǒng)以及GPU和CPU之間的處理瓶頸,在系統(tǒng)底層對傳統(tǒng)的圖形處理框架進行了重構,實現(xiàn)了軟硬件協(xié)同,使得GPU圖形處理整體效率得到大幅提升。

2018年6月發(fā)布了GPU Turbo 1.0,圖形處理效率提高60%,同時做到更省電,保證高畫質。

2018年9月發(fā)布了GPU Turbo 2.0,游戲場景下功耗下降可達13.6%,新增支持多款主流游戲,同時針對支持的游戲中關鍵&極限場景(如團戰(zhàn)、載具等)進行了重點打磨與優(yōu)化。

2019年4月GPU Turbo全新升級,不僅帶來主流游戲接近滿幀運行的酣暢體驗,功耗的持續(xù)降低也帶來了續(xù)航時間的提升。累計支持60款國內游戲。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

GPU Turbo 2.0能效對比

9、龍芯:GPU突擊隊

中科院計算所于2001年成立龍芯課題組,開始研制龍芯系列處理器,得到了中科院、863、973、核高基等項目大力支持,完成了十年的核心技術積累。2010年4月,中國科學院和北京市共同牽頭出資入股,成立龍芯中科技術有限公司,龍芯正式從研發(fā)走向產(chǎn)業(yè)化。

目前,龍芯自主研發(fā)的GPU集成在7A1000橋片中。龍芯7A1000橋片是面向龍芯3號處理器的芯片組,通過HT3.0接口與處理器相連,集成GPU、顯示控制器和獨立顯存接口,外圍接口包括32路PCIE2.0、2路GMAC、3路SATA2.0、6路USB2.0和其它低速接口,可以滿足桌面和服務器領域對IO接口的應用需求,并通過外接獨立顯卡的方式支持高性能圖形應用需求。

雖然龍芯7A1000橋片的GPU性能一般,但是橋片作為CPU產(chǎn)業(yè)鏈的一環(huán),龍芯已經(jīng)實現(xiàn)CPU、橋片和GPU上完全自主化,打通了CPU產(chǎn)業(yè)鏈上每一個環(huán)節(jié)。

2020年,龍芯成立六支研發(fā)突擊隊,分別為3A5000突擊隊、3C5000突擊隊、7A2000突擊隊、2K2000突擊隊、GPU突擊隊、PCIE突擊隊。這六支突擊隊的目的就是要把2-3年的工作,在一年內干完!

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

龍芯7A1000

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

龍芯7A1000 GPU相關參數(shù)

10、芯瞳半導體:高性能GPU設計新星

芯瞳半導體成立于2019年,主要業(yè)務包括GPU芯片設計、異構計算平臺方案、嵌入式顯示系統(tǒng)解決方案、GPU應用部署解決方案。公司著力于研發(fā)高性能的GPU芯片,為用戶提供以自研GPU芯片為核心的解決方案,致力于打造業(yè)界領先的GPU芯片設計平臺,目標是成為國際一流的GPU芯片設計企業(yè)。公司創(chuàng)始團隊在GPU領域有著超過10年的學術和工程經(jīng)驗,是一支軟硬件全棧式支持的研發(fā)團隊。

公司的GPU架構采用了業(yè)界主流的統(tǒng)一渲染架構,并具有高度可擴展的互聯(lián)結構和計算陣列,便于芯片后續(xù)迭代升級。經(jīng)過多年的積累,團隊構建了芯片建模虛擬平臺,通過該虛擬平臺,團隊可以快速地完成GPU相關軟件的研發(fā)和軟件生態(tài)的部署,與此同時,在該虛擬平臺上快速地對芯片架構進行驗證,從而縮短GPU芯片的設計驗證周期,提升GPU芯片的設計效能。

公司第一代GPU芯片(GenBu01)初測已成功,已與統(tǒng)信、麒麟及昆侖完成適配,目前正在為小批量量產(chǎn)做最終測試。 GenBu01主要面向的客戶為需要定制嵌入式計算機產(chǎn)品的客戶以及為國產(chǎn)替代領域提供信創(chuàng)辦公PC的ODM/OEM廠商。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

芯瞳GenBu01參數(shù)

11、天數(shù)智芯:國產(chǎn)GPGPU領跑者

天數(shù)智芯于2018年正式啟動GPGPU芯片設計,是中國第一家GPGPU高端芯片及超級算力提供商。天數(shù)智芯重點打造自主可控、國際一流的通用、標準、高性能云端計算芯片GPGPU,從芯片端解決計算力問題;并推出面向5G技術需求的邊緣云端推理GPGPU,提供對當前進口主流GPGPU體系的無縫兼容和市場化選擇。2021年1月15日,天數(shù)智芯成功點亮自研7納米制程GPGPU云端訓練芯片,性能達市場主流產(chǎn)品的兩倍。該芯片量產(chǎn)后將廣泛應用于AI訓練、高性能計算(HPC)等場景,服務于教育、互聯(lián)網(wǎng)、金融、自動駕駛、醫(yī)療、安防等各相關行業(yè),賦能AI智能社會。

天數(shù)智芯7納米GPGPU高端自研云端訓練芯片的產(chǎn)品優(yōu)勢包括:全方位生態(tài)兼容、高性能有效算力、指令集編程架構、軟硬件全棧支持、全自主知識產(chǎn)權。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

天數(shù)智芯GPGPU BI芯片參數(shù)

12、壁仞科技和沐曦集成電路

壁仞科技創(chuàng)立于2019年,團隊由國內外芯片和云計算領域核心專業(yè)人員、研發(fā)人員組成,在GPU、DSA(專用加速器)和計算機體系結構等領域具有深厚的技術積累和獨到的行業(yè)洞見。

壁仞科技致力于開發(fā)原創(chuàng)性的通用計算體系,建立高效的軟硬件平臺,同時在智能計算領域提供一體化的解決方案。從發(fā)展路徑上,壁仞科技將首先聚焦云端通用智能計算,逐步在人工智能訓練和推理、圖形渲染、高性能通用計算等多個領域趕超現(xiàn)有解決方案,實現(xiàn)國產(chǎn)高端通用智能計算芯片的突破。

沐曦集成電路專注于設計具有完全自主知識產(chǎn)權,針對異構計算等各類應用的高性能通用GPU芯片。公司致力于打造國內最強商用GPU芯片,產(chǎn)品主要應用方向包含傳統(tǒng)GPU及移動應用,人工智能、云計算、數(shù)據(jù)中心等高性能異構計算領域。

對于研發(fā)的方向,沐曦表示將采用業(yè)界最先進的5nm工藝技術,研發(fā)全兼容CUDA及ROCm生態(tài)的國產(chǎn)高性能GPU芯片,滿足HPC、數(shù)據(jù)中心及AI等方面的計算需求。GPU將采用原創(chuàng)專利保護的可重構GPU架構,突破傳統(tǒng)GPU芯片能效瓶頸;采用數(shù)據(jù)壓縮,數(shù)據(jù)廣播以及共享硬件加速單元等先進技術,大幅度優(yōu)化核心算力能耗比。

GPU深度報告,三大巨頭,十四個國內玩家一文看懂 | 智東西內參

沐曦高性能GPU研發(fā)項目

12、登臨科技和摩爾線程

登臨科技成立于2017年11月,是一家專注于為新興計算領域提供高性能、高功效計算平臺的高科技企業(yè)。公司的產(chǎn)品是以芯片為核心的系統(tǒng)解決方案,在所有核心IP上堅持自研路線。登臨科技已完成由元禾璞華、元生資本聯(lián)合領投的A+輪融資,包括北極光在內的老股東持續(xù)在本輪加碼跟進。登臨科技的首款GPU+(軟件定義的片內異構通用人工智能處理器)產(chǎn)品已成功回片通過測試,開始客戶送樣,公司團隊具備架構、系統(tǒng)、軟件、硬件、芯片、驗證等方面的綜合能力。

登臨科技GoldwasserTM GPU+產(chǎn)品在現(xiàn)有市場主流的GPU架構上,創(chuàng)新采用軟硬件協(xié)同的異構設計。GPU+異構設計讓產(chǎn)品在對客戶實際業(yè)務繼承在現(xiàn)有生態(tài)上的投入、在保證極高兼容性的同時,相比傳統(tǒng)GPU在AI計算上性能和能效均有明顯提升,大大降低了外部帶寬的需求,顯著降低客戶總擁有成本。

摩爾線程創(chuàng)立于2020年10月,去年12月獲得天使輪融資,今年2月22日獲得Pre-A輪融資。摩爾線程致力于構建中國視覺計算和人工智能領域計算平臺,研發(fā)全球領先的自主創(chuàng)新GPU知識產(chǎn)權,其GPU產(chǎn)品線覆蓋通用圖形計算和高性能計算。公司核心成員主要來自英偉達、微軟、英特爾、AMD、ARM等,覆蓋GPU研發(fā)設計、生產(chǎn)制造、市場銷售、服務支持等完整架構。

13、國產(chǎn)GPU新星:翰博半導體

翰博半導體成立于2018年12月,立志于發(fā)展成為國際頂尖的芯片公司,立足于中國市場,填補國內市場國產(chǎn)芯片的空白,為智能應用提供高效算力,為人工智能創(chuàng)新以及應用落地賦能。

翰博半導體擁有國內外專家組成的團隊。公司核心員工來自世界頂級的高科技公司,平均擁有15年以上的相關芯片,軟件設計經(jīng)驗。

瀚博的產(chǎn)品注重計算機視覺及視頻處理的優(yōu)化,提供豐富的特性,高效的性能/功耗;適用多個人工智能領域。產(chǎn)品覆蓋從邊到云,SOC及服務器市場。

翰博半導體CEO—錢軍擁有25年以上高端芯片設計經(jīng)驗和40多款芯片設計和量產(chǎn)的經(jīng)驗,帶隊設計量產(chǎn)業(yè)界第一顆7納米圖像處理器和AI服務器芯片,曾任AMD高管Senior Director,直接負責設計團隊超過800人,全面負責GPU( 圖像處理器和AI服務器)芯片設計和生產(chǎn),現(xiàn)在市場上所有AMD Radeon圖像處理器和AI服務器都是由其帶隊開發(fā),包括多個系列DGPU和MI系列產(chǎn)品。

14、國產(chǎn)GPU新星:燧原科技

燧原科技成立于2018年3月,專注于人工智能領域云端算力平臺,致力為人工智能產(chǎn)業(yè)發(fā)展提供普惠的基礎設施解決方案,提供自主知識產(chǎn)權的高算力、高能效比、可編程的通用人工智能訓練和推理產(chǎn)品。

燧原科技的產(chǎn)品技術由訓練、推理、軟件平臺構成。其中,訓練業(yè)務包含加速卡 “云燧T10” 和“云燧T11”;推理業(yè)務包含加速卡 “云燧i10”;軟件平臺包含“馭算”。

“云燧”系列加速卡采用自研DTU架構,支持ESL高速互聯(lián)和開放生態(tài)。 “云燧”芯片采用格羅方德的12nm FinFET工藝,結合 2.5D先進封裝,擁有141億晶體管和16GB HBM2顯存,在FP32的算力和能效比方面領先GPU。

計算及編程平臺“馭算”,由燧原自主研發(fā),支持主流深度學習框架,并針對邃思芯片進行了針對性優(yōu)化。

智東西認為,GPU設計之初是為了圖像處理,但是隨著技術的不斷迭代升級,GPU的功能已經(jīng)不僅限于“畫圖”,憑借在并行處理和通用計算的優(yōu)勢,GPU在服務器、汽車、人工智能、邊緣計算等領域已經(jīng)開始大放異彩?,F(xiàn)階段,雖然國產(chǎn)GPU與英偉達、AMD等世界巨頭差距明顯,但在一些空白的細分領域或許有很大的“彎道超車”空間。