芯東西(ID:aichip001)
編輯 |? 信儀
GTIC 2020全球AI芯片創(chuàng)新峰會(huì)剛剛在北京圓滿收官!在這場(chǎng)全天座無(wú)虛席、全網(wǎng)直播觀看人數(shù)逾150萬(wàn)次的高規(guī)格AI芯片產(chǎn)業(yè)峰會(huì)上,19位產(chǎn)學(xué)界重磅嘉賓從不同維度分享了對(duì)中國(guó)AI芯片自主創(chuàng)新和應(yīng)用落地的觀察與預(yù)判。
在峰會(huì)上午場(chǎng),燧原科技創(chuàng)始人兼COO張亞林通過(guò)視頻的方式,發(fā)表了題為《軟硬系統(tǒng)協(xié)同——云端AI芯片產(chǎn)品化關(guān)鍵》的主題演講。
▲燧原科技創(chuàng)始人兼COO張亞林通過(guò)視頻的方式發(fā)表演講
目前,燧原科技的云端AI芯片生態(tài)已經(jīng)覆蓋“邃思”通用人工智能訓(xùn)練芯片、“云燧T10”人工智能加速卡、GCU-LARE智能互聯(lián)技術(shù)以及“馭算”計(jì)算及編程平臺(tái)。
在GTIC AI芯片創(chuàng)新峰會(huì)上,張亞林與我們分享了燧原科技對(duì)云端AI芯片產(chǎn)品化的看法,在他看來(lái),AI系統(tǒng)要落地?cái)?shù)據(jù)中心必須具備四個(gè)要素,分別為系統(tǒng)集群、板卡、高性能高算力的芯片,以及全棧的軟件。而衡量一個(gè)數(shù)據(jù)中心的AI系統(tǒng)需要從完備性、生產(chǎn)率、成本、功耗和性能五個(gè)維度來(lái)考量。
以下為張亞林演講實(shí)錄整理:
一、數(shù)據(jù)中心趨于整合,計(jì)算和圖形加速架構(gòu)分離
首先,張亞林通過(guò)案例和數(shù)據(jù)向觀眾解讀了一個(gè)問(wèn)題:2020年數(shù)據(jù)中心到底發(fā)生了什么?
在2019年,中國(guó)的數(shù)據(jù)中心行業(yè)規(guī)模已經(jīng)占到全世界的30%,2019~2021年全球云計(jì)算市場(chǎng)規(guī)模一直在爬升,到2021年將達(dá)到2890億美金的市場(chǎng)規(guī)模。
NVIDIA在第二季度公布的財(cái)報(bào)表明,這是有史以來(lái)第一次NVIDIA的數(shù)據(jù)中心業(yè)務(wù)超過(guò)了顯卡業(yè)務(wù),共達(dá)到17.5億美金的營(yíng)收,與去年同期相比增長(zhǎng)了167%。
張亞林說(shuō),數(shù)據(jù)中心正在朝著整合的方向走,世界上的三大巨頭:Intel、NVIDIA、AMD都在通過(guò)并購(gòu)加強(qiáng)自身在數(shù)據(jù)中心的布局。
▲Intel、NVIDIA、AMD通過(guò)并購(gòu)加強(qiáng)數(shù)據(jù)中心布局
Intel基于自己的CPU、數(shù)據(jù)和互聯(lián)的業(yè)務(wù)收購(gòu)了Altera后,在去年又收購(gòu)了Habana來(lái)做Intel自身的加速卡業(yè)務(wù)。
NVIDIA的加速卡計(jì)算業(yè)務(wù)很強(qiáng),去年收購(gòu)了Mellanox以豐富其數(shù)據(jù)卡和互聯(lián)的業(yè)務(wù),目前NVIDIA還正在積極布局收購(gòu)Arm以增強(qiáng)NVIDIA自身的CPU業(yè)務(wù)。
AMD本身具有CPU和加速卡業(yè)務(wù),目前也開始收購(gòu)賽靈思,以布局?jǐn)?shù)據(jù)和互聯(lián)方面的業(yè)務(wù)。
張亞林講到,如果所有的收購(gòu)?fù)瓿桑衲暝跀?shù)據(jù)中心方面就會(huì)出現(xiàn)Intel、NVIDIA、AMD三強(qiáng)爭(zhēng)霸的局面,由此看來(lái),計(jì)算范式正在朝著數(shù)據(jù)中心系統(tǒng)化、整合化的方向進(jìn)行變革。
張亞林接著分析了數(shù)據(jù)中心產(chǎn)品正在發(fā)生的變化:
先從NVIDIA講起,NVIDIA推出了整個(gè)系統(tǒng)化的集群——SuperPOD,SuperPOD的整個(gè)元素是由DGX系統(tǒng)構(gòu)成的,而在DGX中裝入的是NVIDIA A100的板卡和芯片,完全遵循了自頂向下的設(shè)計(jì)原則,并以Turnkey(一站式方案)的方式進(jìn)行SuperPod整個(gè)系統(tǒng)的推廣。
再來(lái)看AMD,AMD正在加速計(jì)算和圖形結(jié)構(gòu)的分離。從AMD發(fā)布MI100時(shí)的一張示意圖來(lái)看,下圖中灰色的部分表示其傳統(tǒng)的GPU結(jié)構(gòu)正在被拋棄,取而代之的是基于計(jì)算加速和優(yōu)化的產(chǎn)品線和基于游戲加速和優(yōu)化的產(chǎn)品線,在AMD的產(chǎn)品線中,它們分別被命名為RDNA GAMING-OPTIMIZED和CDNA COMPUTE-OPTIMIZED。
▲AMD發(fā)布MI100時(shí)的示意圖
同時(shí),計(jì)算和圖形的加速分離也導(dǎo)致了NVIDIA和AMD在兩條線上進(jìn)行布局。
在計(jì)算卡部分,NVIDIA Tesla系列一直是NVIDIA計(jì)算卡的主打,其中包括了有名的Tesla V100、A100和Tesla T4。同時(shí)AMD積極布局其Instinct MI系列,并在不久前推出了MI100。計(jì)算卡的部分衍生出來(lái)就是數(shù)據(jù)中心的業(yè)務(wù)。
在圖形卡部分,NVIDIA有其NVIDIA RTX系列,AMD擁有其AMD RX系列,這些部分衍生出來(lái)就是游戲業(yè)務(wù)。
因此NVIDIA和AMD兩大巨頭通過(guò)對(duì)計(jì)算卡和圖形卡的分離,已經(jīng)形成了完全不同的產(chǎn)品線和架構(gòu)。
二、數(shù)據(jù)中心AI系統(tǒng)“全壘打”和“全維度”
數(shù)據(jù)中心AI系統(tǒng)“全壘打”是什么樣的?
張亞林說(shuō),AI大系統(tǒng)要落地?cái)?shù)據(jù)中心,必須具備四個(gè)要素,分別為系統(tǒng)、板卡、高性能高算力的芯片,以及全棧的軟件系統(tǒng)。這四大要素構(gòu)成了整個(gè)AI系統(tǒng)的“全壘打”。
而對(duì)于衡量一個(gè)數(shù)據(jù)中心AI系統(tǒng)真正能被市場(chǎng)化、產(chǎn)業(yè)化、規(guī)模化的標(biāo)準(zhǔn),張亞林分了五個(gè)維度來(lái)解讀,這五個(gè)維度分別為AI系統(tǒng)的完備性、生產(chǎn)率、成本、功耗和性能。
▲數(shù)據(jù)中心AI系統(tǒng)的“全維度”
從完備性角度來(lái)講,廠商必須具備很好的軟件框架覆蓋率、模型的覆蓋率,還能滿足用戶的可定制化要求。
在生產(chǎn)率角度,廠商必須能從用戶的角度出發(fā),適應(yīng)用戶的開發(fā)效率、易用性、靈活性、可編程性和可遷移性。
在成本方面,有整個(gè)芯片的成本、板卡的成本、服務(wù)器的成本,還有遷移成本。
在功耗方面,整個(gè)芯片架構(gòu)、存儲(chǔ)類型、通信方式、軟件實(shí)現(xiàn)以及利用率還有工藝都左右了功耗大小,也直接影響了后續(xù)的運(yùn)維成本。
在性能方面,算力、延遲、精度、訓(xùn)練時(shí)間、推理時(shí)間、線性度(多卡)都對(duì)性能維度有影響。
因此,通常一個(gè)AI系統(tǒng)的“全維度”設(shè)計(jì)必須在五個(gè)維度之間平衡,再去迭代,保證能夠找到這五個(gè)緯度在用戶側(cè)最好的差異化以及最優(yōu)解,才能讓整個(gè)產(chǎn)品更有亮點(diǎn)。
接著,張亞林特別就數(shù)據(jù)中心AI軟件棧的“全維度”做了解構(gòu),他說(shuō),一個(gè)合格的、能商業(yè)化的、能讓用戶開發(fā),且具有很強(qiáng)遷移度的軟件棧,應(yīng)該在應(yīng)用層、框架層、SDK層和驅(qū)動(dòng)層這四個(gè)層面進(jìn)行布局。
▲數(shù)據(jù)中心AI軟件棧的“全維度”
自頂向下來(lái)看,從應(yīng)用層的角度來(lái)講,它必須具備很強(qiáng)的模型庫(kù),在模型庫(kù)的豐富程度方面,燧原科技已經(jīng)擁有了100多個(gè)模型。此外,在Benchmark方面必須有很強(qiáng)的基準(zhǔn)測(cè)試能力,提供很強(qiáng)的基準(zhǔn)測(cè)試標(biāo)準(zhǔn),才能讓用戶在基準(zhǔn)模式上的適用度更強(qiáng)。
接下來(lái)是框架層,目前業(yè)內(nèi)通用的是TensorFlow、PyTorch兩個(gè)主流框架,以及通過(guò)ONNX往下接入的部分,還有在非框架部分的推斷引擎、推理引擎都是非常重要的框架性元素。
在框架層之下是整個(gè)全棧的SDK,也就是用戶開發(fā)包,包括整個(gè)圖形分解的引擎、圖優(yōu)化的引擎以及整個(gè)算子庫(kù),還有能使整個(gè)算子開發(fā)的編程模型和工具鏈。
在SDK下面是驅(qū)動(dòng)層,驅(qū)動(dòng)層和整個(gè)硬件下的AI芯片進(jìn)行銜接。
而要想合理設(shè)計(jì)一個(gè)數(shù)據(jù)中心的AI芯片,必須從計(jì)算、數(shù)據(jù)、存儲(chǔ)、互聯(lián)四個(gè)角度看問(wèn)題。
從芯片計(jì)算的本身出發(fā),算力大小及有效算力是燧原科技一直在追尋的終極目標(biāo)。如何通過(guò)數(shù)據(jù)的傳輸、存儲(chǔ)和吞吐量,為計(jì)算引擎合理地輸入和輸出,保證它的有效算力,也是燧原科技考慮的因素。
在存儲(chǔ)方面,分布式的存儲(chǔ)大小在平衡片內(nèi)存儲(chǔ)、片外存儲(chǔ),以及實(shí)現(xiàn)存儲(chǔ)的高效移動(dòng)都是非常重要的命題。
在互聯(lián)方面,整個(gè)數(shù)據(jù)中心朝著集群化、系統(tǒng)化的方向發(fā)展,整個(gè)軟件棧也在朝著分布式的方向發(fā)展,如何提升互聯(lián)的效率、線性度和速度,以使整個(gè)大系統(tǒng)、大集群像一個(gè)虛擬化的計(jì)算池一樣執(zhí)行,也是一個(gè)很重要的命題。
除此之外,要達(dá)到芯片性價(jià)比和能效比的“最優(yōu)點(diǎn)”,還需要具備四個(gè)“P”,分別為:完全可編程(Full Programmability)、全模式計(jì)算(All Pattern)、全精度計(jì)算(Entire Precision)、高并行度(High Parallelism)。
張亞林說(shuō),在計(jì)算、數(shù)據(jù)、存儲(chǔ)、互聯(lián)四個(gè)維度以及四個(gè)“P”兩方面都做好平衡,才能滿足芯片的高性價(jià)比和能效比。
▲數(shù)據(jù)中心AI芯片的“全維度”
三、云端AI芯片的產(chǎn)品化挑戰(zhàn)
張亞林說(shuō),整個(gè)AI大芯片大系統(tǒng)的產(chǎn)品化涉及到系統(tǒng)化、工程化、產(chǎn)品化、生態(tài)化四個(gè)方面。
首先,在系統(tǒng)化上,如何合理設(shè)計(jì)系統(tǒng)架構(gòu),能讓AI大系統(tǒng)具備用戶的普適度、具備各種模型和應(yīng)用模式,能給用戶帶來(lái)更好的性價(jià)比、能效比效果,這是一個(gè)非常重要的課題。
同時(shí),軟硬件的聯(lián)合設(shè)計(jì)使整個(gè)有效算力能被完全發(fā)揮出來(lái),使底層的硬件能力能被充分釋放,這是系統(tǒng)化另外的一個(gè)關(guān)鍵部分。
工程化往往是被忽略的,張亞林介紹說(shuō),AI芯片在流片回來(lái)后走完了芯片工程化的30%,另外70%的路要靠AI芯片的工程化、量產(chǎn)化,推動(dòng)其朝著創(chuàng)新落地和定義交付兩個(gè)方向走。
很多AI芯片用了很多的創(chuàng)新架構(gòu),而這些架構(gòu)能不能真正實(shí)現(xiàn)客戶價(jià)值,能不能進(jìn)行商業(yè)化的落地,能不能減低客戶的遷移成本,以及交付過(guò)程中對(duì)于客戶的承諾、交互日期,自身的執(zhí)行力,自身定義能夠交付的標(biāo)準(zhǔn)和時(shí)間節(jié)點(diǎn)目標(biāo)等,都是廠商需要去思考的問(wèn)題。
在產(chǎn)品化方面,用戶真正期待的是真正普惠易用的方式。所謂“普惠”就是整個(gè)AI算力的泛化,會(huì)帶來(lái)AI算力的性價(jià)比?!耙子谩贬槍?duì)的就是客戶的遷移成本以及使用的生產(chǎn)效率。
同時(shí),AI系統(tǒng)必須為后期的運(yùn)維做考慮,也就是說(shuō)必須是穩(wěn)定可靠的,這種穩(wěn)定可靠在數(shù)據(jù)中心里要保持五年甚至更長(zhǎng)時(shí)間,使得數(shù)據(jù)中心能夠一直在穩(wěn)定可靠的方式下進(jìn)行運(yùn)營(yíng)。
最后,在生態(tài)化方面,好的生態(tài)必須要具備能讓用戶輕松開發(fā)的能力,需要把AI系統(tǒng)變成開發(fā)的利器。同時(shí),它又能使用戶真正預(yù)言未來(lái)的AI算法,能夠不斷精進(jìn)和提高AI算法的性能和適用度,為世界帶來(lái)更好的AI創(chuàng)新點(diǎn)。
因此,基于AI芯片產(chǎn)品化挑戰(zhàn),系統(tǒng)化、工程化、產(chǎn)品化、生態(tài)化四個(gè)方面構(gòu)成了整個(gè)云端AI芯片產(chǎn)品化的難點(diǎn)和亮點(diǎn)。
張亞林說(shuō),一個(gè)公司要能夠?qū)崿F(xiàn)這樣的系統(tǒng)化、工程化、產(chǎn)品化、生態(tài)化的能力,它就必須具備這四個(gè)方面設(shè)計(jì)的意識(shí)和團(tuán)隊(duì),燧原科技通常把這四個(gè)方面稱為云端AI軟硬件系統(tǒng)協(xié)同最大的挑戰(zhàn)和亮點(diǎn),也是未來(lái)人工智能在云端芯片和系統(tǒng)發(fā)展中的必經(jīng)之路。
張亞林在最后總結(jié)時(shí)表示,燧原科技一直秉承著“做大芯片,拼硬科技”的宗旨。燧原科技做云端的AI大芯片和復(fù)雜系統(tǒng),是因?yàn)樗y而不是因?yàn)樗?jiǎn)單。只有難,才能為國(guó)家創(chuàng)造更好的價(jià)值,為AI帶來(lái)更好的明天。
以上是張亞林演講內(nèi)容的完整整理。除張亞林外,在本屆GTIC 2020 AI芯片創(chuàng)新峰會(huì)期間,清華大學(xué)微納電子系尹首一教授,比特大陸、地平線、黑芝麻智能、壁仞科技、光子算數(shù)、知存科技、億智電子、豪微科技等芯片企業(yè),全球FPGA領(lǐng)先玩家賽靈思,Imagination、安謀中國(guó)等知名IP供應(yīng)商,全球EDA巨頭Cadence,以及北極光創(chuàng)投、中芯聚源等知名投資機(jī)構(gòu),分別分享了對(duì)AI芯片產(chǎn)業(yè)的觀察與思考。如感興趣更多嘉賓演講的核心干貨,歡迎關(guān)注芯東西后續(xù)推送內(nèi)容。