智東西(公眾號(hào):zhidxcom)
作者 |? 國仁?心緣
編輯 |? 漠影

智東西12月21日?qǐng)?bào)道,剛剛,燧原科技推出首款云端推理計(jì)算卡“云燧i10”及推理引擎“鑒算TopsInference”。

云燧i10是單槽位標(biāo)準(zhǔn)卡,支持PCIe 4.0,F(xiàn)P32算力可達(dá)17.6TFLOPS,BF16/FP16算力可達(dá)70.4TFLOPS,最大功耗僅為150W,在主流AI模型中的性能表現(xiàn)均超過GPU競品。

挺進(jìn)云端AI訓(xùn)練&推理雙賽道!獨(dú)家對(duì)話燧原科技COO張亞林:揭秘超高效率背后的“內(nèi)功”

落地鋪陳也基本就緒,云燧i10目前已經(jīng)獨(dú)立適配8款A(yù)I服務(wù)器,將于明年第一季度上市。

這著實(shí)令人感到驚異,作為一家成立于2018年3月的AI芯片初創(chuàng)公司,燧原科技研發(fā)和落地的速度,實(shí)在是太快了。

成立18個(gè)月推出其首款云端訓(xùn)練產(chǎn)品 “云燧T10”及軟件全?!榜S算”,今年9月宣布“云燧T10”落地商用,如今首款云端推理產(chǎn)品正式量產(chǎn)發(fā)布。

任何一個(gè)環(huán)節(jié)出問題,都不可能做到如此迅速,況且燧原科技最先選擇的云端AI訓(xùn)練芯片,還是AI芯片領(lǐng)域公認(rèn)的最難的“山頭”。

截至當(dāng)前,燧原科技成為國內(nèi)唯一一家同時(shí)擁有云端訓(xùn)練+云端推理完整解決方案的初創(chuàng)公司,也是騰訊連續(xù)三年投資的唯一一家AI芯片公司。

燧原究竟是如何做到的?通過與燧原科技創(chuàng)始人兼COO張亞林深入交流,我們?cè)噲D還原這家AI芯片創(chuàng)企超高效率背后的“內(nèi)功”。

挺進(jìn)云端AI訓(xùn)練&推理雙賽道!獨(dú)家對(duì)話燧原科技COO張亞林:揭秘超高效率背后的“內(nèi)功”▲智東西總編張國仁(左)與燧原科技COO張亞林(右)

一、對(duì)標(biāo)巨頭,速度制勝

燧原選擇了一條充滿未來,但也荊棘密布的路。

云端訓(xùn)練及推理芯片的道路前方,始終屹立著英偉達(dá),這樣一座巍峨而難以逾越的高山。

“國外友商樹立了珠穆朗瑪峰,我們必須跑得比它更快,我們必須以更快的迭代速度、更快的客戶反饋來加速產(chǎn)品迭代,才能在市場中建立自己的競爭優(yōu)勢?!睆垇喠终f。

挺進(jìn)云端AI訓(xùn)練&推理雙賽道!獨(dú)家對(duì)話燧原科技COO張亞林:揭秘超高效率背后的“內(nèi)功”

燧原團(tuán)隊(duì)選擇切入的云端AI芯片市場很廣闊,但如果不能快速抓住機(jī)會(huì)占穩(wěn)腳跟,未來市場再大,也只會(huì)是別人的囊中之物。因此研發(fā)和落地周期,都必須盡力縮短。

“在大公司有個(gè)「1+1」模型,芯片項(xiàng)目從立項(xiàng)到流片是一年,從流片到量產(chǎn)是一年。我們?cè)旗軹10在2019年5月底流片,2020年6月量產(chǎn),精確地執(zhí)行了這一模式?!?/p>

在張亞林眼中,保證超高執(zhí)行力,是趨向于成熟公司的必經(jīng)之路。奔著“基業(yè)常青”的目標(biāo),燧原從創(chuàng)業(yè)之初,就在規(guī)劃落實(shí)三個(gè)關(guān)鍵點(diǎn)。

首先是文化統(tǒng)一。文化是一個(gè)公司的根基所在,能從思想層面實(shí)現(xiàn)團(tuán)隊(duì)的高度協(xié)同。燧原在1.0階段就開始打造燧原文化,如今已升級(jí)至2.0階段。

燧原的文化核心是胸懷正道、開拓執(zhí)行。其中胸懷是指要客戶為先,共贏為本;正道是指忠于職責(zé),勇于擔(dān)當(dāng);開拓是指始于創(chuàng)造,歸于價(jià)值;執(zhí)行是指以終為始,以質(zhì)為髓。

其次是行為模式統(tǒng)一。一個(gè)公司要做到規(guī)?;?,必須有規(guī)范的制度流程。從成立之初,燧原就打造了環(huán)環(huán)相扣的管理機(jī)制,比如建立專門對(duì)項(xiàng)目進(jìn)行監(jiān)管的項(xiàng)目管理團(tuán)隊(duì)(PMO)、使用統(tǒng)一的項(xiàng)目管理原則和管理語言,再比如對(duì)執(zhí)行過程中如何做關(guān)鍵決策、追蹤熱點(diǎn)等制度進(jìn)行規(guī)范化管理。張亞林認(rèn)為,這是大公司能行之有效持續(xù)推動(dòng)產(chǎn)品研發(fā)落地的根本。

第三是形成正循環(huán)。當(dāng)企業(yè)推出產(chǎn)品,開始落地并逐漸規(guī)?;?,就會(huì)得到更多資本青睞和業(yè)內(nèi)認(rèn)可,從而形成反哺企業(yè)的動(dòng)力,這樣就形成正循環(huán)。而如果企業(yè)不是正循環(huán),它的效率必然會(huì)受阻,出現(xiàn)走彎路的情況?!拔覀?cè)谡麄€(gè)過程中精準(zhǔn)把握了正循環(huán)和產(chǎn)品迭代,所以才能做到這么快?!?/p>

于是,在燧原1.0階段,剛成立18個(gè)月的燧原就推出了高性能云端訓(xùn)練產(chǎn)品,實(shí)現(xiàn)從0到1的破冰。

進(jìn)入2020年,燧原非但沒有被疫情“黑天鵝”打亂陣腳,反而按計(jì)劃順利進(jìn)入“從1到N”的燧原2.0階段,循序漸進(jìn)地完成新融資、云端訓(xùn)練集群方案商用落地、云端推理加速卡量產(chǎn)發(fā)布等重要節(jié)點(diǎn)。截至今日,燧原已累計(jì)融資13.4億元。

除了階段進(jìn)化、團(tuán)隊(duì)規(guī)模增長外,燧原的落地也更為多元。張亞林透露道,燧原目前針對(duì)互聯(lián)網(wǎng)、垂直行業(yè)譬如教育、金融等方向正在進(jìn)行頭部客戶的規(guī)?;涞?,“新基建”也正在快速鋪陳。

二、主流模型基準(zhǔn)測試,表現(xiàn)超過GPU旗艦競品

技術(shù)理工出身,也可以充滿文藝情懷。

每個(gè)年末“壓軸”出場的燧原旗艦產(chǎn)品發(fā)布會(huì),其主題意義都很有文藝范兒。

去年燧原云端訓(xùn)練計(jì)算卡云燧T10發(fā)布時(shí),張亞林將主題定為“芯火燎原”,希望云燧T10能一直開拓廣袤的土地。

如今云端推理計(jì)算卡云燧i10發(fā)布,主題變成了“芯漢燦爛”,出自曹操《觀滄?!分械拿洹靶菨h燦爛,若出其里”。其中,“燦爛”寓意更多后續(xù)產(chǎn)品,以此寄予對(duì)云燧i10在星空上持續(xù)閃耀的期待。

通過對(duì)云端推理市場進(jìn)行廣泛調(diào)研和用戶畫像,燧原針對(duì)性地進(jìn)行了極致能效提升、多用戶虛擬化、工藝良率優(yōu)化、散熱方案增強(qiáng)等全方位產(chǎn)品打造,并完全獨(dú)立重新設(shè)計(jì)了推理軟件全棧和板卡系統(tǒng),使云燧i10擁有出色的用戶價(jià)值特性。

從燧原公布的基準(zhǔn)測試表現(xiàn)來看,云燧i10可以說是不負(fù)所托。在主流的圖像識(shí)別、視頻增強(qiáng)、視頻處理、內(nèi)容審核、推薦等主流模型中,實(shí)測性能表現(xiàn)均超過GPU旗艦競品。

挺進(jìn)云端AI訓(xùn)練&推理雙賽道!獨(dú)家對(duì)話燧原科技COO張亞林:揭秘超高效率背后的“內(nèi)功”

這得益于云燧i10的四個(gè)主要特征:

1、高算力、高精度:150W單槽算力密度下,F(xiàn)P32算力可達(dá)17.6TFLOPS,BF16/FP16算力可達(dá)70.4TFLOPS,單精度算力可達(dá)GPU競品的兩倍以上;采用自主指令集,支持從FP32到INT8等多種精度;采用512GB/s高存儲(chǔ)帶寬和16GB本地存儲(chǔ)。

挺進(jìn)云端AI訓(xùn)練&推理雙賽道!獨(dú)家對(duì)話燧原科技COO張亞林:揭秘超高效率背后的“內(nèi)功”

2、高能效、高可靠性:智能功耗管理(APC采用動(dòng)態(tài)調(diào)頻調(diào)壓(DVFS)技術(shù)將功耗控制到接近但不超過最大值150W,從而最大限度發(fā)揮算力;根據(jù)負(fù)載加速應(yīng)用性能,支持RAS、ECC;通過硬件架構(gòu)設(shè)計(jì)、硬件模塊及軟件全棧的配合,實(shí)現(xiàn)溫度、電流、功耗等監(jiān)測保護(hù),可提供高能效比FP32算力和省電模式。

3、設(shè)備虛擬化(MID):最大可支持4個(gè)設(shè)備實(shí)例,具備計(jì)算與存儲(chǔ)資源的獨(dú)享性,多用戶間安全隔離;單顆芯片上可同時(shí)部署不同的業(yè)務(wù)與負(fù)載,實(shí)現(xiàn)多任務(wù)并行,有效提高利用率;支持KVM、Xen等系統(tǒng)虛擬化平臺(tái);性能開銷不到物理機(jī)的3%。

4、易編程、生態(tài)開放:開放C++和Python編程接口,支持CNN及NLP典型模型,支持TensorFlow、PyTorch、ONNX等主流機(jī)器學(xué)習(xí)框架,并通過SDK提供深度定制。

目前云燧i10已支持來自浪潮、Supermicro、新華三的8AI服務(wù)器。云端高算力密度推理服務(wù)器半精度算力可達(dá)1.1PFLOPS,邊緣云推理服務(wù)器半精度算力可達(dá)280TFLOPS。

挺進(jìn)云端AI訓(xùn)練&推理雙賽道!獨(dú)家對(duì)話燧原科技COO張亞林:揭秘超高效率背后的“內(nèi)功”

當(dāng)然,僅僅有高性能的硬件產(chǎn)品還不夠,要充分挖掘硬件算力,必然離不開完善的軟件工具。

三、從無到有,打造推理軟件全棧

在研發(fā)云燧i10的同時(shí),燧原從無到有地建立了一套對(duì)開發(fā)者友好的推理軟件全棧,提供不同層次的開發(fā)模式,以及針對(duì)客戶定制化算法模型的聯(lián)合開發(fā)與優(yōu)化。

這一軟件全棧在應(yīng)用層、框架層、SDK層和驅(qū)動(dòng)層這四個(gè)層面進(jìn)行布局。

挺進(jìn)云端AI訓(xùn)練&推理雙賽道!獨(dú)家對(duì)話燧原科技COO張亞林:揭秘超高效率背后的“內(nèi)功”

自頂向下來看,應(yīng)用層的Model Zoo中內(nèi)置70多種主流模型,覆蓋計(jì)算機(jī)視覺、自然語言處理和語音識(shí)別以及其他主流AI算法。

在AI框架層,針對(duì)推理領(lǐng)域有很多自定義框架的特點(diǎn),燧原打造了高性能神經(jīng)網(wǎng)絡(luò)模型推理引擎“鑒算TopsInference”,能將標(biāo)準(zhǔn)化框架及客戶自定義框架中的模型轉(zhuǎn)化成馭算統(tǒng)一執(zhí)行模型。

下一層是SDK層,當(dāng)所有模型被標(biāo)準(zhǔn)化后,燧原提供的圖優(yōu)化引擎“絡(luò)算TopsNeuro”將模型解析成各種圖結(jié)構(gòu)。同時(shí)燧原還提供了包含各種分析調(diào)試及可視化工具的全套工具鏈“探算TopsKit”。

再往下是算子庫,“擎算TopsOperator”支持500多個(gè)算子和80多個(gè)原子,能通過提供原生匯編實(shí)現(xiàn)與優(yōu)化,挖掘更高的算力利用率。

挺進(jìn)云端AI訓(xùn)練&推理雙賽道!獨(dú)家對(duì)話燧原科技COO張亞林:揭秘超高效率背后的“內(nèi)功”

而用戶能不能自己定制算子、操作內(nèi)部的推理?xiàng)?,則需依靠TopsPrimo,它給用戶提供了標(biāo)準(zhǔn)化模型、框架之外的另一種選擇,即自行通過編程來優(yōu)化操作。

最后在SDK層之下,是與硬件銜接的驅(qū)動(dòng)層。

由此,燧原打造出訓(xùn)練推理的整體解決方案。云燧i10與云燧T10以及“馭算TopsRider”軟件平臺(tái)搭配,可實(shí)現(xiàn)算法模型在數(shù)據(jù)中心訓(xùn)推一體化的快速生產(chǎn)部署。

挺進(jìn)云端AI訓(xùn)練&推理雙賽道!獨(dú)家對(duì)話燧原科技COO張亞林:揭秘超高效率背后的“內(nèi)功”

四、火力配置均勻,向著目標(biāo)進(jìn)發(fā)

張亞林告訴智東西,燧原的云端訓(xùn)練和推理產(chǎn)品路線圖已經(jīng)規(guī)劃到三年以后,其團(tuán)隊(duì)正精準(zhǔn)地按照這一路線圖執(zhí)行。

這種“精準(zhǔn)”的執(zhí)行力,源自燧原“使命必達(dá)”的精神底蘊(yùn)。

以研發(fā)云燧i10為例,朝向在2020年12月31日完成量產(chǎn)的目標(biāo),燧原從今年3月啟動(dòng)在方案、架構(gòu)和軟件開發(fā)上的技術(shù)優(yōu)化,早期受疫情限制主要集中于內(nèi)部的遠(yuǎn)程開發(fā),從5月起全面轉(zhuǎn)向系統(tǒng)集成開發(fā)和和測試。

得益于燧原從一開始就建立了遠(yuǎn)程工作機(jī)制,早早搭建完善的內(nèi)部集群環(huán)境,能支撐數(shù)百人的多團(tuán)隊(duì)從多個(gè)地域并行開發(fā)。即便遭逢疫情,燧原的云端訓(xùn)練產(chǎn)品落地和云端推理產(chǎn)品研發(fā)進(jìn)度均未受到影響。

挺進(jìn)云端AI訓(xùn)練&推理雙賽道!獨(dú)家對(duì)話燧原科技COO張亞林:揭秘超高效率背后的“內(nèi)功”▲燧原云端推理計(jì)算卡“云燧i10”

為了提升能效比,燧原團(tuán)隊(duì)決定在云端推理計(jì)算卡上采用動(dòng)態(tài)調(diào)頻調(diào)壓(DVFS)技術(shù),始終在設(shè)定的條件內(nèi)跑最高的電壓和頻率,這一技術(shù)對(duì)精確度的要求非常高。

頂著讓板卡實(shí)現(xiàn)30天全負(fù)荷工作不死機(jī)、不過熱的巨大壓力,從10月開始,量產(chǎn)團(tuán)隊(duì)在燧原實(shí)驗(yàn)室中連續(xù)一個(gè)月全負(fù)荷緊急攻關(guān)調(diào)試,每個(gè)人都背負(fù)著巨大的責(zé)任感,將工作任務(wù)嚴(yán)格控制到每一天,1個(gè)月后板卡順利通過抗壓測試。

除了系統(tǒng)量產(chǎn)團(tuán)隊(duì)外,在產(chǎn)品研發(fā)方面,燧原還有其他三個(gè)主要團(tuán)隊(duì),分別是芯片團(tuán)隊(duì)、軟件團(tuán)隊(duì)以及客戶解決方案團(tuán)隊(duì)。在燧原文化的驅(qū)動(dòng)下,這四個(gè)團(tuán)隊(duì)緊密協(xié)同,實(shí)現(xiàn)了燧原從項(xiàng)目伊始到整個(gè)大系統(tǒng)量產(chǎn)的高效執(zhí)行力。

其中,研發(fā)人員是燧原團(tuán)隊(duì)的主力軍,占總員工人數(shù)的近90%。除了重視研發(fā)外,面向客戶服務(wù)的員工數(shù)量也在持續(xù)增長。

如今,燧原已建立了全建制的商務(wù)和研發(fā)部門,包括產(chǎn)品市場、商務(wù)銷售、客戶方案及供應(yīng)鏈等部門,更好地為客戶提供服務(wù)。

張亞林認(rèn)為,在企業(yè)初創(chuàng)階段,需要一些非常資深的人來把控產(chǎn)品和落地等方向,但隨著團(tuán)隊(duì)逐步擴(kuò)張,芯片公司就像一個(gè)火力配置均勻的集團(tuán)軍,有各種兵種,包括做驗(yàn)證的、做設(shè)計(jì)的、做架構(gòu)設(shè)計(jì)的等等。

“我不認(rèn)為一個(gè)公司全是「特種兵」”,張亞林特別提到,這不是有效的組織結(jié)構(gòu),當(dāng)一個(gè)公司達(dá)到某一階段,就需要實(shí)現(xiàn)“火力均衡配置、各種兵種互相協(xié)同高效運(yùn)作的組織”。

五、云端AI推理芯片將呈現(xiàn)爆炸式增長

盡量CPU仍占據(jù)最多的云端推理市場,但張亞林認(rèn)為,這是因?yàn)橥评硎袌鲞€未完全蓬勃發(fā)展起來,并不妨礙未來云端AI推理芯片的成長。

此前因模型基礎(chǔ)量不夠大,很多推理還在做輕量化,加上端云之間的延遲很大,導(dǎo)致網(wǎng)絡(luò)傳輸速度嚴(yán)重掣肘了云端推理的應(yīng)用。

而從近年數(shù)據(jù)來看,在中國云端推理市場,AI處理器所占份額從2017年的0%逐步攀升至2019年的1.5%。

挺進(jìn)云端AI訓(xùn)練&推理雙賽道!獨(dú)家對(duì)話燧原科技COO張亞林:揭秘超高效率背后的“內(nèi)功”

尤其在今年,推理市場增速明顯。

首先是場景的發(fā)展,中國互聯(lián)網(wǎng)場景非常多樣化,在信息安全、語音、NLP、短視頻等方面有越來越多的推理需求,應(yīng)用場景日趨豐富。

其次是網(wǎng)絡(luò)的發(fā)展,5G的興起打破了端云之間的延遲限制,讓云端多用戶并發(fā)性變得非常廣泛,將網(wǎng)絡(luò)延遲降到最低,這樣一來,云端算力就變成了關(guān)鍵瓶頸。

因此,張亞林預(yù)計(jì),隨著應(yīng)用場景泛化以及5G的普及,AI處理器一定會(huì)在云端推理市場呈現(xiàn)爆炸式增長。

六、商業(yè)成功是檢驗(yàn)技術(shù)創(chuàng)新的唯一標(biāo)準(zhǔn)

什么才算真正的技術(shù)創(chuàng)新?

前段時(shí)間,中國工程院院士吳漢明在題為《“中國芯”呼喚產(chǎn)業(yè)導(dǎo)向的技術(shù)支持》的演講中指出,商業(yè)成功是檢驗(yàn)技術(shù)創(chuàng)新的唯一標(biāo)準(zhǔn)。

張亞林對(duì)此非常認(rèn)同,當(dāng)我們還在談?wù)撔酒軜?gòu)創(chuàng)新,英偉達(dá)及其他云端頭部公司已將著眼點(diǎn)放置于全系統(tǒng)的創(chuàng)新,而芯片只是其中很小的一部分。

“燧原的目的一直是算力普惠,這句話并不是空談?!睆垇喠终f,燧原在軟件、硬件、系統(tǒng)、客戶定制化方案全面鋪開,通過打造高性價(jià)比的算力,真正為客戶創(chuàng)造價(jià)值。

在他看來,開拓型創(chuàng)新是有前提條件的,只有通過逐步了解市場,提高客戶黏性、構(gòu)建生態(tài)到一定程度時(shí),創(chuàng)新才是有說服力的。

要達(dá)到這個(gè)前提的根本,是通過不斷產(chǎn)品迭代,在算力性價(jià)比、客戶支持極致性上做文章,這樣才能積累起一定的客戶黏性。

“所以拋開市場價(jià)值、客戶黏性、生態(tài)壁壘去談創(chuàng)新,就是無本之木、無源之水?!睆垇喠终f。

結(jié)語:不講故事,只講客戶價(jià)值

截至現(xiàn)在,燧原科技的云端AI芯片生態(tài)已經(jīng)覆蓋“邃思”通用人工智能芯片、云端訓(xùn)練加速卡“云燧T10”、云端推理加速卡“云燧i10”以及“馭算”軟件全棧平臺(tái)。

在張亞林看來,中國公司做數(shù)據(jù)中心是大趨勢,而中國數(shù)據(jù)中心的體量完全能容納更多的頭部玩家,市場也需要“百花齊放”,同時(shí)燧原將堅(jiān)持通過高執(zhí)行力和工程化為客戶提供價(jià)值。

“我們是一家以技術(shù)驅(qū)動(dòng),為客戶創(chuàng)造價(jià)值的公司?!彼岬届菰呀?jīng)走在商業(yè)化落地的路上,“明年公司愿景是實(shí)現(xiàn)更大規(guī)模的商業(yè)落地,建立我們的產(chǎn)品生態(tài)和護(hù)城河,為客戶提供更多更完整的產(chǎn)品解決方案?!?/p>

在后續(xù)的產(chǎn)品迭代中,燧原計(jì)劃持續(xù)滿足客戶更多的需求。隨著生態(tài)打磨和業(yè)務(wù)泛化,燧原給自己定的目標(biāo)是將客戶從其他產(chǎn)品遷移到燧原產(chǎn)品的時(shí)間壓縮在一周之內(nèi)。

除了總部位于上海外,燧原科技已在北京和深圳設(shè)有研發(fā)中心。張亞林說,未來他們還希望能夠布局一些內(nèi)地和沿海省市。

“人才在哪兒,研發(fā)中心就放在哪兒?!睆垇喠窒Mㄟ^遠(yuǎn)程管理和高效組織,未來燧原能夠吸納更多的人才。