芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

從打造一顆芯片到推出系統(tǒng)級解決方案,似乎已經(jīng)成為一家云端AI(人工智能)芯片公司的必然走向。

在9月1日-3日舉辦的2022世界人工智能大會上,云端AI算力企業(yè)燧原科技推出了針對大規(guī)模、集約化AI算力應(yīng)用場景的高性能AI加速集群產(chǎn)品云燧智算機(jī)(CloudBlazer POD,以及全棧式AI開發(fā)服務(wù)平臺和通用大規(guī)模算力管理平臺燧池智算平臺(CloudBlazer Station)。

這是燧原科技在其面向訓(xùn)練和推理的云端AI芯片相繼落地后,為提供AI場景計(jì)算能力建設(shè)而打造的最新力作。

此前,燧原科技的兩代“邃思”芯片已應(yīng)用于大規(guī)模AI集群工程中,落地超千卡規(guī)模液冷AI集群。而兩個(gè)軟硬件新品的發(fā)布,有助于降低燧原AI算力產(chǎn)品在數(shù)據(jù)中心的部署和應(yīng)用門檻,并進(jìn)一步挖掘其芯片在實(shí)際業(yè)務(wù)場景中能發(fā)揮出的有效算力。

從迭代核心芯片到主打系統(tǒng)和軟件,這背后凝聚了燧原科技的哪些經(jīng)驗(yàn)與思考?近日,芯東西與燧原科技創(chuàng)始人兼COO張亞林進(jìn)行深入交流,分享關(guān)于兩款新品的更多技術(shù)細(xì)節(jié),以及對AI芯片產(chǎn)業(yè)未來走向的前瞻性見解。

云端AI芯片進(jìn)入拼落地階段!如何吃透數(shù)據(jù)中心建設(shè)痛點(diǎn),對話燧原科技張亞林▲燧原科技創(chuàng)始人、COO張亞林

一、降低AI算力中心部署成本,助建大規(guī)模、集約化、綠色低碳數(shù)據(jù)中心

張亞林告訴芯東西,目前燧原科技有4條主要客戶賽道,分別是泛互聯(lián)網(wǎng)、垂直或傳統(tǒng)行業(yè)、政府業(yè)務(wù)、產(chǎn)學(xué)研。燧原在這些業(yè)務(wù)線上均已落地樣板客戶,并泛化了所有這4條賽道的客戶需求,將它們集成在云燧智算機(jī)中,形成一套“軟件+硬件+系統(tǒng)化”的總體算力底座產(chǎn)業(yè)化方案。

云燧智算機(jī)采用一體化設(shè)計(jì),是專為AI場景下計(jì)算、存儲、網(wǎng)絡(luò)、軟硬協(xié)同設(shè)計(jì)的標(biāo)準(zhǔn)化產(chǎn)品,通過一站式預(yù)集成AI加速硬件、一體化開發(fā)與管理平臺及配套AI應(yīng)用軟件與服務(wù),提供包括采購、安裝、運(yùn)維一體的交鑰匙方案,來幫助用戶實(shí)現(xiàn)AI算力中心從交付部署到后期上線及運(yùn)維管理全生命周期中的優(yōu)異總擁有成本(TCO)。

云端AI芯片進(jìn)入拼落地階段!如何吃透數(shù)據(jù)中心建設(shè)痛點(diǎn),對話燧原科技張亞林

▲云燧智算機(jī)整體設(shè)計(jì)

從外形來看,云燧智算機(jī)與美國AI計(jì)算企業(yè)英偉達(dá)打造的DGX POD看起來差不多。張亞林解釋說,兩者產(chǎn)品形態(tài)類似,但又有些不同,云燧智算機(jī)可以進(jìn)行定制,散熱方式可以定制成是液冷或風(fēng)冷,存儲、算力、CPU、網(wǎng)絡(luò)都可以定制,以組件化、菜單化形式提供給客戶。

據(jù)他透露,云燧智算機(jī)已開始落地,現(xiàn)有落地場景包括構(gòu)成超千卡液冷AI液冷集群,已在國家級實(shí)驗(yàn)室上線,在To G業(yè)務(wù)也實(shí)現(xiàn)了大規(guī)模應(yīng)用。

從燧原此前積累的經(jīng)驗(yàn)來看,數(shù)據(jù)中心很關(guān)注能效比和性價(jià)比,這也是云燧智算機(jī)的優(yōu)勢所在。

云燧智算機(jī)代表了燧原科技經(jīng)過多個(gè)大規(guī)模工程實(shí)踐所形成的計(jì)算、網(wǎng)絡(luò)、存儲的整體設(shè)計(jì):以全局優(yōu)化為目標(biāo),基于計(jì)算、存儲、管理網(wǎng)絡(luò)分離,全互聯(lián)無阻塞的網(wǎng)絡(luò)架構(gòu),結(jié)合高效的多級存儲方式,在其自研AI芯片“邃思”與CPU的異構(gòu)算力支撐下提供出色的AI性能。

據(jù)其披露的數(shù)據(jù),在典型配置下,云燧智算機(jī)每單元可達(dá)到8PFLOPS的TF32浮點(diǎn)算力,并且支持按需橫向擴(kuò)容,計(jì)算節(jié)點(diǎn)內(nèi)基于GCU-LARE2.0多芯互聯(lián)技術(shù)可提供近1TB/s的互聯(lián)帶寬,跨節(jié)點(diǎn)互聯(lián)能力高達(dá)600Gb/s,可支持?jǐn)?shù)千卡規(guī)模集群高速互聯(lián),突破E級算力,并能支撐超千億參數(shù)巨量模型的高效、并行訓(xùn)練。

云端AI芯片進(jìn)入拼落地階段!如何吃透數(shù)據(jù)中心建設(shè)痛點(diǎn),對話燧原科技張亞林

通過采用一體化冷板式液冷技術(shù)、先進(jìn)流量控制系統(tǒng)等,云燧智算機(jī)能夠?qū)?shù)據(jù)中心整體能效(PUE)降至1.1及以下。

張亞林說,燧原的產(chǎn)品均為自主開發(fā),對芯片、板卡的成本有非常強(qiáng)的認(rèn)知,其供應(yīng)鏈優(yōu)化也起到了關(guān)鍵作用,再加上對軟件的增值、跟OEM戰(zhàn)略合作中一體化設(shè)計(jì)在成本上的優(yōu)化,能夠?qū)⒛苄?、算效和性價(jià)比做到了極致。

如果將實(shí)現(xiàn)降低功耗的目標(biāo)拆解來看,首先是做到整個(gè)芯片和板卡的能耗控制,在算力利用率高時(shí),功耗能到峰值,并且不出現(xiàn)穩(wěn)定性問題;在算力利用率低時(shí),功耗要降下來,不能空耗電。

接著是控制整個(gè)系統(tǒng)的功耗。這取決于軟硬件聯(lián)合優(yōu)化是不是足夠好,同時(shí)循環(huán)系統(tǒng)也很關(guān)鍵,相比傳統(tǒng)的風(fēng)冷方式,液冷方式的散熱效能高,能將周邊溫度更好地控制在一個(gè)較穩(wěn)定的狀態(tài)。

二、軟件,AI芯片公司未來的核心競爭力

“算力底座的概念,已經(jīng)從芯片變成了系統(tǒng),或者是「系統(tǒng)+軟件」?!睆垇喠终劦馈?/p>

單說板卡、芯片性價(jià)比多高沒有意義,最終客戶買的是系統(tǒng),因此是從系統(tǒng)角度看性價(jià)比。無論是計(jì)算中心還是各類垂直場景,都越來越呈集約化趨勢,需要有能讓AI算力更加開箱即用的交鑰匙方案,這就要有將加速卡、CPU、存儲、網(wǎng)絡(luò)通通考慮在內(nèi)的整個(gè)AI系統(tǒng)的整合,同時(shí)軟件平臺需將整個(gè)用戶界面全盤規(guī)劃。

“軟件的復(fù)雜度、系統(tǒng)互聯(lián)的存儲、算力匹配的復(fù)雜度,都會大力增加整個(gè)AI系統(tǒng)工程化落地的服務(wù),必須有足夠強(qiáng)大的團(tuán)隊(duì)和足夠多的know-how,才能夠把這些東西集成在一起。”

張亞林稱,這是一個(gè)很大的工程體系,要求整個(gè)團(tuán)隊(duì)具備全棧能力,芯片團(tuán)隊(duì)要掌握從芯片定義、架構(gòu)、設(shè)計(jì)到流片、量產(chǎn)的全過程,軟件團(tuán)隊(duì)要從全棧角度將底層驅(qū)動到上層框架全部拉通,系統(tǒng)團(tuán)隊(duì)則需具備AI計(jì)算卡、CPU、網(wǎng)絡(luò)、存儲等系統(tǒng)集成的大規(guī)模部署。

有了這樣全鏈條的團(tuán)隊(duì),系統(tǒng)與軟件的配合才可能達(dá)到無縫地銜接與優(yōu)化,才能真正從一體化、系統(tǒng)化的方式實(shí)現(xiàn)客戶的價(jià)值。

張亞林特別強(qiáng)調(diào)說,AI芯片公司未來的核心競爭力,除了芯片本身之外,軟件是一大關(guān)鍵。

軟件研發(fā)的難度甚至高于芯片本身,從無到有,要考慮對不同場景的適配、對未來算法模型的支持等等,而必須觸達(dá)足夠多的客戶,應(yīng)用到足夠多的場景,吸收大量的客戶反饋再不斷打磨軟件,才有實(shí)現(xiàn)完備性的可能。

經(jīng)過大量業(yè)務(wù)落地后,燧原團(tuán)隊(duì)將其觸達(dá)的客戶軟件開發(fā)的模式、用戶的體驗(yàn)和一些業(yè)務(wù)的痛點(diǎn)提煉整合到燧池智算平臺,使其兼具算法倉庫、訓(xùn)推一體化、調(diào)度、運(yùn)維等能力。

與云燧一體機(jī)搭配,燧池智算平臺能夠?qū)ι蠈佑脩羝帘蔚讓铀懔Ξ悩?gòu)性,實(shí)現(xiàn)云燧AI算力集群的大規(guī)模算力資源管理調(diào)度,為用戶提供AI模型生產(chǎn)及應(yīng)用發(fā)布的全流程服務(wù)。

云端AI芯片進(jìn)入拼落地階段!如何吃透數(shù)據(jù)中心建設(shè)痛點(diǎn),對話燧原科技張亞林▲燧池智算平臺

其算法服務(wù)層包含智能算法管理平臺和訓(xùn)推一體化平臺。燧池智算平臺的算法倉內(nèi)置有幾百個(gè)算法,既有已被大規(guī)模使用的業(yè)內(nèi)標(biāo)準(zhǔn)算法,也有很多經(jīng)由燧原二次開發(fā)或修改、使其更好貼近實(shí)際業(yè)務(wù)應(yīng)用的算法。在基礎(chǔ)設(shè)施層,異構(gòu)算力調(diào)度平臺負(fù)責(zé)將所有任務(wù)切分調(diào)度,智能運(yùn)維平臺讓用戶能夠隨時(shí)遠(yuǎn)程監(jiān)控?cái)?shù)據(jù)、存儲、算力、網(wǎng)絡(luò)使用率及故障異常情況。

張亞林透露道,燧原的軟件會繼續(xù)向四個(gè)方面發(fā)力:易用性、完備性、遷移性、兼容性。

三、劇透云燧智算機(jī)迭代規(guī)劃,對AI芯片發(fā)展抱有長期信心

談及云燧智算機(jī)與燧池智算平臺的后續(xù)迭代規(guī)劃與期望,張亞林說,燧原一直秉持算力普惠的原則,希望通過系統(tǒng)產(chǎn)品、軟件產(chǎn)品、集約化的方式,能夠真正給用戶帶來性價(jià)比、能效比。

他相信短期內(nèi),這兩款軟硬件新品開箱即用、模塊化的設(shè)計(jì)方式,會進(jìn)一步簡化數(shù)據(jù)中心的建設(shè)難度、縮短數(shù)據(jù)中心的建設(shè)周期;長期來看,隨著燧原芯片及軟件棧的迭代,其POD產(chǎn)品也會隨之更新,以系統(tǒng)方式提供更高價(jià)值。

據(jù)張亞林觀察,隨著中國數(shù)字經(jīng)濟(jì)、算力經(jīng)濟(jì)升級,現(xiàn)在到了科技興國的關(guān)鍵階段,即科技發(fā)展如何真正推動生產(chǎn),要做到這一點(diǎn),就要“用”起來,從客戶側(cè)感受到價(jià)值。燧原已經(jīng)站到了“讓用戶用起來”的第一線。

“我覺得所有的AI芯片公司都必須征服從點(diǎn)亮到量產(chǎn)、量產(chǎn)到軟件規(guī)?;④浖?guī)?;较到y(tǒng)和生態(tài)?!睆垇喠终f,“這個(gè)過程是沒有捷徑的,它是一個(gè)自然規(guī)律,就跟觸達(dá)客戶一樣,這就是看這些AI芯片公司能不能真正面向客戶,真正從系統(tǒng)和軟件的角度把落地和打磨的速度轉(zhuǎn)起來?!?/p>

目前國際AI計(jì)算巨頭在生態(tài)方面壁壘森嚴(yán),國內(nèi)AI芯片企業(yè)們尚難以與其“硬碰硬”。張亞林告訴芯東西,國產(chǎn)AI芯片如想提高市場競爭力,需在落地性價(jià)比上展現(xiàn)優(yōu)勢,“通常我們在泛互聯(lián)網(wǎng)客戶落地的時(shí)候,要求的是兩倍凈值和性價(jià)比,在同樣的性能下,要達(dá)到它的兩倍性價(jià)比?!?/p>

當(dāng)被問及對AI芯片賽道的長期信心,張亞林回答說:“做國家認(rèn)為難但是對的事,我認(rèn)為這條主向是不會變的。”在他看來,短期內(nèi)遇到困難在所難免,大家對這個(gè)事業(yè)的信心也會上下起伏,過程需要長戰(zhàn)斗,但發(fā)展的終極目標(biāo)、必要性都很清楚,假以時(shí)日,一定會有國內(nèi)企業(yè)跑出來。

他認(rèn)為,國產(chǎn)AI芯片在內(nèi)容審核、安全檢查等特定場景中已能跟國外競品同場競技,在兩個(gè)方面還需補(bǔ)強(qiáng):一是場景適配性與完備性,需要有更多用戶的使用和更多場景的接入,來加速產(chǎn)品的打磨;二是生態(tài)化,即實(shí)現(xiàn)整個(gè)AI系統(tǒng)與用戶需求更好地結(jié)合、與更多用戶的適配性越來越高。

對于支持日趨流行的Transformer類模型,燧原正在看下游市場的風(fēng)向,觀察客戶現(xiàn)階段是否愿意承受稀疏化的改變,“但是它一定會在燧原未來的藍(lán)圖里面?!睆垇喠终f。

結(jié)語:大算力AI芯片企業(yè)走向系統(tǒng)化布局

從芯片研發(fā)到走向規(guī)模化落地,以燧原科技為代表的多家國內(nèi)大算力AI芯片公司,正朝著系統(tǒng)化方向展開全方位的布局,以應(yīng)對愈發(fā)激烈的市場化競爭。

“我們第一代在講芯片、講板卡,第二代在大力優(yōu)化我們的軟件、泛化應(yīng)用、可遷移、兼容,再往下走,我們現(xiàn)在開始講系統(tǒng)+軟件+組件+模組這樣的整體賦能,這其實(shí)是客戶的趨勢。”張亞林說,燧原定位為AI算力基礎(chǔ)設(shè)施提供方,因客戶之需而變。

他相信,未來AI必然走向系統(tǒng)化、集約化、泛化,AI芯片也會有更好的通用性價(jià)位和彈性價(jià)位,既具備面向未來無數(shù)不確定算法的通用性,又能夠針對特定場景,在一定泛化的基礎(chǔ)上極致打磨其能效和性價(jià)比。