芯東西(公眾號(hào):aichip001)
編輯 |? GACS 2024

2024全球AI芯片峰會(huì)(GACS 2024)于9月6日~7日在北京舉行,大會(huì)由智一科技旗下芯片行業(yè)媒體芯東西和硬科技知識(shí)分享社區(qū)智猩猩發(fā)起舉辦。在9月6日的主會(huì)場(chǎng)數(shù)據(jù)中心AI芯片專場(chǎng)上,浪潮信息開放加速計(jì)算產(chǎn)品負(fù)責(zé)人Stephen Feng以《多元開放系統(tǒng)激發(fā)生成式AI創(chuàng)新活力》為題發(fā)表演講。

Stephen Feng分享道,大模型發(fā)展和AIGC應(yīng)用的創(chuàng)新離不開開源模型和硬件開放。且隨著大模型參數(shù)規(guī)模增加,生成式AI的發(fā)展面臨四大挑戰(zhàn):集群擴(kuò)展性不足、芯片功耗高、集群部署難、系統(tǒng)可靠性低四大挑戰(zhàn)。

針對(duì)生成式AI面臨的幾大挑戰(zhàn),Stephen Feng提出了他的解決思路,即:

1、單機(jī)維度考慮更大的超節(jié)點(diǎn)互聯(lián),集群維度采用更強(qiáng)、更開放的網(wǎng)絡(luò)交換機(jī),解決集群擴(kuò)展性不足。

2、整機(jī)維度做到極致的能效設(shè)計(jì),提前布局液冷,解決芯片功耗高的問題。

3、進(jìn)行算力的統(tǒng)一池化管理加快硬件部署,通過端到端的開發(fā)平臺(tái)實(shí)現(xiàn)應(yīng)用的快速部署。

4、建立標(biāo)準(zhǔn)監(jiān)控管理規(guī)范,加速先進(jìn)算力的上線部署,實(shí)現(xiàn)GPU快速迭代和部署;具備自適應(yīng)分布式訓(xùn)練系統(tǒng)實(shí)現(xiàn)故障時(shí)的快速定位和斷點(diǎn)續(xù)訓(xùn)。

浪潮信息Stephen Feng:應(yīng)對(duì)生成式AI發(fā)展四大挑戰(zhàn),以應(yīng)用為導(dǎo)向以系統(tǒng)為核心解題丨GACS 2024▲浪潮信息開放加速計(jì)算產(chǎn)品負(fù)責(zé)人Stephen Feng

以下是Stephen Feng演講內(nèi)容的完整整理:

一、開源模型成創(chuàng)新動(dòng)力,硬件開放推動(dòng)完善AI算力生態(tài)

激發(fā)創(chuàng)新活力的核心就是開源開放。

我們首先來回顧大模型的發(fā)展歷程,在過去的幾年間不管是基于上層的應(yīng)用還是底層技術(shù)的進(jìn)步,開源模型的能力可以與閉源模型能力相媲美。

在今年Meta發(fā)布了Llama 3,是一個(gè)405B的大模型,而它的能力達(dá)到了世界領(lǐng)先的水平。在國內(nèi),像通義千問、百川和浪潮信息的“源2.0-M32”也是開源模型。

在去年全球發(fā)布的大模型中,2/3以上的大模型都是開源模型,而且80%以上的大模型都選擇了開源的框架做相應(yīng)的開發(fā)。開源模型的總下載量已經(jīng)超過3億次,并且已經(jīng)衍生了超過3萬多個(gè)新模型。

綜上所述,開源模型成為創(chuàng)新的動(dòng)力。

除了大模型,在硬件層面,硬件開放也是完善AI算力生態(tài)非常重要的特征。在應(yīng)用的發(fā)展可以看到,大模型的發(fā)展也為AI芯片產(chǎn)業(yè)帶來了多樣化的需求特征。在最初,高端AI芯片存在硬件接口、互聯(lián)規(guī)范不統(tǒng)一等問題,導(dǎo)致其在整機(jī)適配兼容時(shí)容易出現(xiàn)很多問題,投入非常大。

2019年浪潮信息在OCP峰會(huì)上展示了全球第一塊UBB,由此拉開了OAM整體序幕;2020年,我們發(fā)布了第一款參考系統(tǒng)MX1,基于此系統(tǒng),推動(dòng)相應(yīng)的上游芯片廠商在大模型芯片上的開發(fā)和落地;2021年和2022年,基于OAM1.0規(guī)范做了基于Gen4液冷和風(fēng)冷服務(wù)器。在此服務(wù)器上推動(dòng)完善整個(gè)OAM的產(chǎn)品生態(tài)。在去年,所發(fā)布的《開放加速規(guī)范AI服務(wù)器設(shè)計(jì)指南》,給新興的AI芯片創(chuàng)新提供堅(jiān)實(shí)的系統(tǒng)平臺(tái)支撐,加速多元算力產(chǎn)業(yè)發(fā)展。

去年基于Gen4 1.5的規(guī)范發(fā)布了全新Gen5 OAM服務(wù)器,并在這個(gè)產(chǎn)品上跟業(yè)界20多款高端AI芯片得到相關(guān)的適配。明年我們會(huì)基于OAM2.0繼續(xù)發(fā)布相關(guān)的參考設(shè)計(jì),持續(xù)引領(lǐng)高端AI芯片的設(shè)計(jì)以及其與我們的整機(jī)系統(tǒng)兼容。

整體來看,OAM的開放標(biāo)準(zhǔn)在硬件層面正加速推動(dòng)硬件設(shè)計(jì)與先進(jìn)算力的部署。這一標(biāo)準(zhǔn)可以幫助AI芯片大幅縮短OAM加速卡研發(fā)和系統(tǒng)適配周期,節(jié)省超過6個(gè)月以上的研發(fā)時(shí)間與上千萬的投入成本,有效縮短硬件開發(fā)和產(chǎn)業(yè)賦能周期。

從以上兩個(gè)角度來看,不管在模型的開源,還是硬件的開放上,大模型的發(fā)展和AIGC的應(yīng)用,其整體的迭代離不開開源和開放。今天重點(diǎn)基于開放來分享這個(gè)主題。

二、大模型參數(shù)量和所需算力大幅增加,生成式AI發(fā)展面臨四大挑戰(zhàn)

回顧大模型的發(fā)展歷程,深度學(xué)習(xí)大模型起源于二十世紀(jì)八九十年代,最初大模型整體的發(fā)展速度以及迭代速度是較慢的。

2017年Google發(fā)布了一篇文章《Attention Is All You Need》,提出了Transformer架構(gòu)。Transformer架構(gòu)發(fā)展之后,加速了大模型迭代的速度。尤其在2022年ChatGPT發(fā)布,把大模型應(yīng)用推上頂峰。國內(nèi)外大模型層出不窮,Sora大模型再次出現(xiàn),又讓多模態(tài)大模型得到了激烈討論。

大模型從簡單的深度學(xué)習(xí)模型到現(xiàn)在大語言模型或者多模態(tài)大模型,還有今年火熱的混合專家模型。最近幾年因?yàn)榇竽P偷牡俣仍陲w速提升。我們觀察到,當(dāng)前大模型的參數(shù)量和所需算力的增長速度已經(jīng)遠(yuǎn)遠(yuǎn)超過了摩爾定律的發(fā)展速度。

大模型未來的發(fā)展趨勢(shì):參數(shù)量更大,往混合專家、長訓(xùn)練模型以及多模態(tài)大模型去發(fā)展,并行訓(xùn)練會(huì)引入新的范式。

傳統(tǒng)的大語言模型就是Tensor并行、數(shù)據(jù)并行和流水線并行,到混合專家模型之后引入了專家并行,長訓(xùn)練模型引入序列并行。引入新的并行模式,像專家并行和序列并行,所需要的通信量會(huì)大幅度增加。

在大模型訓(xùn)練過程中,對(duì)于通信速度要求是比較高的。引入新的訓(xùn)練范式之后,對(duì)整機(jī)的需求是什么?一方面需要更大的GPU Domain,不能局限于單機(jī)8卡的整機(jī)系統(tǒng),需要更大GPU Domain滿足大模型發(fā)展所需要互聯(lián)的速度。另外,需要更大的互聯(lián)帶寬,大模型的發(fā)展遵循Scaling Law,參數(shù)量大幅度增加,所需要的算力也在大幅度增加。此前訓(xùn)練一個(gè)模型需要的可能是百卡、千卡集群就可以了。

而當(dāng)前以及未來大模型的發(fā)展,需要的集群即是萬卡起步甚至十萬卡的level。

再到服務(wù)端也就是推理側(cè)。我們總結(jié)來看的話,大模型在推理的過程中首先會(huì)有first token,整體是一個(gè)算力敏感型,再往后的token都是一些顯存敏感型。隨著模型的參數(shù)量大幅度增加,像Llama 3總體的參數(shù)量達(dá)到4050億,未來的推理其實(shí)從單卡推理向多卡推理演進(jìn),還有向量數(shù)據(jù)庫等推理模型新范式,所引發(fā)的對(duì)CPU、互聯(lián)、整體的顯存帶寬都有了更高的挑戰(zhàn)。

基于上述特征,總結(jié)未來生成式AI發(fā)展所面臨的巨大挑戰(zhàn)。

大模型的發(fā)展在遵循Scaling Law,模型的參數(shù)量、訓(xùn)練的時(shí)長和訓(xùn)練的數(shù)據(jù)集都在持續(xù)增加。未來訓(xùn)練一個(gè)全新的基礎(chǔ)大模型,萬卡已經(jīng)成為新起點(diǎn),對(duì)于整機(jī)的擴(kuò)展性提出新的要求。

另外,AI芯片功耗在大幅度提升,從兩年前的400W到現(xiàn)在的700W,明年更會(huì)達(dá)到1200W。短短三年間,GPU芯片的功耗已經(jīng)提升了三倍左右。一些新的產(chǎn)品形態(tài),像英偉達(dá)推出的Oberon架構(gòu)單機(jī)功耗超過120kW。因?yàn)樾酒懔Φ奶嵘约皢螜C(jī)柜功耗的提升,會(huì)給整體基礎(chǔ)設(shè)施帶來新的變革。在單機(jī)維度上需要解掉這么多GPU功耗的散熱,投入是非常大的。

另外,未來數(shù)據(jù)中心基礎(chǔ)設(shè)施的建設(shè)上,我們也要考慮一些新的部署模式,如何快速部署單機(jī)柜還能滿足這么大功率十分重要。

基于GPU發(fā)展的功耗提升現(xiàn)狀下,總結(jié)未來大模型的發(fā)展,到最后都是能源的爭奪。我們?nèi)绾卧趩螜C(jī)維度、集群維度能夠?qū)崿F(xiàn)更高、更優(yōu)的能耗是十分重要的。

集群部署難。在大模型集群的部署上除了硬件上包含CPU、GPU、網(wǎng)絡(luò)、存儲(chǔ)等設(shè)備,還涉及上層軟件和硬件設(shè)備的問題。我們?nèi)绾慰焖俚貙⑦@些基礎(chǔ)設(shè)施進(jìn)行部署,再到業(yè)務(wù)層將這些相關(guān)的算力能夠轉(zhuǎn)化成應(yīng)用,這是十分重要的。

Llama 3在60多天的訓(xùn)練過程中,故障400多次,平均1天有7次的故障。80%的故障都是發(fā)生在硬件的故障,60%是GPU的故障,剩下是軟件適配的故障。如何在模型的訓(xùn)練當(dāng)中保證它的可靠性、穩(wěn)定性,是大模型能夠迅速迭代的一個(gè)重要因素。

三、考慮更大Domain解決集群擴(kuò)展性不足,監(jiān)控管理標(biāo)準(zhǔn)化提高模型穩(wěn)定性

基于以上的挑戰(zhàn)之下,可以有以應(yīng)用為導(dǎo)向,以系統(tǒng)為核心的應(yīng)用之道,具體為以下四個(gè)方面:

1、針對(duì)集群擴(kuò)展性不足,我們?cè)?strong>單機(jī)維度要考慮更大的超節(jié)點(diǎn)互聯(lián),要做到超級(jí)互聯(lián)方案去實(shí)現(xiàn)千卡集群的Scale-up。在集群維度還要考慮采用更強(qiáng)的網(wǎng)絡(luò)交換機(jī)去做到更多的萬卡甚至十萬卡的GPU Scale-out。

在單機(jī)維度,我們會(huì)推出創(chuàng)新的OAM互聯(lián)方案來滿足萬億模型通信需求。一方面會(huì)推出基于OAM2.0的多機(jī)互聯(lián)方案標(biāo)準(zhǔn),相比此前直聯(lián)的拓?fù)銸AM,P2P帶寬提升7倍左右,實(shí)現(xiàn)更大OAM的Domain,支持八千張以上的加速卡超級(jí)互聯(lián)。我們也會(huì)基于交換拓?fù)渫瞥鯫AM的超節(jié)點(diǎn)互聯(lián)方案,是一個(gè)完全解耦的整機(jī)柜形態(tài);并基于此拓?fù)湫纬蒓AM整機(jī)柜標(biāo)準(zhǔn),解決擴(kuò)展性不足并加速OAM的算力迭代。

在集群層面,浪潮信息推出X400超級(jí)AI以太網(wǎng)交換機(jī),也是完全開放的產(chǎn)品。專門為AI大模型設(shè)計(jì),是國內(nèi)首款基于Spectrum-4打造的產(chǎn)品,最高吞吐達(dá)到51.2T,超級(jí)AI以太網(wǎng)交換機(jī)與傳統(tǒng)的以太網(wǎng)交換機(jī)最大的不同就是采用交換機(jī)和智能網(wǎng)卡整體的調(diào)度解決方案,在交換機(jī)上實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)包細(xì)粒度的路由調(diào)度,在網(wǎng)卡側(cè)提供保序服務(wù),實(shí)現(xiàn)交換機(jī)和網(wǎng)卡更加緊密耦合的配合?;诖朔桨?,我們能夠?qū)崿F(xiàn)16K計(jì)算節(jié)點(diǎn),10萬+以上的加速卡互聯(lián),滿足GPU之間的互聯(lián)通信需求。同時(shí),帶寬的利用率高達(dá)95%以上。

2、針對(duì)計(jì)算芯片,一方面在整機(jī)維度做到極致的能效設(shè)計(jì),把整機(jī)的能效做到最優(yōu),把性能發(fā)揮到極致。另外,提前布局液冷,浪潮信息一直是ALL IN液冷的策略,單機(jī)柜成本非常高,整機(jī)柜交付的模式,基于開放、快速交付的液冷整機(jī)柜交付形態(tài)去滿足計(jì)算芯片功耗高帶來的挑戰(zhàn)。

針對(duì)GPU功耗的飛速發(fā)展,在單機(jī)維度采用極限的設(shè)計(jì),去實(shí)現(xiàn)極致的效能。我們?cè)诿嫦蛉蜃畲蟮腁I服務(wù)器用戶的工程實(shí)踐當(dāng)中總結(jié)了設(shè)計(jì)方案,不斷突破單機(jī)算力密度和單機(jī)的性能。NVLink服務(wù)器我們已經(jīng)做了四代,OAM服務(wù)器已經(jīng)做了三代的產(chǎn)品,整體服務(wù)器上通過全鏈路仿真、分區(qū)的散熱調(diào)控去實(shí)現(xiàn)了極致的散熱和最佳的性能。在保障產(chǎn)品極致性能的同時(shí),把整體的能效發(fā)揮到最優(yōu)。

另外一方面,首創(chuàng)像風(fēng)扇的智能聽音診斷技術(shù),通過相關(guān)的智能診斷去保障大模型訓(xùn)練過程中總體的功耗和噪音的極致優(yōu)化。在液冷方面,剛才提到我們ALL IN液冷戰(zhàn)略,很早布局液冷,包含冷板式散熱、浸沒式等液冷方面的技術(shù)。

在基礎(chǔ)設(shè)施層面,通過開放液冷技術(shù)標(biāo)準(zhǔn)推動(dòng)液冷加速普及。一方面制定相關(guān)的液冷技術(shù)標(biāo)準(zhǔn),推動(dòng)液冷的加速普及。打造標(biāo)準(zhǔn)接口的液冷組件,滿足單機(jī)的Scale-up?;谝酝臄?shù)據(jù)風(fēng)冷機(jī)房改造,通過風(fēng)液式CDU,實(shí)現(xiàn)一天零改造快速落地和部署?;诶滏湹募軜?gòu)革新推出單機(jī)柜120千瓦的整機(jī)柜形態(tài),滿足未來更大的超節(jié)點(diǎn)互聯(lián)方案,實(shí)現(xiàn)快速落地部署?;A(chǔ)設(shè)施維度,通過開放的生態(tài),建立預(yù)制化可擴(kuò)展、可生長的數(shù)據(jù)中心交付形態(tài),來加快算力的部署。

3、在整機(jī)維度,把GPU的監(jiān)控管理標(biāo)準(zhǔn)化加速迭代。并在訓(xùn)練過程中基于自適應(yīng)的分布式訓(xùn)練系統(tǒng),保障訓(xùn)練的穩(wěn)定。

穩(wěn)定性是高效完成大模型發(fā)展的必備條件。

一方面我們對(duì)整體的監(jiān)控管理標(biāo)準(zhǔn)化,從OAM的固件管理規(guī)范,定義了管理的標(biāo)準(zhǔn),包括從數(shù)據(jù)的更新頻率、異常數(shù)據(jù)處理,還有等級(jí)的數(shù)據(jù)處理機(jī)制以及整機(jī)預(yù)告警、分區(qū)分層診斷機(jī)制,我們都去定義了相應(yīng)的標(biāo)準(zhǔn),加速不同GPU芯片在整機(jī)系統(tǒng)的兼容。另外,我們基于OpenBMC開放了管理平臺(tái),原生架構(gòu)兼容了像AI服務(wù)器、通用服務(wù)器、專業(yè)服務(wù)器、存儲(chǔ)服務(wù)器等多元異構(gòu)的計(jì)算平臺(tái)。通過模塊化的解耦實(shí)現(xiàn)Arm、x86、CPU等以及GPU、ASIC等加速卡的兼容,能夠?qū)崿F(xiàn)快速迭代。

另一方面,在模型訓(xùn)練過程中,如何在監(jiān)控層面,有效應(yīng)對(duì)訓(xùn)練中出現(xiàn)的故障等突發(fā)情況?我們通過AIStation人工智能開發(fā)平臺(tái),構(gòu)建自適應(yīng)分布式訓(xùn)練系統(tǒng)。一方面可以實(shí)現(xiàn)多租戶資源的管理,去提高集群資源的利用率和降低集群管理的復(fù)雜度。另外一方面,當(dāng)出現(xiàn)斷點(diǎn)的時(shí)候,能夠通過在訓(xùn)練池中快速地拉通備機(jī),實(shí)現(xiàn)快速恢復(fù)訓(xùn)練和訓(xùn)練的自愈,保障大模型在訓(xùn)練過程中長時(shí)間、高效的穩(wěn)定運(yùn)行。通過AIStation能夠?qū)⒐收系奶幚頃r(shí)間縮短90%以上。

4、最后,在模型的部署落地上,通過“元腦企智”EPAI加速大模型業(yè)務(wù)部署和應(yīng)用創(chuàng)新,為企業(yè)AI大模型的落地應(yīng)用提供高可用,以及安全端到端的開發(fā)平臺(tái),提供相應(yīng)的像數(shù)據(jù)準(zhǔn)備、知識(shí)檢索、模型微調(diào)和訓(xùn)練,以及應(yīng)用框架的系列工具支持調(diào)度多元算力和多模算法,幫助企業(yè)高效地部署生成式AI應(yīng)用。

綜上所述,浪潮信息始終堅(jiān)持以應(yīng)用為導(dǎo)向,以系統(tǒng)為核心,通過開源開放的系統(tǒng)激發(fā)生成式AI創(chuàng)新活力。在硬件開放方面,通過建立OAM(開放加速模塊)規(guī)范,加速先進(jìn)算力的上線部署,支撐大模型及AI應(yīng)用的迭代加速。在軟件開放方面,通過大模型開發(fā)平臺(tái)“元腦企智”EPAI,為企業(yè)打造全流程應(yīng)用開發(fā)支撐平臺(tái);通過AIStation人工智能開發(fā)平臺(tái),提供穩(wěn)定的保障系統(tǒng),實(shí)現(xiàn)從模型開發(fā)、訓(xùn)練、部署、測(cè)試、發(fā)布、服務(wù)的全流程一站式高效交付。我們始終秉承開放包容的生態(tài),加速生成式AI的快速發(fā)展。