智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影

大模型正引發(fā)一波新的AI算力荒,從此前的芯片緊缺,上升為AI算力集群級的饑渴癥。

根據(jù)產(chǎn)業(yè)鏈消息,參數(shù)可能僅30億的Sora用4200-10500塊H100訓(xùn)練了1個月;最新出爐的Llama 3 8B和70B的訓(xùn)練需要24000多塊H100組成的集群;據(jù)稱有1.8萬億參數(shù)的GPT-4是在10000-25000張A100上完成了訓(xùn)練……

OpenAI、Meta等都在用數(shù)千卡、甚至萬卡串聯(lián),滿足不斷攀升的大模型訓(xùn)練需求,也給了我國大模型企業(yè)一本可參考的算力賬。

然而,多位GPU算力集群業(yè)內(nèi)人士告訴智東西,當下我國智能算力處于嚴重的供不應(yīng)求狀態(tài)。在GPU全球稀缺背景下,單卡性能已相對沒那么重要,通過集群互聯(lián)實現(xiàn)整體算力的最大化,成為解決AI算力荒的必要路徑。

政策也已經(jīng)緊鑼密鼓地下發(fā)。4月24日,北京市經(jīng)濟和信息化局、北京市通信管理局印發(fā)《北京市算力基礎(chǔ)設(shè)施建設(shè)實施方案(2024—2027年)》,方案提出,規(guī)劃建設(shè)支撐萬億級參數(shù)大模型訓(xùn)練需求的超大規(guī)模智算集群,并對采購自主可控GPU芯片開展智能算力服務(wù)的企業(yè)予以支持。

產(chǎn)業(yè)這邊的動作也沒有落后。國內(nèi)的頭部算力廠商都已加速布局大規(guī)模智算集群,比如云服務(wù)巨頭華為云打造了貴安、烏蘭察布、蕪湖3大AI云算力中心,頭部AI芯片公司摩爾線程過去四個月也已在南京、北京亦莊和北京密云完成3座全國產(chǎn)千卡智算中心的落地,助國產(chǎn)大模型產(chǎn)業(yè)發(fā)展提速。

大模型產(chǎn)業(yè)發(fā)展對智算中心提出什么新要求?國內(nèi)大規(guī)模智算中心建設(shè)的真實情況如何?如何讓拔地而起的千卡甚至萬卡集群實現(xiàn)從“建起來”到“用起來”的跨越?本文試圖從摩爾線程等公司的實踐,對這些問題進行探討。

一、從Sora到Llama 3,千卡集群成百模大戰(zhàn)標配

自2024年Sora、Claude 3、Llama 3等爆火模型推出以來,大模型的智能涌現(xiàn)態(tài)勢不減反增,推動國內(nèi)大模型廠家加速追趕,對AI算力的需求也持續(xù)升級。

國產(chǎn)大模型玩家無論是要持續(xù)攀登Scaling Law(規(guī)模定律)高峰,還是走行業(yè)大模型的捷徑,都迫切需要更大規(guī)模算力;同時大模型向多模態(tài)方向發(fā)展,需要處理包括文本、圖像、聲音等多種類型的數(shù)據(jù),亟需全功能的GPU;而行業(yè)大模型甚至需要算力廠商充當起“全棧式生態(tài)服務(wù)平臺”角色,服務(wù)大模型落地的“最后一公里”。

在這些多樣化新需求驅(qū)動下,將芯片系統(tǒng)組合起來的新型千卡智算中心,成為滿足大模型產(chǎn)業(yè)落地的重要抓手,也成為大國AI較量的標配新基建。

產(chǎn)業(yè)先鋒已經(jīng)紛紛展開行動,國內(nèi)頭部AI芯片公司摩爾線程在過去四個月里加速布局了三座千卡算力集群,通過自家夸娥(KUAE)智算中心解決方案為大模型打造智算底座,開箱即用,助大模型企業(yè)解決大規(guī)模GPU算力的建設(shè)和運營管理問題。

基于夸娥打造的智算中心已經(jīng)初見落地成效。目前,摩爾線程支持包括Llama、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各類主流大模型的訓(xùn)練和微調(diào)。基于摩爾線程夸娥千卡集群,70B到130B參數(shù)的大模型訓(xùn)練,線性加速比均可達到91%,算力利用率基本保持不變。

以2000億訓(xùn)練數(shù)據(jù)量為例,智源研究院700億參數(shù)Aquila2可在33天完成訓(xùn)練;1300億參數(shù)規(guī)模的模型可在56天完成訓(xùn)練。此外,摩爾線程夸娥千卡集群支持長時間連續(xù)穩(wěn)定運行,支持斷點續(xù)訓(xùn),異步Checkpoint少于2分鐘。

從傳統(tǒng)的“重硬輕軟”走向“軟硬一體化”,成為這批新智算集群的普遍特點。摩爾線程夸娥就是一個軟硬一體化的全棧解決方案,包括基礎(chǔ)設(shè)施、集群管理平臺模型服務(wù),據(jù)稱可全方位降低傳統(tǒng)算力建設(shè)、應(yīng)用開發(fā)和運維運營平臺搭建的時間成本。

百模大戰(zhàn)引爆「千卡集群競賽」,“中國英偉達”交卷了

▲夸娥(KUAE)智算中心解決方案架構(gòu)

基礎(chǔ)設(shè)施:包含夸娥計算集群、RDMA網(wǎng)絡(luò)與分布式存儲。摩爾線程夸娥千卡模型訓(xùn)練平臺,建設(shè)周期只需30天,支持千億參數(shù)模型的預(yù)訓(xùn)練、微調(diào)和推理,可實現(xiàn)高達91%的千卡集群性能擴展系數(shù)?;贛TT S4000和雙路8卡GPU服務(wù)器MCCX D800,摩爾線程夸娥集群支持從單機多卡到多機多卡,從單卡到千卡集群的無縫擴展,未來將推出更大規(guī)模的集群,以滿足更大規(guī)模的大模型訓(xùn)練需求。

KUAE Platform集群管理平臺:用于AI大模型訓(xùn)練、分布式圖形渲染、流媒體處理和科學(xué)計算的軟硬件一體化平臺,深度集成全功能GPU計算、網(wǎng)絡(luò)和存儲,提供高可靠、高算力服務(wù)。通過該平臺,用戶可靈活管理多數(shù)據(jù)中心、多集群算力資源,集成多維度運維監(jiān)控、告警和日志系統(tǒng),幫助智算中心實現(xiàn)運維自動化。

KUAE ModelStudio模型服務(wù):覆蓋大模型預(yù)訓(xùn)練、微調(diào)和推理全流程,支持所有主流開源大模型。通過摩爾線程MUSIFY開發(fā)工具,可以輕松復(fù)用CUDA應(yīng)用生態(tài),內(nèi)置的容器化解決方案,則可實現(xiàn)API一鍵部署。該平臺意在提供大模型生命周期管理,通過簡潔、易操作的交互界面,用戶可按需組織工作流,大幅降低大模型的使用門檻。

百模大戰(zhàn)引爆「千卡集群競賽」,“中國英偉達”交卷了

▲夸娥(KUAE)智算中心解決方案支持端到端一體化交付

二、從“建起來”到“用起來”,夸娥突破4道難關(guān)

過去一年,我國千P級智算中心的智算基建布局集中爆發(fā),根據(jù)工信部發(fā)布數(shù)據(jù),截至2023年10月我國算力規(guī)模超300EFLOPS,智能算力占比高達35%。然而,國內(nèi)的千卡智算中心仍處于發(fā)展初期,面臨嚴峻挑戰(zhàn)。

多位智算業(yè)內(nèi)人士告訴智東西,我國智算中心建設(shè)既面臨算力供應(yīng)鏈問題,同時大規(guī)模內(nèi)網(wǎng)互聯(lián)、存儲高速吞吐、模型優(yōu)化服務(wù)、平臺生態(tài)服務(wù)等技術(shù)因素也造成智算平臺建設(shè)的技術(shù)瓶頸。

摩爾線程相關(guān)負責人談道,集群建設(shè)是一個系統(tǒng)性復(fù)雜工程,從GPU顯卡到服務(wù)器,最后把它組成集群,這里面包括了硬件的網(wǎng)絡(luò)、存儲、軟件,再到大模型調(diào)度,是一個全棧式的工程,要真正把它做好,需要一個端到端的交鑰匙方案。

從客戶角度來講,他們對千卡集群的算力利用率、穩(wěn)定性、可擴展性兼容性的需求最為突出。這也成為千卡集群建設(shè)要邁過的四道難關(guān),摩爾線程為此做足了準備。

1、軟硬協(xié)同,算力利用率提升超50%

算力利用率(MFU)是衡量智算中心能力的一個核心指標。即便是OpenAI在早期也面臨MFU瓶頸,根據(jù)公開資料,其MFU在GPT-3訓(xùn)練階段僅為21.3%,近79%的算力都被浪費了。

摩爾線程采用軟硬協(xié)同設(shè)計、端到端的并行策略,使得綜合調(diào)優(yōu)下算力利用率(MFU)提升幅度超過50%??涠鹜ㄟ^集群通訊庫算法、網(wǎng)絡(luò)拓撲、硬件規(guī)格合理設(shè)計和配置,優(yōu)化集群匹配度;技術(shù)上,夸娥集群通訊算法網(wǎng)絡(luò)拓撲綜合利用了MTLink和PCIe,使得通訊性能提升一倍。

2、從芯片出廠開始,保證穩(wěn)定可靠性

對于分布式訓(xùn)練而言,一張卡壞了,整個訓(xùn)練都會停掉。對于一個大規(guī)模集群來說,例如千卡甚至更大的集群,卡壞的概率會更高。所以,在做千卡集群或者更大規(guī)模集群時,它對整個集群的可靠性要求會更高。

摩爾線程從卡的出廠開始保證算力質(zhì)量,做了很多嚴格的測試;開發(fā)了集群系統(tǒng)監(jiān)控和診斷工具,幫助篩選和快速定位到有問題的卡和服務(wù)器,可以自動恢復(fù)和硬件替換;做了checkpoint加速,寫的時間從10分鐘降到秒級,讀的速度從40分鐘降到2分鐘;判斷訓(xùn)練異常,系統(tǒng)自動重新拉起。

3、提高可擴展性,線性加速比達91%

算力集群規(guī)模達到千卡,更是一個可擴展性的挑戰(zhàn)??涠鹬С职―eepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在內(nèi)的業(yè)界主流分布式框架,并融合了多種并行算法策略,包括數(shù)據(jù)并行、張量并行、流水線并行和ZeRO,且針對高效通信計算并行和Flash Attention做了額外優(yōu)化。

同時,夸娥結(jié)合了摩爾線程顯卡硬件能力,以軟硬一體的方式,做了系統(tǒng)級優(yōu)化,包括從硬件、軟件再到集群,外加云的全棧,不是單點突破,是一種全局綜合方案,從而使得線性加速比達到91%。

4、零成本CUDA代碼移植,兼容多個主流大模型

基于摩爾線程代碼移植Musify工具,可快速將現(xiàn)有的主流遷移至MUSA,零成本完成CUDA代碼自動移植,之后用戶短時間內(nèi)即可完成熱點分析和針對性優(yōu)化,大大縮短遷移優(yōu)化的周期。此外,借助摩爾線程元計算統(tǒng)一系統(tǒng)架構(gòu)MUSA,用戶可以復(fù)用PyTorch開源社區(qū)的大量模型算子,降低開發(fā)成本。

與此同時,摩爾線程開源的MT Pytorch可以支持多種模型的推理,覆蓋CV、NLP、語音等多個領(lǐng)域,能夠運行典型的大模型分布式多卡推理,也可以支持單機多卡與多機多卡的分布式訓(xùn)練。利用數(shù)據(jù)并行、模型并行以及ZERO等分布式訓(xùn)練技術(shù),MT PyTorch還可以完成簡單基礎(chǔ)模型以及典型Transformer結(jié)構(gòu)的NLP語言模型的訓(xùn)練。

百模大戰(zhàn)引爆「千卡集群競賽」,“中國英偉達”交卷了

▲夸娥(KUAE)智算中心解決方案八大優(yōu)勢

總的來說,傳統(tǒng)的計算模式在大模型時代面臨著多重難點,只有長期投入并加強架構(gòu)創(chuàng)新、軟硬結(jié)合、場景結(jié)合、兼容協(xié)同等舉措,才能夠讓智算集群完成從“建起來”到“用起來”的跨越。

三、國產(chǎn)大模型的超車時刻,“中國英偉達”交卷

打破英偉達對AI的壟斷,國內(nèi)外玩家都進入了一個“交卷”時刻。

在國外,我們看到亞馬遜、微軟、谷歌都已推出了面向大模型的AI定制芯片,對英偉達芯片進行部分替代,從而保證自家大模型持續(xù)可迭代和落地。

在國內(nèi),華為、摩爾線程、寒武紀、海光等頭部AI芯片廠商,軟硬件生態(tài)也已初具規(guī)模,技術(shù)架構(gòu)自成一體,且已擁有集群能力和落地場景;同時多家AI芯片創(chuàng)企也在推動產(chǎn)品落地和量產(chǎn),搶占大模型市場。

在備受關(guān)注的國產(chǎn)GPU領(lǐng)域,摩爾線程作為“中國英偉達”的主力選手,也已經(jīng)打造了全棧AI方面的護城河。以全功能GPU為算力底座,摩爾線程夸娥提供從卡(MTT S4000)、服務(wù)器(MCCX D800)到千卡集群(K1、K2、K3)的完整智算產(chǎn)品組合,通過軟硬一體化的服務(wù),將成為大模型企業(yè)的最佳選擇之一。

近日,摩爾線程正與無問芯穹聯(lián)合推進基于夸娥千卡集群的“MT-infini-3B”合作大模型實訓(xùn),目前性能已在同規(guī)模模型中躋身前列。無問芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪表示:“經(jīng)無問芯穹Infini-AI平臺實訓(xùn)與聯(lián)合優(yōu)化工作驗證,摩爾線程夸娥千卡智算集群在精度、性能、易用性和算力利用率上均有優(yōu)異表現(xiàn),且在實訓(xùn)中實現(xiàn)了長時間穩(wěn)定訓(xùn)練不中斷,已可以為千億參數(shù)級別大模型訓(xùn)練提供持續(xù)高效的高性能算力支持。之后我們會把這一合作模型在Infini-AI上開放給大家使用。”

隨著今年“AI+”首次被寫入兩會工作報告,AI算力成為新質(zhì)生產(chǎn)力的重要引擎,國產(chǎn)大模型進入關(guān)鍵的超車時刻。業(yè)內(nèi)人士告訴智東西,今年大模型會出現(xiàn)一個拐點,同時也是國產(chǎn)AI芯片的分水嶺,強者越強,弱者愈弱。

摩爾線程自2022年起就成立云計算團隊,設(shè)定了建設(shè)千卡集群的大方向。在當時A100等算力緊張的背景下,摩爾線程作為在功能上唯一對標英偉達的國產(chǎn)GPU企業(yè),在具備云的全棧能力后,構(gòu)建基于全功能GPU的國產(chǎn)千卡智算集群,成為了國內(nèi)賽道“第一批吃螃蟹的人”。隨著大模型的爆發(fā),摩爾線程夸娥智算中心解決方案已經(jīng)完成從0到1的建設(shè),有望成為國產(chǎn)大模型發(fā)展的重要引擎助力。

結(jié)語:國產(chǎn)大模型跨越時,千卡集群打造加速度

從ChatGPT到Sora,大模型之戰(zhàn)已經(jīng)愈演愈烈,國產(chǎn)大模型迫切需要加速追趕跨甚至超越,這催生了市場對更大規(guī)模、更高性能的計算資源的迫切需求,也推動計算中心的架構(gòu)及運營模式進行更新?lián)Q代。

千卡集群、萬卡集群是滿足AI算力需求的抓手,這一理念已逐漸深入人心。然而這種大規(guī)模智算集群的隱形壁壘越來越高,要求算力廠家在芯片、調(diào)優(yōu)、通信及系統(tǒng)性開發(fā)和管理等多方面下功夫,從而真正跑出大模型產(chǎn)業(yè)發(fā)展的加速度。