智東西(公眾號(hào):zhidxcom)
作者 | 中國(guó)AI算力大會(huì)

6月26日,2025中國(guó)AI算力大會(huì)在北京熱烈召開。從國(guó)產(chǎn)AI算力的突圍與崛起,到智算中心深層軟硬件技術(shù)創(chuàng)新解決算力落地產(chǎn)業(yè)難題,近30位重量級(jí)嘉賓與會(huì)帶來致辭、報(bào)告、演講和對(duì)話,全方位解構(gòu)DeepSeek引爆的AI算力變局。

摩爾線程副總裁王華在主會(huì)場(chǎng)以《基于FP8的國(guó)產(chǎn)集群訓(xùn)練》為題進(jìn)行了主題演講。在演講中他提到2020至2025年間,大模型訓(xùn)練的算力需求激增近1000倍 ,而驅(qū)動(dòng)力來自參數(shù)規(guī)模與數(shù)據(jù)量雙向增長(zhǎng)。

王華認(rèn)為,大集群和FP8成為大模型現(xiàn)階段的最強(qiáng)需求。對(duì)此,他圍繞大模型算力需求、混合精度訓(xùn)練、FP8訓(xùn)練技術(shù)演進(jìn)等方面進(jìn)行了深入淺出地剖析闡釋。

此外,王華還分享道,摩爾線程提供包括FP8在內(nèi)的全精度算力,構(gòu)建了支持多種不同數(shù)據(jù)類型的混合精度訓(xùn)練方案,還可以提供萬卡集群開箱即用的產(chǎn)品,可以滿足大模型的算力需求,并大幅提升其訓(xùn)練效果。

以下為王華的演講實(shí)錄精華:

一、5年,大模型訓(xùn)練算力需求增長(zhǎng)千倍

首先來看一下大型訓(xùn)練需求的趨勢(shì)。2020年,算力需求訓(xùn)練需求最高是在1023flops。到25年,訓(xùn)練算力需求最高的是xAI的Grok3,算力需求差不多到了1026flops。從1023到1026,算力需求增長(zhǎng)了1000倍。

摩爾線程王華:算力需求千倍增長(zhǎng),大集群和FP8成為強(qiáng)需求

增長(zhǎng)主要來自兩個(gè)方面:一是模型參數(shù)。大模型的模型參數(shù)規(guī)模是在不斷增加的,最近的模型動(dòng)轍都是數(shù)千億甚至到萬億的參數(shù)規(guī)模;第二是訓(xùn)練數(shù)據(jù)量。早期訓(xùn)練數(shù)據(jù)量可能到幾百B,稍微多一點(diǎn)到1T,但現(xiàn)在基本都是十幾T。

所以,算力需求和模型參數(shù)數(shù)量與訓(xùn)練數(shù)據(jù)量的乘積成正比,而這兩個(gè)維度的增長(zhǎng),帶來模型訓(xùn)練算力需求的大幅增長(zhǎng)。

再舉一個(gè)例子,比如,Llama 3 70B大概是在1024flops左右,然后更大一點(diǎn)Llama 3 405B在1025flops左右,GPT 4也在1025左右,早期的Llama?2大概在1023flops左右。雖然Llama?2與Llama 3的模型參數(shù)和模型結(jié)構(gòu)比較類似,但是因?yàn)長(zhǎng)lama?2的訓(xùn)練數(shù)據(jù)量低一個(gè)數(shù)量級(jí),所以它要求的算力也會(huì)低一個(gè)數(shù)量級(jí)。

摩爾線程王華:算力需求千倍增長(zhǎng),大集群和FP8成為強(qiáng)需求

不只是算力,這些大規(guī)模訓(xùn)練所需要的集群也越來越大。為了校正所需要的算力,用H100的千卡、五千卡到萬卡量級(jí)的集群來作類比。表格中的數(shù)據(jù)是按照MFU算的,當(dāng)然不同模型的參數(shù)大小對(duì)MFU有影響,另外集群規(guī)模增大之后由于加速比效應(yīng),MFU會(huì)下降,所以這里只是大致的估算。

這個(gè)量級(jí)中,DeepSeek?V3的算力需求大概在3.4×1024flops。在千卡集群上,1024的訓(xùn)練時(shí)間大概是97天,五千卡集群需要22天,到萬卡級(jí)別就只需要13天了。再舉一個(gè)例子,Qwen 3 235B,雖然模型參數(shù)小一些,但因?yàn)閿?shù)據(jù)集更大,它的實(shí)際算力會(huì)更高,所以Qwen 3 235B計(jì)算量約為4.75×1024flops。再看一下訓(xùn)練時(shí)間,這個(gè)計(jì)算量在千卡集群上需要136天,五千卡上是37天,到萬卡就只需要18天。這是兩個(gè)比較典型的國(guó)內(nèi)MOE模型的例子。

再比如說Llama?3 370B,這是比較典型的Dense模型(稠密模型),訓(xùn)練數(shù)量也差不多在1024flops左右,訓(xùn)練時(shí)間也與Qwen 3差不多。

更大的模型,比如GPT 4,訓(xùn)練數(shù)量有1025flops,這幾乎是千卡不可能完成的任務(wù),到這個(gè)量級(jí)基本需要萬卡級(jí)別的集群來支撐。尤其是現(xiàn)在大模型的訓(xùn)練參數(shù)基本都在向著萬億發(fā)展,數(shù)量級(jí)十分巨大,所以后續(xù)訓(xùn)練需要的算力也會(huì)非常大。

二、混合精度訓(xùn)練緩解算力需求激增難題

為了解決算力需求,摩爾線程采用混合精度訓(xùn)練的方法。在整個(gè)模型訓(xùn)練過程中,識(shí)別出對(duì)精度要求不高的操作,將其替換為低精度計(jì)算。

更低精度帶來的優(yōu)勢(shì),首先體現(xiàn)在算力層面:精度降低一半,算力翻倍,同時(shí)顯存占用、顯存帶寬及傳輸帶寬消耗均減半。本質(zhì)上,采用更低精度的數(shù)據(jù)類型進(jìn)行訓(xùn)練,相當(dāng)于實(shí)現(xiàn)了算力的翻倍。但需注意,低精度替換只能部分進(jìn)行,無法完全替代,精度敏感的環(huán)節(jié)仍需保留高精度計(jì)算。因此,降低精度可在一定程度上提升算力或降低模型訓(xùn)練的算力需求。

摩爾線程王華:算力需求千倍增長(zhǎng),大集群和FP8成為強(qiáng)需求

在精度策略的設(shè)計(jì)上,可從兩個(gè)維度考量:第一個(gè)維度是模型權(quán)重。以相同算力條件為例,對(duì)比多參數(shù)低精度模型與少參數(shù)高精度模型,如100B參數(shù)規(guī)模的FP16模型和200B參數(shù)規(guī)模的FP8模型,從數(shù)學(xué)表達(dá)能力來看,其可表達(dá)的理論空間是等價(jià)的。

但當(dāng)前行業(yè)趨勢(shì)更傾向于優(yōu)先擴(kuò)展模型參數(shù)規(guī)模。這是因?yàn)槟P陀?xùn)練中實(shí)際使用的精度范圍僅占理論值域的一部分,造成“精度空間浪費(fèi)”,而增大參數(shù)規(guī)模能有效提升模型效果。

從行業(yè)技術(shù)演進(jìn)來看,精度格式正沿著FP32→TF32→FP16/BF16→FP8的路徑發(fā)展。此前業(yè)界對(duì)FP8的應(yīng)用尚處探索階段,而DeepSeek已將其成功應(yīng)用于模型訓(xùn)練,預(yù)計(jì)未來會(huì)有更多模型采用FP8精度。

三、FP8訓(xùn)練挑戰(zhàn)解析:數(shù)值范圍局限與精度損失引發(fā)的梯度問題

FP8訓(xùn)練面臨什么挑戰(zhàn)?首先我們看一下不同浮點(diǎn)數(shù)的值域。因?yàn)橹笖?shù)位不同,取值范圍其實(shí)差別很大。比如BF16,忽略正負(fù)號(hào),可以看到值域靠低端的部分可以到2-126,然后高端的可以到2127。FP16的值域會(huì)小很多,但有十位尾數(shù),值域靠低端部分接近2-14,然后高端部分是六萬多。

FP8有E4M3和E5M2兩種,可以看到,E4M3的取值范圍其實(shí)非常窄,只有2-6到448,E5M2跟FP16類似,但其實(shí)跟現(xiàn)在廣泛用的BF16比,取值范圍還是小很多。這里面有兩個(gè)因素,一個(gè)是取值范圍,一個(gè)是精度。

取值范圍就是剛剛講到的從小數(shù)到大數(shù)的范圍,因?yàn)镕P8的數(shù)值范圍小,很可能在計(jì)算過程中遇到數(shù)值上溢和下溢的問題,如此就會(huì)帶來一個(gè)典型問題:梯度爆炸和梯度消失。

精度就是尾數(shù)部分能夠表達(dá)的數(shù)量。精度低會(huì)帶來舍入誤差的問題。例如在做數(shù)值轉(zhuǎn)換的時(shí)候,可能BF16能表示的數(shù)在FP8里就會(huì)丟失掉一些小數(shù)。另外就是一個(gè)大數(shù)加一個(gè)很小的數(shù),由于小數(shù)部分太小了,兩者就相當(dāng)于沒加,這樣就會(huì)造成信息丟失,對(duì)模型訓(xùn)練過程會(huì)帶來梯度無法更新的問題。

四、FP8訓(xùn)練技術(shù)不斷演進(jìn),4大創(chuàng)新攻克低精度核心難題

這兩年FP8訓(xùn)練技術(shù)取得多項(xiàng)進(jìn)展,已經(jīng)應(yīng)用在一些模型的訓(xùn)練中。

模型訓(xùn)練中不同操作對(duì)精度的需求是不一樣的:

1、矩陣乘操作:作為兩數(shù)相乘的基礎(chǔ)運(yùn)算,F(xiàn)P8的數(shù)值范圍易于控制,可通過值域限定避免溢出,對(duì)精度要求較低;

2、累加與規(guī)約操作:矩陣乘中隱含的累加過程(尤其大矩陣運(yùn)算時(shí)多數(shù)相加)存在值域溢出風(fēng)險(xiǎn),對(duì)精度要求處于中等水平;

3、非線性函數(shù)運(yùn)算:如指數(shù)函數(shù)等場(chǎng)景,數(shù)值易快速超出值域,對(duì)精度要求最高。

基于此,訓(xùn)練中可對(duì)不同操作采用差異化精度策略,通過中間過程的量化與反量化實(shí)現(xiàn)精度適配。

Tensor Core技術(shù)提供了混合精度運(yùn)算的硬件支持。自2017年引入以來,該技術(shù)持續(xù)進(jìn)化,現(xiàn)可支持以FP8格式矩陣為輸入,通過硬件級(jí)混合精度運(yùn)算輸出高精度矩陣結(jié)果。

此外,訓(xùn)練框架也在支持混合精度訓(xùn)練。例如在BF16與FP32的混合訓(xùn)練中,多數(shù)操作采用BF16執(zhí)行,但權(quán)重更新時(shí)會(huì)切換至FP32,通過維護(hù)FP32權(quán)重副本確保訓(xùn)練穩(wěn)定性。

還有就是Tensor Scaling(張量縮放)技術(shù)。在進(jìn)行高精度向低精度轉(zhuǎn)換時(shí),由于值域范圍不同,會(huì)出現(xiàn)信息丟失問題。因此在數(shù)據(jù)類型轉(zhuǎn)換前,需先將高精度值域乘以Scaling Factor(縮放因子)參數(shù),使其縮放到低精度值域范圍內(nèi),以此確保轉(zhuǎn)換過程中盡可能減少數(shù)據(jù)丟失。

Scaling Factor的選擇可以有不同的策略。在時(shí)間維度上來看可以是在量化前直接計(jì)算,也可以采用基于歷史數(shù)據(jù)的Delayed Scaling Factor(延遲縮放因子)。

從顆粒度來看,既可以對(duì)整個(gè) Tensor 應(yīng)用統(tǒng)一的Scaling Factor,也能進(jìn)行更精細(xì)的選擇,比如Per-Channel(逐通道)縮放,甚至還能進(jìn)一步細(xì)化到Per-Channel的子區(qū)域。DeepSeek在其論文中提及,他們采用的是Per-Block(逐塊)的縮放策略。

簡(jiǎn)單說一下DeepSeek的論文。DeepSeek-V3就使用了FP8混合精度訓(xùn)練,其中主要采用了以下策略:

1、前向和后向傳播的3次GEMM使用FP8;

2、激活值的緩存和傳輸使用FP8;

3、Embedding、激活函數(shù)等模塊使用高精度浮點(diǎn)數(shù);

4、主權(quán)重、權(quán)重梯度、優(yōu)化器狀態(tài)使用高精度浮點(diǎn)數(shù)。

五、摩爾線程全棧支持FP8訓(xùn)練,性能提升20%~30%,對(duì)標(biāo)主流水平

那我們說回到摩爾線程在采用FP8訓(xùn)練上面的一些工作。

首先,摩爾線程的全功能GPU計(jì)算卡在精度上的支持非常全面,摩爾線程是國(guó)內(nèi)少數(shù)可以支持FP8精度的GPU供應(yīng)商。不同計(jì)算精度可以用在圖形、計(jì)算等不同場(chǎng)景,摩爾線程計(jì)算卡的優(yōu)勢(shì)就是支持全精度計(jì)算。

第二點(diǎn)就是在集群方面的工作。摩爾線程可以說是在集群這一方面投入很大的國(guó)產(chǎn)GPU公司。我們的夸娥(KUAE)智算集群系列產(chǎn)品可以讓客戶實(shí)現(xiàn)開箱即用,已經(jīng)做到千卡規(guī)模,可支持萬卡,未來還會(huì)向著更大規(guī)模集群前進(jìn)。

在這一整個(gè)過程中,我們積累了很多實(shí)踐。摩爾線程搭建了完整的軟硬件棧,從硬件設(shè)計(jì)到集群管理、調(diào)度等全部包含。在大規(guī)模集群的運(yùn)維方面也積累了豐富的經(jīng)驗(yàn)。在大規(guī)模訓(xùn)練時(shí),經(jīng)常會(huì)出現(xiàn)計(jì)算錯(cuò)誤、卡異常等情況,如何快速定位出現(xiàn)故障的部分將其替換是很重要的。我們采用了分布式的故障監(jiān)測(cè)方法,實(shí)現(xiàn)分鐘級(jí)的故障定位和恢復(fù)。

另外還有支持FP8訓(xùn)練的摩爾線程軟件棧。我們開源了3個(gè)組件:提供MUSA后端加速支持的Torch-MUSA、混合并行訓(xùn)練框架MT-MegatronLM以及主要用于Transformer的高效訓(xùn)練和推理優(yōu)化的MT-TransformerEngine?;谀柧€程軟件棧,我們成功復(fù)現(xiàn)了DeepSeek-V3滿血版訓(xùn)練。

在此之上我們做了一系列的實(shí)驗(yàn),基于我們自己的夸娥(KUAE)集群,在性能方面,在Llama3 8B、Qwen、DeepSeek-V2 16B以及V3 30B上,目前采用FP8混合訓(xùn)練可以帶來20%~30%的性能提升,且引入FP8前后loss曲線基本一致,在采用FP8訓(xùn)練方面,摩爾線程的GPU計(jì)算卡與國(guó)際主流的卡做精度對(duì)比也基本吻合。

此外,摩爾線程在Scaling Factor的選擇上也做了許多探索,例如:amax的統(tǒng)計(jì)信息表明Per-Tensor的Scaling Factor適合采用Delayed Scaling策略,而Per-Block則適合采用JIT Scaling策略。我們還用摩爾線程GPU計(jì)算卡做了Smooth SwiGLU論文的復(fù)現(xiàn),我們發(fā)現(xiàn),通過Smooth SwiGLU可以有效降低outlier的影響。

今天我給大家匯報(bào)的內(nèi)容就是這些,謝謝。