91在线公开视频视频,亚洲中亚洲日本乱码中文字幕

智東西（公眾號(hào)：zhidxcom）
作者 | 中國(guó)AI算力大會(huì)

6月26日，2025中國(guó)AI算力大會(huì)在北京熱烈召開。從國(guó)產(chǎn)AI算力的突圍與崛起，到智算中心深層軟硬件技術(shù)創(chuàng)新解決算力落地產(chǎn)業(yè)難題，近30位重量級(jí)嘉賓與會(huì)帶來致辭、報(bào)告、演講和對(duì)話，全方位解構(gòu)DeepSeek引爆的AI算力變局。

摩爾線程副總裁王華在主會(huì)場(chǎng)以《基于FP8的國(guó)產(chǎn)集群訓(xùn)練》為題進(jìn)行了主題演講。在演講中他提到2020至2025年間，大模型訓(xùn)練的算力需求激增近1000倍，而驅(qū)動(dòng)力來自參數(shù)規(guī)模與數(shù)據(jù)量雙向增長(zhǎng)。

王華認(rèn)為，大集群和FP8成為大模型現(xiàn)階段的最強(qiáng)需求。對(duì)此，他圍繞大模型算力需求、混合精度訓(xùn)練、FP8訓(xùn)練技術(shù)演進(jìn)等方面進(jìn)行了深入淺出地剖析闡釋。

此外，王華還分享道，摩爾線程提供包括FP8在內(nèi)的全精度算力，構(gòu)建了支持多種不同數(shù)據(jù)類型的混合精度訓(xùn)練方案，還可以提供萬卡集群開箱即用的產(chǎn)品，可以滿足大模型的算力需求，并大幅提升其訓(xùn)練效果。

以下為王華的演講實(shí)錄精華：

一、5年，大模型訓(xùn)練算力需求增長(zhǎng)千倍

首先來看一下大型訓(xùn)練需求的趨勢(shì)。2020年，算力需求訓(xùn)練需求最高是在10²³flops。到25年，訓(xùn)練算力需求最高的是xAI的Grok3，算力需求差不多到了10²⁶flops。從10²³到10²⁶，算力需求增長(zhǎng)了1000倍。

摩爾線程王華：算力需求千倍增長(zhǎng)，大集群和FP8成為強(qiáng)需求

增長(zhǎng)主要來自兩個(gè)方面：一是模型參數(shù)。大模型的模型參數(shù)規(guī)模是在不斷增加的，最近的模型動(dòng)轍都是數(shù)千億甚至到萬億的參數(shù)規(guī)模；第二是訓(xùn)練數(shù)據(jù)量。早期訓(xùn)練數(shù)據(jù)量可能到幾百B，稍微多一點(diǎn)到1T，但現(xiàn)在基本都是十幾T。

所以，算力需求和模型參數(shù)數(shù)量與訓(xùn)練數(shù)據(jù)量的乘積成正比，而這兩個(gè)維度的增長(zhǎng)，帶來模型訓(xùn)練算力需求的大幅增長(zhǎng)。

再舉一個(gè)例子，比如，Llama 3 70B大概是在10²⁴flops左右，然后更大一點(diǎn)Llama 3 405B在10²⁵flops左右,GPT 4也在10²⁵左右,早期的Llama?2大概在10²³flops左右。雖然Llama?2與Llama 3的模型參數(shù)和模型結(jié)構(gòu)比較類似，但是因?yàn)長(zhǎng)lama?2的訓(xùn)練數(shù)據(jù)量低一個(gè)數(shù)量級(jí)，所以它要求的算力也會(huì)低一個(gè)數(shù)量級(jí)。

摩爾線程王華：算力需求千倍增長(zhǎng)，大集群和FP8成為強(qiáng)需求

不只是算力，這些大規(guī)模訓(xùn)練所需要的集群也越來越大。為了校正所需要的算力，用H100的千卡、五千卡到萬卡量級(jí)的集群來作類比。表格中的數(shù)據(jù)是按照MFU算的，當(dāng)然不同模型的參數(shù)大小對(duì)MFU有影響，另外集群規(guī)模增大之后由于加速比效應(yīng)，MFU會(huì)下降，所以這里只是大致的估算。

這個(gè)量級(jí)中，DeepSeek?V3的算力需求大概在3.4×10²⁴flops。在千卡集群上，10²⁴的訓(xùn)練時(shí)間大概是97天，五千卡集群需要22天，到萬卡級(jí)別就只需要13天了。再舉一個(gè)例子，Qwen 3 235B，雖然模型參數(shù)小一些，但因?yàn)閿?shù)據(jù)集更大，它的實(shí)際算力會(huì)更高，所以Qwen 3 235B計(jì)算量約為4.75×10²⁴flops。再看一下訓(xùn)練時(shí)間，這個(gè)計(jì)算量在千卡集群上需要136天，五千卡上是37天，到萬卡就只需要18天。這是兩個(gè)比較典型的國(guó)內(nèi)MOE模型的例子。

再比如說Llama?3 370B，這是比較典型的Dense模型（稠密模型），訓(xùn)練數(shù)量也差不多在10²⁴flops左右，訓(xùn)練時(shí)間也與Qwen 3差不多。

更大的模型，比如GPT 4，訓(xùn)練數(shù)量有10²⁵flops，這幾乎是千卡不可能完成的任務(wù)，到這個(gè)量級(jí)基本需要萬卡級(jí)別的集群來支撐。尤其是現(xiàn)在大模型的訓(xùn)練參數(shù)基本都在向著萬億發(fā)展，數(shù)量級(jí)十分巨大，所以后續(xù)訓(xùn)練需要的算力也會(huì)非常大。

二、混合精度訓(xùn)練緩解算力需求激增難題

為了解決算力需求，摩爾線程采用混合精度訓(xùn)練的方法。在整個(gè)模型訓(xùn)練過程中，識(shí)別出對(duì)精度要求不高的操作，將其替換為低精度計(jì)算。

更低精度帶來的優(yōu)勢(shì)，首先體現(xiàn)在算力層面：精度降低一半，算力翻倍，同時(shí)顯存占用、顯存帶寬及傳輸帶寬消耗均減半。本質(zhì)上，采用更低精度的數(shù)據(jù)類型進(jìn)行訓(xùn)練，相當(dāng)于實(shí)現(xiàn)了算力的翻倍。但需注意，低精度替換只能部分進(jìn)行，無法完全替代，精度敏感的環(huán)節(jié)仍需保留高精度計(jì)算。因此，降低精度可在一定程度上提升算力或降低模型訓(xùn)練的算力需求。

摩爾線程王華：算力需求千倍增長(zhǎng)，大集群和FP8成為強(qiáng)需求

在精度策略的設(shè)計(jì)上，可從兩個(gè)維度考量：第一個(gè)維度是模型權(quán)重。以相同算力條件為例，對(duì)比多參數(shù)低精度模型與少參數(shù)高精度模型,如100B參數(shù)規(guī)模的FP16模型和200B參數(shù)規(guī)模的FP8模型，從數(shù)學(xué)表達(dá)能力來看，其可表達(dá)的理論空間是等價(jià)的。

但當(dāng)前行業(yè)趨勢(shì)更傾向于優(yōu)先擴(kuò)展模型參數(shù)規(guī)模。這是因?yàn)槟Ｐ陀?xùn)練中實(shí)際使用的精度范圍僅占理論值域的一部分，造成“精度空間浪費(fèi)”，而增大參數(shù)規(guī)模能有效提升模型效果。

從行業(yè)技術(shù)演進(jìn)來看，精度格式正沿著FP32→TF32→FP16/BF16→FP8的路徑發(fā)展。此前業(yè)界對(duì)FP8的應(yīng)用尚處探索階段，而DeepSeek已將其成功應(yīng)用于模型訓(xùn)練，預(yù)計(jì)未來會(huì)有更多模型采用FP8精度。

三、FP8訓(xùn)練挑戰(zhàn)解析：數(shù)值范圍局限與精度損失引發(fā)的梯度問題

FP8訓(xùn)練面臨什么挑戰(zhàn)？首先我們看一下不同浮點(diǎn)數(shù)的值域。因?yàn)橹笖?shù)位不同，取值范圍其實(shí)差別很大。比如BF16，忽略正負(fù)號(hào)，可以看到值域靠低端的部分可以到2^-126，然后高端的可以到2¹²⁷。FP16的值域會(huì)小很多，但有十位尾數(shù)，值域靠低端部分接近2^-14，然后高端部分是六萬多。

FP8有E4M3和E5M2兩種，可以看到，E4M3的取值范圍其實(shí)非常窄，只有2^-6到448，E5M2跟FP16類似，但其實(shí)跟現(xiàn)在廣泛用的BF16比，取值范圍還是小很多。這里面有兩個(gè)因素，一個(gè)是取值范圍，一個(gè)是精度。

取值范圍就是剛剛講到的從小數(shù)到大數(shù)的范圍，因?yàn)镕P8的數(shù)值范圍小，很可能在計(jì)算過程中遇到數(shù)值上溢和下溢的問題，如此就會(huì)帶來一個(gè)典型問題：梯度爆炸和梯度消失。

精度就是尾數(shù)部分能夠表達(dá)的數(shù)量。精度低會(huì)帶來舍入誤差的問題。例如在做數(shù)值轉(zhuǎn)換的時(shí)候，可能BF16能表示的數(shù)在FP8里就會(huì)丟失掉一些小數(shù)。另外就是一個(gè)大數(shù)加一個(gè)很小的數(shù)，由于小數(shù)部分太小了，兩者就相當(dāng)于沒加，這樣就會(huì)造成信息丟失，對(duì)模型訓(xùn)練過程會(huì)帶來梯度無法更新的問題。

四、FP8訓(xùn)練技術(shù)不斷演進(jìn)，4大創(chuàng)新攻克低精度核心難題

這兩年FP8訓(xùn)練技術(shù)取得多項(xiàng)進(jìn)展，已經(jīng)應(yīng)用在一些模型的訓(xùn)練中。

模型訓(xùn)練中不同操作對(duì)精度的需求是不一樣的：

1、矩陣乘操作：作為兩數(shù)相乘的基礎(chǔ)運(yùn)算，F(xiàn)P8的數(shù)值范圍易于控制，可通過值域限定避免溢出，對(duì)精度要求較低；

2、累加與規(guī)約操作：矩陣乘中隱含的累加過程（尤其大矩陣運(yùn)算時(shí)多數(shù)相加）存在值域溢出風(fēng)險(xiǎn)，對(duì)精度要求處于中等水平；

3、非線性函數(shù)運(yùn)算：如指數(shù)函數(shù)等場(chǎng)景，數(shù)值易快速超出值域，對(duì)精度要求最高。

基于此，訓(xùn)練中可對(duì)不同操作采用差異化精度策略，通過中間過程的量化與反量化實(shí)現(xiàn)精度適配。

Tensor Core技術(shù)提供了混合精度運(yùn)算的硬件支持。自2017年引入以來，該技術(shù)持續(xù)進(jìn)化，現(xiàn)可支持以FP8格式矩陣為輸入，通過硬件級(jí)混合精度運(yùn)算輸出高精度矩陣結(jié)果。

此外，訓(xùn)練框架也在支持混合精度訓(xùn)練。例如在BF16與FP32的混合訓(xùn)練中，多數(shù)操作采用BF16執(zhí)行，但權(quán)重更新時(shí)會(huì)切換至FP32，通過維護(hù)FP32權(quán)重副本確保訓(xùn)練穩(wěn)定性。

還有就是Tensor Scaling（張量縮放）技術(shù)。在進(jìn)行高精度向低精度轉(zhuǎn)換時(shí)，由于值域范圍不同，會(huì)出現(xiàn)信息丟失問題。因此在數(shù)據(jù)類型轉(zhuǎn)換前，需先將高精度值域乘以Scaling Factor（縮放因子）參數(shù)，使其縮放到低精度值域范圍內(nèi)，以此確保轉(zhuǎn)換過程中盡可能減少數(shù)據(jù)丟失。

Scaling Factor的選擇可以有不同的策略。在時(shí)間維度上來看可以是在量化前直接計(jì)算，也可以采用基于歷史數(shù)據(jù)的Delayed Scaling Factor（延遲縮放因子）。

從顆粒度來看，既可以對(duì)整個(gè) Tensor 應(yīng)用統(tǒng)一的Scaling Factor，也能進(jìn)行更精細(xì)的選擇，比如Per-Channel（逐通道）縮放，甚至還能進(jìn)一步細(xì)化到Per-Channel的子區(qū)域。DeepSeek在其論文中提及，他們采用的是Per-Block（逐塊）的縮放策略。

簡(jiǎn)單說一下DeepSeek的論文。DeepSeek-V3就使用了FP8混合精度訓(xùn)練，其中主要采用了以下策略：

1、前向和后向傳播的3次GEMM使用FP8；

2、激活值的緩存和傳輸使用FP8；

3、Embedding、激活函數(shù)等模塊使用高精度浮點(diǎn)數(shù)；

4、主權(quán)重、權(quán)重梯度、優(yōu)化器狀態(tài)使用高精度浮點(diǎn)數(shù)。

五、摩爾線程全棧支持FP8訓(xùn)練，性能提升20%~30%，對(duì)標(biāo)主流水平

那我們說回到摩爾線程在采用FP8訓(xùn)練上面的一些工作。

首先，摩爾線程的全功能GPU計(jì)算卡在精度上的支持非常全面，摩爾線程是國(guó)內(nèi)少數(shù)可以支持FP8精度的GPU供應(yīng)商。不同計(jì)算精度可以用在圖形、計(jì)算等不同場(chǎng)景，摩爾線程計(jì)算卡的優(yōu)勢(shì)就是支持全精度計(jì)算。

第二點(diǎn)就是在集群方面的工作。摩爾線程可以說是在集群這一方面投入很大的國(guó)產(chǎn)GPU公司。我們的夸娥（KUAE）智算集群系列產(chǎn)品可以讓客戶實(shí)現(xiàn)開箱即用，已經(jīng)做到千卡規(guī)模，可支持萬卡，未來還會(huì)向著更大規(guī)模集群前進(jìn)。

在這一整個(gè)過程中，我們積累了很多實(shí)踐。摩爾線程搭建了完整的軟硬件棧，從硬件設(shè)計(jì)到集群管理、調(diào)度等全部包含。在大規(guī)模集群的運(yùn)維方面也積累了豐富的經(jīng)驗(yàn)。在大規(guī)模訓(xùn)練時(shí)，經(jīng)常會(huì)出現(xiàn)計(jì)算錯(cuò)誤、卡異常等情況，如何快速定位出現(xiàn)故障的部分將其替換是很重要的。我們采用了分布式的故障監(jiān)測(cè)方法，實(shí)現(xiàn)分鐘級(jí)的故障定位和恢復(fù)。

另外還有支持FP8訓(xùn)練的摩爾線程軟件棧。我們開源了3個(gè)組件：提供MUSA后端加速支持的Torch-MUSA、混合并行訓(xùn)練框架MT-MegatronLM以及主要用于Transformer的高效訓(xùn)練和推理優(yōu)化的MT-TransformerEngine?；谀柧€程軟件棧，我們成功復(fù)現(xiàn)了DeepSeek-V3滿血版訓(xùn)練。

在此之上我們做了一系列的實(shí)驗(yàn)，基于我們自己的夸娥（KUAE）集群，在性能方面，在Llama3 8B、Qwen、DeepSeek-V2 16B以及V3 30B上，目前采用FP8混合訓(xùn)練可以帶來20%~30%的性能提升，且引入FP8前后loss曲線基本一致，在采用FP8訓(xùn)練方面，摩爾線程的GPU計(jì)算卡與國(guó)際主流的卡做精度對(duì)比也基本吻合。

此外，摩爾線程在Scaling Factor的選擇上也做了許多探索，例如：amax的統(tǒng)計(jì)信息表明Per-Tensor的Scaling Factor適合采用Delayed Scaling策略，而Per-Block則適合采用JIT Scaling策略。我們還用摩爾線程GPU計(jì)算卡做了Smooth SwiGLU論文的復(fù)現(xiàn)，我們發(fā)現(xiàn)，通過Smooth SwiGLU可以有效降低outlier的影響。

今天我給大家匯報(bào)的內(nèi)容就是這些，謝謝。

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、5年，大模型訓(xùn)練算力需求增長(zhǎng)千倍

二、混合精度訓(xùn)練緩解算力需求激增難題

三、FP8訓(xùn)練挑戰(zhàn)解析：數(shù)值范圍局限與精度損失引發(fā)的梯度問題

四、FP8訓(xùn)練技術(shù)不斷演進(jìn)，4大創(chuàng)新攻克低精度核心難題

五、摩爾線程全棧支持FP8訓(xùn)練，性能提升20%~30%，對(duì)標(biāo)主流水平

相關(guān)推薦

亚洲精品一区二区三区老狼,在线国产中文字幕视频网,国产毛片特级Av片,欧美日韩亚洲精品成人,美女视频一直看一直爽,亚洲人妻av一区二区在线观看,天天碰天天日天天摸,亚洲一级黄色片在线观看,麻豆av入口在线观看

一、5年，大模型訓(xùn)練算力需求增長(zhǎng)千倍

二、混合精度訓(xùn)練緩解算力需求激增難題

三、FP8訓(xùn)練挑戰(zhàn)解析：數(shù)值范圍局限與精度損失引發(fā)的梯度問題

四、FP8訓(xùn)練技術(shù)不斷演進(jìn)，4大創(chuàng)新攻克低精度核心難題

五、摩爾線程全棧支持FP8訓(xùn)練，性能提升20%~30%，對(duì)標(biāo)主流水平

相關(guān)推薦

一、5年，大模型訓(xùn)練算力需求增長(zhǎng)千倍

二、混合精度訓(xùn)練緩解算力需求激增難題

四、FP8訓(xùn)練技術(shù)不斷演進(jìn)，4大創(chuàng)新攻克低精度核心難題

五、摩爾線程全棧支持FP8訓(xùn)練，性能提升20%~30%，對(duì)標(biāo)主流水平