智東西(公眾號:zhidxcom)
作者?|? 陳駿達
編輯?|??漠影

算力,已成為推動AI產(chǎn)業(yè)持續(xù)演進的核心引擎。隨著國產(chǎn)大模型體系的快速崛起,構(gòu)建自主、可控、可持續(xù)的國產(chǎn)算力生態(tài)閉環(huán),讓國產(chǎn)算力平臺與國產(chǎn)AI生態(tài)深度適配,已成為產(chǎn)業(yè)界的共識與關(guān)鍵方向。

令人可喜的是,今年以來,國產(chǎn)算力平臺與國產(chǎn)AI生態(tài)的“Day 0”適配、聯(lián)合創(chuàng)新等消息陸續(xù)傳出。作為國產(chǎn)算力的代表企業(yè),在生態(tài)層面,寒武紀以更加開放的姿態(tài)積極擁抱國產(chǎn)AI生態(tài),與主流AI社區(qū)和領(lǐng)先企業(yè)保持深度協(xié)同。

寒武紀今年在阿里Qwen 3系列模型、DeepSeek-V3.2-Exp模型發(fā)布當日,就宣布完成適配,這意味著雙方在模型發(fā)布之前,就已展開深度合作。除此之外,寒武紀還與商湯、智譜、階躍星辰官宣了合作,推進國產(chǎn)算力與國產(chǎn)大模型的深度適配。

這些合作,讓開發(fā)者在寒武紀平臺上能夠低成本完成遷移與部署,顯著降低算力替代與生態(tài)融合的門檻。

寒武紀成立的初衷是為“人工智能的大爆發(fā)”提供底層算力支持,不僅要硬件算力強大,更要軟件通用、易用。寒武紀一直以來采用了訓練推理融合、統(tǒng)一的基礎(chǔ)軟件平臺研發(fā)策略,構(gòu)建了從自研芯片架構(gòu)到高性能軟件平臺的完整體系,實現(xiàn)了計算架構(gòu)、編譯優(yōu)化與算法調(diào)度的深度融合:硬件為算法提供極致的并行性能與能效比,軟件則通過智能編譯、調(diào)度與適配,讓每一份算力最大化釋放。

寒武紀打造的基礎(chǔ)軟件平臺Cambricon?NeuWare,讓用戶與開發(fā)者能夠跨越不同的寒武紀硬件和應(yīng)用場景,降低上手難度,提升開發(fā)效率,快速遷移與部署AI應(yīng)用。

經(jīng)過多年投入與積累,Cambricon?NeuWare已經(jīng)日趨成熟,全面兼容社區(qū)最新PyTorch版本和Triton算子開發(fā)語言,支持用戶模型和自定義算子快速遷移,其在多項指標上都已達到業(yè)界領(lǐng)先水平。

針對當前業(yè)界極具挑戰(zhàn)的大規(guī)模集群運維實踐,Cambricon NeuWare進一步豐富和完善了多項集群工具,為大規(guī)模訓練推理業(yè)務(wù)在集群環(huán)境中的部署運維調(diào)試和調(diào)優(yōu)提供了堅實的底座。

眾多國產(chǎn)AI廠商對寒武紀算力的信賴,充分驗證寒武紀基礎(chǔ)軟件平臺Cambricon?NeuWare的穩(wěn)定性和競爭力,已經(jīng)滿足了真實世界的商用要求。

一、從大模型到搜廣推訓推解決方案,寒武紀完成大規(guī)模技術(shù)和產(chǎn)品驗證

大模型技術(shù)正成為智能經(jīng)濟的核心驅(qū)動力,深刻重塑人機交互的方式。“搜廣推”場景——即搜索、廣告與推薦系統(tǒng)——成為大模型技術(shù)落地最具價值的前沿陣地之一。大模型賦能的搜廣推系統(tǒng),不僅帶來用戶體驗的顯著提升,更重塑了流量分發(fā)的邏輯:讓“找信息”、“看內(nèi)容”、“買東西”從被動推薦走向主動理解,從關(guān)鍵詞匹配邁向意圖洞察。

大模型與“搜廣推”的融合,不僅是一場技術(shù)革新,更是商業(yè)模式的再造。寒武紀在大模型與搜廣推的訓練推理上,都已完成了大規(guī)模的技術(shù)和產(chǎn)品驗證。

在搜廣推訓練方向,寒武紀穩(wěn)步推進技術(shù)和產(chǎn)品驗證。驗證結(jié)果表明,解決方案可支撐多場景下的流式訓練任務(wù),可持續(xù)超數(shù)月穩(wěn)定運行,精度與穩(wěn)定性均滿足要求。持續(xù)性能優(yōu)化方面,完成Layernorm/RMSNorm/L2Norm等多種圖匹配融合,顯著提升性能。在圖融合基礎(chǔ)上進一步優(yōu)化XLA支持,并獲得更顯著的加速比結(jié)果。

在大模型訓練方向,寒武紀重點支持DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next等MoE類模型訓練,同時擴展了GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video等模型的訓練支持?;谠鶩P8的計算能力,新增Qwen/DeepSeek等系列網(wǎng)絡(luò)FP8的訓練支持,精度符合預期。

在大模型推理方向,寒武紀研究并實踐W4A4以及MX-FP8/MX-FP4等新型數(shù)據(jù)類型,探索并支持多種高效注意力機制,包括Sparse?Attention與Linear Attention。

寒武紀緊跟先進模型的演進,支持Qwen-Omni等多模態(tài)融合模型、Hunyuan3D等3D生成模型、CosyVoice等語音生成模型,以及DLM和VLM等新興架構(gòu),確保技術(shù)棧的先進性與完備性。

值得一提的是,通過深度的生態(tài)合作,針對DeepSeek V3.2-Exp模型,寒武紀實現(xiàn)發(fā)布即適配的支持,并與合作伙伴同步開源適配代碼。

與此同時,持續(xù)優(yōu)化vLLM推理引擎,完善混合精度低比特量化推理機制,支持通算并行優(yōu)化,支持PD分離部署,支持基于類IBGDA的極致低時延大規(guī)模專家并行,支持Torch.compile特性優(yōu)化主機側(cè)瓶頸,實現(xiàn)了大模型應(yīng)用的全方位加速。

寒武紀持續(xù)開展對DeepSeek、Qwen、Wan、Hunyuan等系列最新開源模型的極致性能優(yōu)化,并專項攻堅長序列與超低解碼延時等場景的性能優(yōu)化,持續(xù)保持性能領(lǐng)先優(yōu)勢。

寒武紀能夠在大模型與“搜廣推”訓推方面取得快速突破,完成大規(guī)模技術(shù)和產(chǎn)品驗證,源于寒武紀長期的技術(shù)深耕與軟硬協(xié)同能力。正是這種軟硬一體、兼具性能領(lǐng)先與部署高效的核心競爭力,讓寒武紀能夠快速獲得市場信任和認可。

揭秘寒武紀的10年迭代:從大模型到搜廣推,國產(chǎn)算力攻堅“軟件護城河”

▲ 寒武紀基礎(chǔ)軟件平臺Cambricon NeuWare,圖中僅列舉部分組件,相關(guān)縮寫詞注釋請見文末。

二、高穩(wěn)定驅(qū)動和運行時庫,讓AI企業(yè)無憂擴展

底層驅(qū)動的高穩(wěn)定性是業(yè)務(wù)部署的重要前置條件,寒武紀的驅(qū)動能支撐企業(yè)業(yè)務(wù)運行數(shù)月不停機。同時,寒武紀的驅(qū)動在業(yè)務(wù)優(yōu)化迭代中,大幅提升了吞吐能力,在極具挑戰(zhàn)的搜廣推和大模型推理場景中,最大限度地消除了主機側(cè)瓶頸,為端到端達成領(lǐng)先的計算效率打下了堅實的基礎(chǔ)。

寒武紀通過細粒度的并行技術(shù),解耦數(shù)據(jù)依賴和調(diào)度依賴,極限壓榨Kernel函數(shù)的吞吐能力,疊加多路DSA異步調(diào)度和協(xié)同優(yōu)化,Kernel函數(shù)調(diào)度吞吐可達每秒幾十萬個任務(wù),實現(xiàn)業(yè)界領(lǐng)先的Kernel吞吐能力。

全面支持Kernel graph的批量下發(fā)功能,可運行時匯聚多個算子單次下發(fā),支持在設(shè)備側(cè)駐留和下發(fā),實現(xiàn)極低延遲的多Kernel下發(fā),延時水平與國際競品相當。

增加類IBGDA接口,為通信庫進行極低時延的專家并行通信提供系統(tǒng)保障。

寒武紀的驅(qū)動和運行時庫支持豐富的設(shè)備切分使用場景:

(1)visible cluster:運行時可編程的彈性拆分,可用于快速部署;

(2)sMLU:基于時分復用技術(shù),可用于docker快速部署;

(3)MIM:物理劃分,全面對標國際競品MIG技術(shù)。

三、編譯器和調(diào)試調(diào)優(yōu)工具持續(xù)迭代,達到業(yè)內(nèi)領(lǐng)先效率

BANG C語言是寒武紀BANG異構(gòu)并行編程模型的編程語言,在C/C++語言基礎(chǔ)上針對MLU架構(gòu)特點進行擴展,可以高效編寫在MLU上運行的并行程序,充分利用MLU大規(guī)模并行架構(gòu)來加速計算任務(wù)。

BANG C支持豐富的編譯優(yōu)化技術(shù),包括鏈接時優(yōu)化(LTO)、基于Profiling反饋優(yōu)化(PGO)、基于函數(shù)調(diào)用關(guān)系的函數(shù)級片上空間復用、Device側(cè)動態(tài)鏈接機制、編譯器靜態(tài)推導訪存指令地址空間、任務(wù)內(nèi)并行指令流自動同步算法、優(yōu)化內(nèi)存依賴分析、指令級并行的局部指令調(diào)度、全局指令調(diào)度以及符合MLU架構(gòu)的高性能指令布局優(yōu)化。

通過這一系列技術(shù),最大限度的發(fā)揮芯片的全部潛力,如矩陣乘法等算子可達業(yè)界領(lǐng)先的效率。

持續(xù)快速迭代Triton算子開發(fā)語言,支持Triton 3.4所有特性,包括FP8/FP4的數(shù)據(jù)類型。 引入fast libentry,優(yōu)化Triton Kernel的主機端開銷,在小Workload場景性能提升顯著。Triton編譯器后端實現(xiàn)多種優(yōu)化:

(1)優(yōu)化軟件流水的片上ram占用,優(yōu)化軟件流水的并發(fā)度,實現(xiàn)平衡軟件流水性能和單指令性能的自動軟件流水方案;

(2)實現(xiàn)指令并行、片上ram占用、指令延遲掩蓋等多目標的指令調(diào)度優(yōu)化;

(3)實現(xiàn)任務(wù)并行的自動調(diào)優(yōu)和自動調(diào)度;

(4)實現(xiàn)自動循環(huán)合并;

(5)實現(xiàn)基于算子語義的訪存和計算優(yōu)化,如transpose穿透和合并、slice、broadcast穿透等;

(6)優(yōu)化指令融合和指令選擇的性能建模。

通過上述優(yōu)化,提升了Triton?Kernel性能泛化性,其中Matmul、FlashAttention類和HSTU類算子性能提升明顯,部分熱點算子已經(jīng)與手寫算子性能相當。

進一步完善系統(tǒng)和算子的調(diào)試調(diào)優(yōu)工具:支持算子core dump,實現(xiàn)異?,F(xiàn)場的核心轉(zhuǎn)存,提供精準現(xiàn)場和調(diào)試信息對應(yīng)關(guān)系,提供core dump文件解析工具,可快速分析定位算子出現(xiàn)異常的根因。

在主機側(cè)與設(shè)備側(cè)并行度調(diào)優(yōu)方面,CNPerf可在極低跟蹤開銷的情況下實現(xiàn)全維度性能數(shù)據(jù)采集,可精準捕獲主機側(cè)與設(shè)備側(cè)執(zhí)行流、PMU性能指標、函數(shù)調(diào)用棧等關(guān)鍵信息,支持Kernel計算、內(nèi)存拷貝、通信任務(wù)等多類型任務(wù)追蹤,覆蓋從底層硬件到上層應(yīng)用的全棧性能數(shù)據(jù)。

CNPerf-GUI智能調(diào)優(yōu)能力突出,內(nèi)置專家建議系統(tǒng)可自動檢測設(shè)備空泡、利用率不足、集合通信等待等問題,精準定位熱點算子與性能瓶頸。此外CNPerf-GUI針對多機多卡場景,額外提供多日志自動對時與集群迭代分析等功能,進一步簡化用戶在復雜場景下的調(diào)優(yōu)復雜度。

在單算子調(diào)優(yōu)方面,CNPerf可支持GHz采樣頻率的硬件工作狀態(tài)采樣,精準記錄MLU前后端工作狀態(tài)。用戶可基于該功能分析流間/核間同步、算子軟件流水排布等問題,最大化利用硬件后端資源。

CNPerf-GUI適配Linux、macOS、Windows多平臺,支持CNPerf、PyTorch Profiler、Tensorflow Profiler、CNTrainKit等日志格式,且支持超大日志文件(上億函數(shù)記錄)的快速加載及流暢操作。

新增程序正確性分析工具CNSantizer,使用運行時插樁技術(shù)自動完成多核間競爭訪問檢測、單核內(nèi)多指令流競爭訪問檢測、Device側(cè)內(nèi)存越界訪問檢測、未定義程序行為檢測、使用未初始化內(nèi)存檢測等。

新增程序性能分析和調(diào)優(yōu)建議工具CNAdvisor,使用運行時插樁采集以及硬件性能計數(shù)器采集方式獲取程序運行時狀態(tài),并根據(jù)性能調(diào)優(yōu)經(jīng)驗庫,自動分析程序性能問題并標記出對應(yīng)源代碼位置,進一步給出優(yōu)化建議。

四、持續(xù)打磨核心基礎(chǔ)算子,打造可靠維測平臺

寒武紀計算庫積極擁抱開源社區(qū)的技術(shù)演進,持續(xù)迭代打磨核心基礎(chǔ)算子的功能、性能和穩(wěn)定性,更快更好地支持在寒武紀智能芯片上高效、穩(wěn)定地運行開源和私有模型。計算庫針對搜廣推、大語言模型、文生圖和文生視頻等熱點場景做了深入的功能擴展和性能優(yōu)化:

大規(guī)模Embedding Table稀疏訪存和計算極致優(yōu)化,性能與GPU競品相當;

GEMM/BatchGEMM/GroupGEMM等矩陣乘類算子性能泛化得到顯著增強,大規(guī)模矩陣乘HFU達到行業(yè)領(lǐng)先水平;

矩陣乘類算子支持多種社區(qū)公開/私有定制的低精度量化功能;

支持類CUTLASS GEMM模板庫的擴展開發(fā)和AutoTuning;

Attention類算子在低精度加速等方向的探索和研發(fā)成果已成功完成驗證,獲得良好的加速效果;

支持大語言模型使用的MTP技術(shù),開發(fā)了用于優(yōu)化MTP性能的Top-k和Top-p采樣、隨機采樣等融合算子。

為支持計算庫的持續(xù)快速迭代,保障計算庫軟件質(zhì)量的同時做到精度性能不回退,寒武紀計算庫團隊還打造了可靠的維測平臺,提供了豐富的維測工具,開發(fā)了高覆蓋度的功能性能測例,并制定了科學的驗收標準。

五、通信庫擴展性比肩國際主流競品,集群工具賦能萬卡場景

通信庫針對大規(guī)模場景進行專項優(yōu)化:新增HDR/DBT等Allreduce通信算法,優(yōu)先提升大規(guī)模條件下的通信帶寬,對Alltoall操作進行深度優(yōu)化,使其大規(guī)模擴展性達到與國際主流競品相當?shù)乃健?/p>

通信庫同步加強可維可測相關(guān)的功能,支持在線打點、模塊化日志、高可靠服務(wù)模塊等,幫助用戶能夠快速分析通信下發(fā)錯誤,異常卡死等問題,提高集群通信可用性。通信庫通過在Kernel支持RoCE網(wǎng)卡的RDMA操作(類IBGDA)顯著優(yōu)化大規(guī)模專家并行場景下的ALL2ALL通信延遲,提升了MoE類模型推理任務(wù)的端到端吞吐。

CntrainKit-Accu(大規(guī)模集群精度定位工具):為萬卡分布式訓練場景提供端到端精度定位,提供精度指標在線監(jiān)控,并針對精度問題進行自動化分級、采集信息、智能分析并提供對應(yīng)解決方案。CntrainKit-Accu工具還全面支持NaN/Inf異常檢測與快速定位,實現(xiàn)異常點級別的秒級溯源,大大提升大模型和搜廣推等場景的大規(guī)模訓練精度問題排查效率,讓每一次精度問題都能被精準捕獲。

CntrainKit-Monitor(大規(guī)模集群監(jiān)控調(diào)優(yōu)工具):實現(xiàn)對萬卡級集群訓練任務(wù)的實時通信與算子性能畫像,具備毫秒級任務(wù)健康可視化能力,支持算子粒度的性能剖析,識別AI作業(yè)中的性能瓶頸。具備萬卡規(guī)模訓練任務(wù)的“可觀、可查、可優(yōu)”能力,真正實現(xiàn)大規(guī)模集群的“問題自感知”。

CNCE(集群監(jiān)管平臺):構(gòu)建覆蓋計算、網(wǎng)絡(luò)、存儲的數(shù)據(jù)中心全景監(jiān)控體系,實現(xiàn)對十萬卡級算力集群的秒級狀態(tài)采集與拓撲可視化。平臺具備自動發(fā)現(xiàn)、智能診斷、自動處理的閉環(huán)故障管理能力,支持萬卡級任務(wù)的多維異常診斷與根因定位,讓用戶專注于算法創(chuàng)新與模型訓練,無需再為底層硬件波動分心。CNCE的上線使集群運維從“人工巡檢”邁向“智能自治”,顯著提升大規(guī)模?AI?訓練的可用性與穩(wěn)定性。

CNAnalyzeInsight(故障分析工具):CNAnalyzeInsight是智能日志分析與根因診斷引擎,支持對?GB?級日志的秒級檢索與多維聚合分析。具備在線實時診斷告警與離線快速分析雙模式,能夠?qū)崿F(xiàn)“異常發(fā)現(xiàn)、問題定位、原因歸納、修復建議生成”的故障診斷閉環(huán),顯著提升訓練任務(wù)的穩(wěn)定性與問題處理效率。

六、擁抱開源大趨勢,提供GPU零成本遷移工具

寒武紀快速跟進社區(qū)PyTorch的進展,支持?PyTorch 2.1到PyTorch 2.8的全部社區(qū)版本,適配了包括DDP、FSDP、FSDP2、HSDP、Tensor Parallelism、Context Parallel、Pipeline Parallelism、SDPA、Inductor、MLU Graph、AOTInductor以及Inductor cppwrapper等一系列關(guān)鍵功能。

Torch compile性能整體上追平GPU?compile加速比,高效支撐了產(chǎn)品在多個訓練和推理場景下的成功驗證。

寒武紀還提供GPU Migration一鍵遷移工具,幫助用戶近乎零成本將模型從GPU遷移到MLU。同時配備TorchDump精度調(diào)試工具和Torch Profiler性能調(diào)試工具,助力用戶高效定位和解決精度和性能問題。

此外,寒武紀還支持PyTorch Lightning、TorchTitan、TorchRec等社區(qū)生態(tài),并建立快速跟進社區(qū)版本的長效機制,可在社區(qū)版本發(fā)布后2周內(nèi)實現(xiàn)MLU適配版本的發(fā)布。

七、近十年持續(xù)打磨迭代,寒武紀助AI走進千行百業(yè)

通過近十年的持續(xù)打磨迭代,寒武紀已構(gòu)建出一套高效、易用、穩(wěn)定、成熟且具備高可擴展性的軟硬一體化產(chǎn)品體系。憑借領(lǐng)先的芯片技術(shù)與完善的基礎(chǔ)軟件平臺,寒武紀產(chǎn)品已經(jīng)在大模型、搜廣推、圖片與視頻生成和各類多模態(tài)的訓練與推理場景中成功完成驗證,贏得廣泛認可。

在此過程中,寒武紀產(chǎn)品不斷接受更多大規(guī)模場景高強度檢驗,推動軟件平臺與芯片體系持續(xù)進化,形成了“應(yīng)用促進優(yōu)化、優(yōu)化推動更強應(yīng)用”的良性循環(huán)。

通過為用戶提供更高效、更穩(wěn)定、更廣覆蓋的支持,寒武紀加速賦能產(chǎn)業(yè)智能化轉(zhuǎn)型,推動AI能力真正走進千行百業(yè)。 “讓機器更好地理解和服務(wù)人類”,寒武紀的愿景正在一步一步成為現(xiàn)實。

附錄:

寒武紀基礎(chǔ)軟件平臺Cambricon NeuWare圖中標注的縮寫詞全稱

1. Cambricon HLO:機器學習模型高級操作集(HLO)的寒武紀后端;

2. CNNL:Cambricon Network Library,寒武紀人工智能計算庫;

3. CNNL-Extra:Cambricon CNNL Extra,寒武紀人工智能計算庫的擴展庫;

4. CNCV:Cambricon Computer Vision Library,寒武紀計算機視覺庫;

5. CNCL:Cambricon Communications Library,寒武紀高性能通信庫;

6. CNFFmpeg:Cambricon FFmpeg,基于開源FFmpeg開發(fā)的硬件加速庫;

7. CNCC:Cambricon Compiler Collection,寒武紀BANG C語言編譯器;

8. CNAS:Cambricon Assembler,寒武紀匯編器組件;

9. CNGDB:Cambricon GNU Debugger,寒武紀BANG C語言調(diào)試工具;

10. CNSanitizer:Cambricon Sanitizer,寒武紀代碼檢測工具;

11. CNPAPI:Cambricon Profiling API,寒武紀性能分析接口庫;

12. CNPerf:Cambricon Performance,寒武紀性能分析工具;

13. CNPerf-GUI:Cambricon Performance Graphical User Interface,寒武紀性能剖析圖形化工具;

14. CNMon:Cambricon Monitor,寒武紀設(shè)備監(jiān)控與管理命令行工具;

15. CNVS:Cambricon Validation Suite,寒武紀設(shè)備驗證工具集;

16. CNFieldiag:Cambricon Field Diagnostic,寒武紀現(xiàn)場診斷工具;

17. CNAnalyzeInsight:寒武紀故障分析工具;

18. CNCL-benchmark:Cambricon Communications Library Benchmark,寒武紀通信庫性能基準測試工具;

19. Cambricon Device Plugin:寒武紀設(shè)備插件;

20. CCOMP:Cambricon Cluster Operation Management Platform,寒武紀智算運管平臺。

寒武紀在“寒武紀開發(fā)者”微信公眾號上打造了開發(fā)者交流平臺,開發(fā)者可以在這里第一時間獲取寒武紀開發(fā)相關(guān)的新產(chǎn)品發(fā)布,以及線上線下活動咨詢等,推薦關(guān)注~