智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影

智東西8月27日報(bào)道,今天下午,在第四屆828 B2B企業(yè)節(jié)開幕式上,華為云宣布其Tokens服務(wù)全面接入CloudMatrix384超節(jié)點(diǎn)。

借助xDeepServe架構(gòu)創(chuàng)新,該服務(wù)單芯片最高可實(shí)現(xiàn)2400TPS的吞吐量與50ms的TPOT(Token處理時(shí)延)。

一、中國日均Token消耗量暴增超300倍,接入超節(jié)點(diǎn)突破性能瓶頸

數(shù)據(jù)顯示,過去18個(gè)月中國AI算力需求呈指數(shù)級增長。2024年初中國日均Token消耗量為1000億,截至2025年6月底,這一數(shù)據(jù)已突破30萬億,1年半內(nèi)增長超300倍,這對算力基礎(chǔ)設(shè)施提出了更高要求。

2025年3月,華為云在傳統(tǒng)按卡時(shí)計(jì)費(fèi)模式基礎(chǔ)上,推出基于MaaS(模型即服務(wù))的Tokens服務(wù),提供在線版、進(jìn)線版、離線版及尊享版等多種規(guī)格,適配不同應(yīng)用場景的性能與時(shí)延需求。

破解300倍算力增長瓶頸,華為云Tokens服務(wù)全面接入384超節(jié)點(diǎn)

此次接入CloudMatrix384超節(jié)點(diǎn)后,依托超節(jié)點(diǎn)原生的xDeepServe框架,Tokens服務(wù)吞吐量從2025年初的1920TPS提升至2400TPS。

華為云認(rèn)為,大算力構(gòu)建需全棧創(chuàng)新,涵蓋硬件、軟件、算子、存儲(chǔ)、推理框架及超節(jié)點(diǎn)等環(huán)節(jié)。

其中,CloudMatrix384超節(jié)點(diǎn)通過計(jì)算架構(gòu)創(chuàng)新突破性能瓶頸;CANN昇騰硬件優(yōu)化算子與通信策略;EMS彈性內(nèi)存存儲(chǔ)打破AI內(nèi)存限制;xDeepServe分布式推理框架則以架構(gòu)提升算力效率。

二、xDeepServe架構(gòu)拆解模型,優(yōu)化算力調(diào)用

作為CloudMatrix384超節(jié)點(diǎn)的原生服務(wù),xDeepServe采用Transformerless極致分離架構(gòu),將MoE大模型拆解為Attention、FFN、Expert三個(gè)可獨(dú)立伸縮的微模塊,分配至不同NPU同步處理,再通過微秒級XCCL通信庫與FlowServe自研推理引擎整合,形成Tokens處理“流水線”。

經(jīng)優(yōu)化后,單卡吞吐從非超節(jié)點(diǎn)的600tokens/s提升至2400tokens/s。

破解300倍算力增長瓶頸,華為云Tokens服務(wù)全面接入384超節(jié)點(diǎn)

CANN作為硬件加速計(jì)算中間層,包含算子庫、XCCL高性能通信庫等組件。其中XCCL專為超節(jié)點(diǎn)大語言模型服務(wù)設(shè)計(jì),可發(fā)揮CloudMatrix384擴(kuò)展后UB互聯(lián)架構(gòu)的潛力,為架構(gòu)分離提供帶寬與時(shí)延支持。

FlowServe分布式引擎將CloudMatrix384劃分為自治的DP小組,每個(gè)小組配備Tokenizer、執(zhí)行器、RTC緩存與網(wǎng)絡(luò)棧,可實(shí)現(xiàn)千卡并發(fā)無擁堵。

華為云透露,xDeepServe已實(shí)現(xiàn)MA分離,下一步計(jì)劃將Attention、MoE、Decode改造為數(shù)據(jù)流,并擴(kuò)展至多臺超節(jié)點(diǎn),以線性提升推理吞吐。

三、支持主流大模型與Agent平臺,已落地多行業(yè)場景

目前,華為云MaaS服務(wù)已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型,以及versatile、Dify、扣子等主流Agent平臺。

在模型性能優(yōu)化方面,文生圖大模型通過Int8量化、旋轉(zhuǎn)位置編碼融合算子等方式,在輕微損失畫質(zhì)下,出圖速度達(dá)到業(yè)界主流平臺的2倍,最大支持2K×2K尺寸。

文生視頻大模型通過量化、通算并行等手段,降低延遲與顯存占用,性能較友商提升3.5倍。

破解300倍算力增長瓶頸,華為云Tokens服務(wù)全面接入384超節(jié)點(diǎn)

應(yīng)用層面,華為云已與超100家伙伴合作,在調(diào)研分析、內(nèi)容創(chuàng)作、智慧辦公、智能運(yùn)維等領(lǐng)域開發(fā)AI Agent。

例如,基于MaaS平臺的今日人才數(shù)智員工解決方案,集成自然語言處理、機(jī)器學(xué)習(xí)等技術(shù),可提升服務(wù)效率與客戶滿意度;北京方寸無憂科技開發(fā)的無憂智慧公文解決方案,能助力政企辦公智能化轉(zhuǎn)型。

結(jié)語:華為云超節(jié)點(diǎn)讓算力更適配AI應(yīng)用需求

當(dāng)前,AI技術(shù)正從模型研發(fā)向產(chǎn)業(yè)滲透加速邁進(jìn),而算力作為核心基礎(chǔ)設(shè)施,其性能、成本與適配能力將直接決定著產(chǎn)業(yè)智能化的推進(jìn)速度。

隨著后續(xù)更多超節(jié)點(diǎn)擴(kuò)展計(jì)劃的推進(jìn),以及更多行業(yè)場景的深度適配,這類AI基礎(chǔ)設(shè)施的升級,或?qū)⑦M(jìn)一步降低企業(yè)接入AI技術(shù)的門檻,讓技術(shù)更加深度地融入生活。