智東西(公眾號(hào):zhidxcom)
作者 | 李水青
編輯 | 漠影

智東西2月6日?qǐng)?bào)道,昨日,由中科曙光提供的3套scaleX萬卡超集群系統(tǒng),在國(guó)家超算互聯(lián)網(wǎng)核心節(jié)點(diǎn)同時(shí)上線試運(yùn)行。

這是國(guó)內(nèi)第一次在國(guó)家級(jí)算力樞紐節(jié)點(diǎn)上,同步部署并實(shí)際投入運(yùn)營(yíng)3套萬卡級(jí)AI超集群,一舉成為全國(guó)首個(gè)實(shí)現(xiàn)超3萬卡部署、且已進(jìn)入實(shí)際運(yùn)營(yíng)階段的最大國(guó)產(chǎn)AI算力池。

該算力池覆蓋萬億參數(shù)大模型訓(xùn)練、高通量推理、AI for Science等當(dāng)前最重型、最前沿的大規(guī)模AI計(jì)算場(chǎng)景,并通過國(guó)家超算互聯(lián)網(wǎng)平臺(tái)對(duì)外提供統(tǒng)一調(diào)度與服務(wù)。

放在全球背景下,這一節(jié)點(diǎn)的上線,恰好發(fā)生在AI算力軍備競(jìng)賽白熱化的時(shí)間窗口。

不久前,埃隆·馬斯克剛剛宣布,xAI用于訓(xùn)練Grok的“Colossus 2”超級(jí)計(jì)算機(jī)投入運(yùn)行,成為全球首個(gè)吉瓦級(jí)訓(xùn)練集群,并計(jì)劃在數(shù)月內(nèi)繼續(xù)擴(kuò)容;OpenAI則斥資百億美元,聯(lián)合AI芯片企業(yè)Cerebras部署750兆瓦級(jí)晶圓級(jí)系統(tǒng),試圖打造全球最大高速AI推理平臺(tái)……

在海外資本與科技巨頭不斷“堆算力”的同時(shí),國(guó)家超算互聯(lián)網(wǎng)核心節(jié)點(diǎn)三套萬卡集群同步落地,以獨(dú)有的工程化、體系化方式,打造國(guó)家超算互聯(lián)網(wǎng)中一顆強(qiáng)勁的“動(dòng)力心臟”。

一、從真機(jī)亮相到規(guī)模落地:不到兩個(gè)月完成算力跨越

時(shí)間回溯到2025年12月,在昆山舉行的光合組織2025人工智能創(chuàng)新大會(huì)(HAIC2025)上,作為全球領(lǐng)先的大規(guī)模智能計(jì)算系統(tǒng),中科曙光scaleX萬卡超集群首次以真機(jī)形式展出,引起行業(yè)廣泛關(guān)注。

當(dāng)馬斯克OpenAI算力軍備賽打響,中國(guó)最大國(guó)產(chǎn)AI算力池來了!

當(dāng)時(shí)外界更多將其視為一次技術(shù)展示:展示國(guó)產(chǎn)萬卡集群在超節(jié)點(diǎn)架構(gòu)、高速互聯(lián)、能效控制等方面,已經(jīng)具備與國(guó)際同類路線同臺(tái)競(jìng)爭(zhēng)的能力。

但不到兩個(gè)月后,scaleX萬卡超集群就完成了從“真機(jī)展示”到“落地國(guó)家核心節(jié)點(diǎn)試運(yùn)行”的關(guān)鍵跨越——且不是一套,而是三套同步部署、同時(shí)上線。

這一速度背后,體現(xiàn)的是工程化能力的集中釋放。

三套萬卡集群同步部署,意味著要在極短時(shí)間內(nèi),完成從設(shè)備交付、機(jī)房適配、供配電與散熱系統(tǒng)建設(shè),到網(wǎng)絡(luò)調(diào)通、軟件棧部署、調(diào)度系統(tǒng)聯(lián)調(diào),再到穩(wěn)定性驗(yàn)證與試運(yùn)行的完整鏈路。任何一個(gè)環(huán)節(jié)出現(xiàn)瓶頸,都會(huì)放大為整體延誤。

這也意味著,萬卡集群不再是“定制化工程”,而已經(jīng)具備可復(fù)制、可規(guī)模交付的能力。

值得一提的是,該核心節(jié)點(diǎn)并非孤立存在。作為國(guó)家超算互聯(lián)網(wǎng)的重要樞紐,該核心節(jié)點(diǎn)承載了中國(guó)最大的國(guó)產(chǎn)AI算力資源池,其上線也意味著國(guó)產(chǎn)萬卡集群正式進(jìn)入國(guó)家級(jí)算力體系的“主干網(wǎng)絡(luò)”。

二、揭秘技術(shù)底座:萬卡超集群如何真正“跑起來”

萬卡級(jí)AI集群,從來不是“把卡堆在一起”這么簡(jiǎn)單。

在規(guī)模跨過萬卡門檻后,系統(tǒng)面臨的挑戰(zhàn)會(huì)呈指數(shù)級(jí)放大,核心集中在三件事上:算力能否充分釋放、系統(tǒng)能否長(zhǎng)期穩(wěn)定運(yùn)行、資源能否被高效調(diào)度使用。

1、高速互聯(lián):決定萬卡算力是否“有效”

在大模型訓(xùn)練和推理場(chǎng)景中,節(jié)點(diǎn)間通信往往成為性能瓶頸。算力規(guī)模越大,通信效率對(duì)整體性能的影響就越致命。

scaleX萬卡超集群采用的是中科曙光自主研發(fā)的scaleFabric高速互聯(lián)網(wǎng)絡(luò)。該網(wǎng)絡(luò)基于國(guó)內(nèi)首款400G類InfiniBand原生RDMA網(wǎng)卡與交換芯片,可實(shí)現(xiàn)400Gb/s帶寬、端到端通信延遲低于1微秒。

這一網(wǎng)絡(luò)不僅支撐萬卡級(jí)集群高效運(yùn)行,還在架構(gòu)上預(yù)留了向十萬卡、百萬卡規(guī)模平滑擴(kuò)展的能力。相較傳統(tǒng)IB網(wǎng)絡(luò)方案,其通信性能提升超過2倍,同時(shí)網(wǎng)絡(luò)總體成本下降約30%,為后續(xù)更大規(guī)模集群建設(shè)提供了現(xiàn)實(shí)可行的路徑。

2、高密度供電與散熱:平衡算力密度與能效,能效比創(chuàng)新高

算力規(guī)模上去之后,真正考驗(yàn)系統(tǒng)工程能力的,往往是“物理世界”,供電和散熱成為不可忽視的挑戰(zhàn)。

scaleX萬卡超集群采用了全球首創(chuàng)的高密度單機(jī)柜設(shè)計(jì)。通過超高密度刀片架構(gòu)與浸沒相變液冷技術(shù),單機(jī)柜算力密度提升約20倍,整體PUE值低至1.04。

這意味著,在同等機(jī)房條件下,可以部署更高密度的AI算力,同時(shí)將能耗控制在可持續(xù)范圍內(nèi)。這不僅直接影響運(yùn)營(yíng)成本,也決定了萬卡集群是否具備長(zhǎng)期穩(wěn)定運(yùn)行的現(xiàn)實(shí)基礎(chǔ)。

3、統(tǒng)一調(diào)度與運(yùn)維:智能管理萬級(jí)節(jié)點(diǎn)、服務(wù)十萬級(jí)用戶

萬卡集群的價(jià)值,最終取決于是否“好用”。

在核心節(jié)點(diǎn),三套萬卡超集群并非各自獨(dú)立運(yùn)行,而是通過統(tǒng)一的調(diào)度與管理體系,對(duì)外提供算力服務(wù)。系統(tǒng)引入物理集群數(shù)字孿生,實(shí)現(xiàn)故障定位、資源狀態(tài)、運(yùn)維流程的可視化管理;智能調(diào)度引擎可管理萬級(jí)節(jié)點(diǎn)、服務(wù)十萬級(jí)用戶,支持每秒萬級(jí)作業(yè)調(diào)度,長(zhǎng)期可用性達(dá)到99.99%。

這種“數(shù)字孿生+智能調(diào)度”的組合,使得萬卡集群不再只是“硬件資產(chǎn)”,而是真正融入國(guó)家超算互聯(lián)網(wǎng)體系的算力中樞。

當(dāng)馬斯克OpenAI算力軍備賽打響,中國(guó)最大國(guó)產(chǎn)AI算力池來了!

三、連接30+算力中心、服務(wù)超100萬用戶,打造國(guó)家級(jí)“算力樣板間”

如果說萬卡超集群解決的是“算力從哪來”,那么國(guó)家超算互聯(lián)網(wǎng)解決的,則是“算力如何被用起來”。

由官方數(shù)據(jù)可知,截至2025年底,國(guó)家超算互聯(lián)網(wǎng)平臺(tái)已連接全國(guó)30余家超算與智算中心,服務(wù)100多萬用戶,應(yīng)用商品超7200多個(gè),單日處理作業(yè)峰值103萬個(gè),迄今已累計(jì)支撐運(yùn)行1.96億次作業(yè),致力于有效聯(lián)動(dòng)中國(guó)乃至全球算力資源與應(yīng)用需求。

在這一體系中,本次新上線的核心節(jié)點(diǎn)角色尤為特殊。

一方面,它以三套萬卡超集群構(gòu)成全國(guó)最大的國(guó)產(chǎn)AI算力資源池,為高強(qiáng)度AI任務(wù)提供穩(wěn)定算力供給;另一方面,它也承擔(dān)著“算力樣板間”的示范功能——驗(yàn)證國(guó)產(chǎn)萬卡集群在真實(shí)業(yè)務(wù)負(fù)載下的可用性、穩(wěn)定性與經(jīng)濟(jì)性。

從應(yīng)用層看,該算力池已全面覆蓋萬億參數(shù)模型訓(xùn)練、高通量推理、AI for Science等關(guān)鍵場(chǎng)景。在科研領(lǐng)域,支撐材料科學(xué)、生命科學(xué)等方向的大模型計(jì)算;在產(chǎn)業(yè)側(cè),面向模型企業(yè)、互聯(lián)網(wǎng)公司和行業(yè)用戶,提供統(tǒng)一入口的普惠算力服務(wù)。

更重要的是,其背后采用的,是中科曙光提出并協(xié)同20多家AI產(chǎn)業(yè)鏈企業(yè)大力推動(dòng)的“AI計(jì)算開放架構(gòu)”理念。

開放架構(gòu)強(qiáng)調(diào)打破單一生態(tài)綁定,支持多品牌AI加速卡混合部署,全面兼容CUDA等主流軟件生態(tài),并已完成400余個(gè)主流大模型、世界模型的適配優(yōu)化。對(duì)開發(fā)者而言,這意味著遷移成本更低、選擇空間更大;對(duì)整個(gè)產(chǎn)業(yè)而言,則有助于推動(dòng)國(guó)產(chǎn)算力的一體化協(xié)同。

這也使國(guó)產(chǎn)萬卡集群的發(fā)展路徑,從“單點(diǎn)技術(shù)突圍”,逐步走向“產(chǎn)業(yè)生態(tài)共建”。

結(jié)語(yǔ):AI基建競(jìng)爭(zhēng),正在從“拼建設(shè)”走向“拼運(yùn)營(yíng)”

隨著核心節(jié)點(diǎn)上線,我國(guó)AI基礎(chǔ)設(shè)施建設(shè)正在進(jìn)入一個(gè)比拼運(yùn)營(yíng)的新階段。

算力競(jìng)爭(zhēng)不只是“有沒有萬卡”,更是誰(shuí)能規(guī)模化部署、穩(wěn)定運(yùn)營(yíng)、并真正支撐應(yīng)用落地。在全球AI算力軍備競(jìng)賽持續(xù)升溫的背景下,國(guó)產(chǎn)算力正通過日益成型的國(guó)家超算互聯(lián)網(wǎng)完成一體化調(diào)度,最終實(shí)現(xiàn)工程可落地、運(yùn)行可持續(xù)、生態(tài)可協(xié)同。

“中國(guó)最大”只是起點(diǎn),“以國(guó)產(chǎn)算力服務(wù)好全球用戶”才是更遠(yuǎn)的星辰大海。