智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影

智東西9月29日報道,在9月26日的2025人工智能計算大會上,浪潮信息連破兩項紀錄,讓智能體產(chǎn)業(yè)化門檻一降再降!

一個是國內大模型最快Token生成速度:基于元腦SD200超節(jié)點AI服務器,DeepSeek R1大模型Token生成速度僅需8.9毫秒;另一個是百萬Token成本首次擊破1元,基于其最新發(fā)布的元腦HC1000超擴展AI服務器。

而這兩大突破的價值,正契合智能體商業(yè)化產(chǎn)業(yè)化落地的本質邏輯——

如今,具備自主學習、決策與執(zhí)行能力、能獨立完成復雜任務的智能體,已成為大模型規(guī)模化落地的核心載體,其產(chǎn)業(yè)化比拼的正是三大核心能力:場景適配能力、交互速度、成本控制。

模型能力能否精準匹配行業(yè)真實需求、交互速度是否滿足實時場景要求、Token成本能否支撐盈利閉環(huán),最終實現(xiàn)從技術可用到商業(yè)可持續(xù)的跨越,成為智能體產(chǎn)業(yè)化的關鍵桎梏。

在這背后,算力體系的革新至關重要。當前GPU主導的計算模式與通用架構面臨挑戰(zhàn),正逐漸在能效比和成本效益上觸及瓶頸,因此業(yè)界亟需重新審視并設計AI計算系統(tǒng),發(fā)展AI專用架構以突破瓶頸

浪潮信息通過軟硬件協(xié)同設計與深度優(yōu)化,已經(jīng)在持續(xù)推動AI計算架構的創(chuàng)新與突破上拿出了階段性重磅成果。

一、直面智能體產(chǎn)業(yè)化落地挑戰(zhàn)!浪潮信息發(fā)力底層架構革新之路

最近爆火的智能體將生成式AI的應用潛力推至新的高度,從為用戶提供AI工具和助手,到多智能體協(xié)同創(chuàng)造價值的未來圖景正在緩慢展開。

一方面,從語言到圖像、音視頻、3D各類模型連番刷新性能天花板,模型參數(shù)從百億、千億向萬億飆升,海量數(shù)據(jù)、后訓練階段算力投入的綜合作用下,AI展現(xiàn)出通過學習人類知識具備泛化智能的“涌現(xiàn)”能力。

這正是智能體誕生的基礎,其可以根據(jù)需求、用戶預設的目標學習人類知識主動決策、規(guī)劃、執(zhí)行,甚至實現(xiàn)自主迭代進化。

浪潮信息刷新AI推理天花板!智能體產(chǎn)業(yè)化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

另一方面DeepSeek通過算法創(chuàng)新降低大模型門檻,開源生態(tài)繁榮,為智能體生態(tài)繁榮奠定了基礎。

這一趨勢下,智能體產(chǎn)業(yè)化的三大核心要素被清晰推至臺前:模型能力決定智能體應用上限、交互速度決定智能體產(chǎn)業(yè)化價值、Token成本決定智能體盈利能力。

具體來看,模型能力決定了智能體在具體場景中能解決什么問題、解決到什么程度:首先綜合性能可以對標甚至超過閉源模型的開源模型是重要支撐;其次具體到不同場景,每個模型推理、交互、垂直領域知識精準度,決定其能否做到在不同場景可用。

交互速度決定智能體解決問題的速度:不同于此前用戶與聊天機器人的交互場景,用戶對時延的感知并不敏感,最初GPT-3.5每秒生成速度僅為40個token,彼時已經(jīng)可以滿足用戶的閱讀體驗,但這放到智能體交互層面遠遠不夠。

智能體在金融等對時延要求較高的領域,往往需要其響應速度降至毫秒級別,也就是說,即使模型能力再強,慢響應也會讓其失去實用價值。

浪潮信息刷新AI推理天花板!智能體產(chǎn)業(yè)化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

最后是成本,Token成本決定智能體盈利能力,Token成本直接對應企業(yè)的算力消耗成本,成本與定價差額決定智能體毛利率,若Token成本過高,企業(yè)也會陷入賣得越多、虧得越多的困境。

然而當下推理模型的思考過程會產(chǎn)生成千上萬個Token,智能體在執(zhí)行復雜任務的中間環(huán)節(jié)也會產(chǎn)生大量中間文本Token。根據(jù)Reddit的數(shù)據(jù),當前使用AI輔助編程的開發(fā)者平均每月會消耗1千萬到5億Token,相比一年前暴漲50倍,目前企業(yè)部署一個智能體平均每月的Token成本大概是1000到5000美元。主流模型的Token成本居高不下,這對于其產(chǎn)業(yè)化是不小的瓶頸。

因此,隨著大模型參數(shù)規(guī)模擴大、應用場景復雜化,單純依靠堆算力、堆成本的粗放模式,已難以平衡智能體的性能、速度與盈利需求,從計算架構層面實現(xiàn)技術突破成為適配三大要素、推動智能體產(chǎn)業(yè)化落地的最優(yōu)路徑,這也是浪潮信息在布局的方向。

二、從速度到成本雙重突破,樹AI服務器性能與成本新標桿

在這樣的產(chǎn)業(yè)背景下,浪潮信息作為全球算力基建核心供應商,其此次連破兩個國內紀錄的硬件產(chǎn)品,就是最好的例證。

首先是浪潮信息元腦SD200超節(jié)點AI服務器,在此之上DeepSeek R1的Token生成速度只需8.9毫秒,既實現(xiàn)國內大模型最快Token生成速度,也標志國產(chǎn)AI服務器Token生成速度邁入10毫秒時代

基于其獨創(chuàng)的多主機3D Mesh系統(tǒng)架構,該服務器單機實現(xiàn)了64路本土AI芯片的高速統(tǒng)一互連,單機可承載4萬億參數(shù)單體模型,或部署多個萬億參數(shù)模型組成的智能體應用。

浪潮信息刷新AI推理天花板!智能體產(chǎn)業(yè)化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

生成速度極致壓縮的背后,SD200還實現(xiàn)了極低通信延遲、整機高可靠性設計、超線性擴展的推理性能

SD200達到業(yè)界最低通信延遲為0.69微秒,其采用極致精簡的協(xié)議棧,包括物理層、數(shù)據(jù)鏈路層、事務層3層,原生支持Load/Store等“內存語義”,基礎通信延遲達到百納秒級,同時Open Fabric原生支持由硬件邏輯實現(xiàn)的鏈路層重傳,采用分布式、預防式的流控機制,從而實現(xiàn)穩(wěn)定可靠通信。

浪潮信息刷新AI推理天花板!智能體產(chǎn)業(yè)化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

為了保證整機高可靠適應超節(jié)點的大規(guī)模商業(yè)化應用,其系統(tǒng)硬件層面通過全銅纜電互連、短距緊耦合傳輸,實現(xiàn)每十億小時故障率是傳統(tǒng)光模塊互連方案的1/100,基礎軟件層通過創(chuàng)新GPU故障信息轉儲、跨域故障關聯(lián)定位等關鍵技術,實現(xiàn)全方位故障可觀測、全自動故障隔離、極速故障恢復,業(yè)務軟件層通過構建業(yè)務故障預測模型實現(xiàn)推理響應不中斷。

浪潮信息刷新AI推理天花板!智能體產(chǎn)業(yè)化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

SD200還通過面向超節(jié)點創(chuàng)新優(yōu)化的通信庫、PD分離策略、動態(tài)負載均衡等技術,將通信耗時控制在10%以內,實現(xiàn)了Deepseek R1 671B最高16.3倍的超線性擴展率。

與此同時,為了進一步提升SD200的易用性,浪潮信息使其兼容CUDA生態(tài),對PyTorch算子全覆蓋,一鍵遷移典型應用等。

此外,基于多元開放的超節(jié)點計算平臺、異構融合的軟件棧,浪潮信息還將與生態(tài)合作伙伴共同構建全場景智能體應用,共同塑造超節(jié)點智算應用“北京方案”。

其次是元腦HC1000超擴展AI服務器,推理成本首次擊破1元/每百萬Token。

浪潮信息首席AI戰(zhàn)略官劉軍透露,全面優(yōu)化降本和軟硬協(xié)同增效是HC1000實現(xiàn)百萬Token 1元成本高效生產(chǎn)力的關鍵路徑。其核心是浪潮信息創(chuàng)新設計的DirectCom極速架構以及全對稱系統(tǒng)拓撲設計

浪潮信息刷新AI推理天花板!智能體產(chǎn)業(yè)化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

DirectCom架構每計算模組配置16顆AIPU,實現(xiàn)單卡成本降低60%以上,每卡分攤系統(tǒng)成本降低50%,其采用直達通信設計、計算通信1:1均衡配比,實現(xiàn)全局無阻塞通信;全對稱系統(tǒng)拓撲設計支持靈活的PD分離、AF分離方案,最大化資源利用率。

HC1000還支持超大規(guī)模無損擴展,實現(xiàn)從1024卡到52萬卡的不同規(guī)模系統(tǒng)構建,計算側通過DirectCom和智能保序機制,網(wǎng)絡側支持包噴灑動態(tài)路由,深度算網(wǎng)協(xié)同實現(xiàn)推理性能相比傳統(tǒng)RoCE提升1.75倍。

這兩大硬件一方面拉高交互速度保障實時場景響應效率;另一方面推動Token成本持續(xù)觸底,為智能體規(guī)?;涞靥峁╆P鍵硬件支撐。

三、浪潮信息的算力前瞻邏輯:跟隨應用、算法發(fā)展布局

當我們剖析浪潮信息兩大硬件背后的黑科技會發(fā)現(xiàn),其核心底座是底層基礎設施在系統(tǒng)架構、互聯(lián)協(xié)議、軟件框架等關鍵點上進行的協(xié)同創(chuàng)新。

智能體產(chǎn)業(yè)化已成為行業(yè)共識,全球知名市研機構IDC的報告預測,中國企業(yè)級智能體應用市場規(guī)模在2028年保守估計將超過270億美元。

然而當前以GPU為核心的計算模式與通用計算架構正面臨嚴峻挑戰(zhàn)

一方面,通用計算架構的優(yōu)勢在于其廣泛的場景兼容性,但其痛點是為適配多元需求而預留的冗余設計,往往導致特定場景下算力效率難以突破;另一方面,專用架構聚焦單一領域的性能極致優(yōu)化,像為AI訓練量身打造的等,受限于應用場景的狹窄性,難以形成跨領域的生態(tài)規(guī)模。

綜合來看,計算產(chǎn)業(yè)的每一次跨越式發(fā)展,本質上都是在通用架構的普適性與專用架構的高效性之間尋找動態(tài)平衡,使其在場景需求、技術迭代等方面實現(xiàn)互補,契合當下的產(chǎn)業(yè)發(fā)展需求。

因此,這一時間節(jié)點,隨著AI計算需求呈指數(shù)級增長,行業(yè)亟需全面轉向效率導向,重新審視并重構AI計算系統(tǒng)。

我們可以從浪潮信息的布局中,觀察到其對計算架構底層創(chuàng)新的諸多思考。

劉軍透露,他們追求計算架構創(chuàng)新的原則是跟隨應用和算法發(fā)展的方向,以應用為導向、以系統(tǒng)為核心,才是進行計算架構創(chuàng)新的有效路徑。

具體來看,此次浪潮信息的SD200和HC1000針對的是兩個典型場景

SD200面向對延遲要求敏感的商業(yè)場景,HC1000面向的是云計算、互聯(lián)網(wǎng)、大規(guī)模AI服務提供商,這些企業(yè)需要為客戶的智能體應用提供成本更優(yōu)的計算基礎設施。

今年智能體剛剛起步,面向未來,其產(chǎn)業(yè)化落地必然會助推AI算力持續(xù)高速增長,仍有三大挑戰(zhàn)并存。

首先是系統(tǒng)規(guī)模擴展接近工程極限,智能體對多模態(tài)交互、實時推理的需求,推動算力集群向更大規(guī)模、更高互聯(lián)效率演進,但硬件與網(wǎng)絡的物理限制日益凸顯;

其次是算力大規(guī)模增長對電力基礎設施帶來挑戰(zhàn),智能體的高并發(fā)交互帶來算力功耗的指數(shù)級增長,單個智算中心的電力需求已達數(shù)吉瓦級別;

最后是算力投入和產(chǎn)出失衡,商業(yè)兌現(xiàn)進程緩慢,智能體產(chǎn)業(yè)化仍處于高投入、低回報階段,其面臨GPU利用率低、尚未形成成熟盈利模式等困境。

這也進一步印證了,效率導向的重要性。劉軍補充說,智能體時代加速發(fā)展,從人機交互到機機交互,都意味著思考問題的角度要隨之變化。當下應從規(guī)模導向轉向效率導向,采用算法硬件化的專用計算架構,探索開發(fā)大模型芯片,實現(xiàn)軟硬件深度優(yōu)化,是未來的發(fā)展方向。

結語:大模型重塑AI生態(tài),算力革命緊隨其后

大模型發(fā)展日新月異,從唯參數(shù)論到應用落地,推理需求增長、智能體出現(xiàn)等,其對底層算力玩家提出的需求也在發(fā)生變化。

因此企業(yè)在應對AI算力挑戰(zhàn)時,不能僅停留在解決當下的性能瓶頸與資源緊張等表層痛點,更需穿透問題表象,深挖制約算力效率提升與規(guī)模化應用的核心桎梏,在此基礎上,浪潮信息通過前瞻性視角布局技術與架構創(chuàng)新,為未來AI規(guī)模化落地筑牢技術根基。