芯東西(公眾號:aichip001)
作者 |? 陳駿達
編輯 |? 漠影

在新一輪AI技術(shù)浪潮中,基礎(chǔ)設(shè)施正成為外界關(guān)注的焦點。隨著基礎(chǔ)模型規(guī)模從千億級邁向萬億級,訓(xùn)練與推理的計算和通信需求迅速攀升,傳統(tǒng)的算力堆疊模式已難以支撐。

超大規(guī)模AI模型催生出新的基礎(chǔ)設(shè)施范式——超節(jié)點。這一概念突破了傳統(tǒng)服務(wù)器的形態(tài),由數(shù)十至數(shù)百個加速器組成,通過超高帶寬、超低延遲的Scale-up網(wǎng)絡(luò)連接,形成一個統(tǒng)一的資源池。

在國產(chǎn)高端算力供應(yīng)受限的大背景下,超節(jié)點已逐漸成為支撐大模型訓(xùn)練和推理的關(guān)鍵架構(gòu),互聯(lián)則被視作其中的核心環(huán)節(jié)。如何在超節(jié)點架構(gòu)中實現(xiàn)高效互聯(lián),成為技術(shù)界與產(chǎn)業(yè)界共同探討的焦點議題。

昨日,在AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)解決方案提供商奇異摩爾與中國信息通訊研究院華東分院共同舉辦的Networking for AI生態(tài)沙龍上,多家企業(yè)分享了國產(chǎn)AI從技術(shù)突破到生態(tài)構(gòu)建的整體進展,而超節(jié)點的互聯(lián),成為會上的重點議題之一。

互聯(lián)技術(shù)站上“C位”,AI超節(jié)點迎關(guān)鍵拼圖,國產(chǎn)化閉環(huán)近了?

在計算、網(wǎng)絡(luò)兩個領(lǐng)域均有一定積累的奇異摩爾,想用芯粒來解決超節(jié)點的互聯(lián)挑戰(zhàn)。其打造的高帶寬、多語義支持的通用IO芯粒,或許代表著一種面向未來的AI網(wǎng)絡(luò)基礎(chǔ)設(shè)施思路。

一、互聯(lián)成算力破局關(guān)鍵,芯粒方案緣何成為新引擎

過去數(shù)年,AI模型的可用性持續(xù)提升,帶動企業(yè)AI推理需求迅速增長。與訓(xùn)練階段的一次性計算不同,每次推理都需要調(diào)用數(shù)十億甚至百億級參數(shù),對算力資源形成持續(xù)高壓。

在實時交互場景中,模型不僅需要“算得準”,還必須“算得快”,毫秒級的延遲和高并發(fā)吞吐直接影響用戶體驗和系統(tǒng)效率。

在支撐上述新一代AI模型和應(yīng)用的超節(jié)點中,互聯(lián)幾乎與算力本身同等重要。

高速互聯(lián)保證模型參數(shù)在不同芯片之間的快速交換,是并行訓(xùn)練和推理的前提;大規(guī)模集群擴展離不開高帶寬、低擁塞的網(wǎng)絡(luò),否則再多的GPU也難以形成合力;通信延遲則直接影響模型響應(yīng)速度。

互聯(lián)的重要性,也反映在AI基礎(chǔ)設(shè)施投資趨勢中。過去,互聯(lián)技術(shù)在算力中心投資額中的占比不足5%,如今已逐漸增加到15%-20%,未來還可能持續(xù)上升。

在探索互聯(lián)技術(shù)未來發(fā)展方向的過程中,將IO芯粒從核心計算單元中分離出來,已成為一大技術(shù)趨勢,并獲得多家領(lǐng)先廠商采用,有望成為超節(jié)點擴展到千卡規(guī)模的重要技術(shù)路徑之一。

華為昇騰910的Side IO Die設(shè)計正是這一趨勢的實踐,它將密集計算與高速接口分工,有效提升系統(tǒng)吞吐量和制造良率。

英偉達下一代Rubin架構(gòu)則采用多制程節(jié)點芯粒設(shè)計,不僅分離I/O,還讓計算單元實現(xiàn)模塊化。

互聯(lián)技術(shù)站上“C位”,AI超節(jié)點迎關(guān)鍵拼圖,國產(chǎn)化閉環(huán)近了?

作為國內(nèi)罕見的AI網(wǎng)絡(luò)互聯(lián)領(lǐng)域全棧供應(yīng)商,奇異摩爾對這一技術(shù)路徑的探索同樣值得關(guān)注。

成立于2021年初的奇異摩爾,在芯粒技術(shù)方面積累深厚,早期通過中科創(chuàng)星構(gòu)建產(chǎn)業(yè)資源網(wǎng)絡(luò),與半導(dǎo)體產(chǎn)業(yè)上下游合作伙伴建立深度協(xié)作關(guān)系。

奇異摩爾最早從片內(nèi)互聯(lián)切入,其自研的IOD互聯(lián)芯粒3D Base Die(與復(fù)旦大學(xué)合作存算一體芯片)曾入選ISSCC 2025會議,獲得這一被譽為芯片界“奧林匹克”的頂級會議認可。伴隨AI浪潮的興起,奇異摩爾在持續(xù)深耕片內(nèi)互聯(lián)的同時,也組建了專注于高性能RDMA網(wǎng)絡(luò)技術(shù)的專業(yè)團隊。

互聯(lián)技術(shù)站上“C位”,AI超節(jié)點迎關(guān)鍵拼圖,國產(chǎn)化閉環(huán)近了?

▲奇異摩爾首席網(wǎng)絡(luò)技術(shù)專家葉棟

這家擁有計算與網(wǎng)絡(luò)雙重背景的企業(yè),已全面布局Scale-out、Scale-up和Scale-inside三大方向。其首創(chuàng)的超節(jié)點GPU片間互聯(lián)芯粒產(chǎn)品解決方案Kiwi G2G IOD,在計算Die與IO Die解耦技術(shù)路徑下,尤其值得關(guān)注。

二、互聯(lián)芯粒G2G IOD技術(shù)細節(jié)全揭秘,如何賦能AI超節(jié)點

何為超節(jié)點芯粒?這是一款專為xPU(含GPU)等加速器之間的Scale-Up網(wǎng)絡(luò)互聯(lián)而設(shè)計的超節(jié)點互聯(lián)芯粒。

互聯(lián)技術(shù)站上“C位”,AI超節(jié)點迎關(guān)鍵拼圖,國產(chǎn)化閉環(huán)近了?

在G2G(GPU互聯(lián))領(lǐng)域,廠商們普遍面臨四大難題,奇異摩爾的G2G IOD正是對這些痛點的直接回應(yīng)。

帶寬瓶頸

對超大規(guī)模AI模型而言,訓(xùn)練、推理和多模態(tài)數(shù)據(jù)交換本質(zhì)上是數(shù)據(jù)密集型工作,只有TB級帶寬才能避免算力閑置、模型同步延遲、用戶體驗卡頓,讓超節(jié)點真正發(fā)揮作用。

Kiwi G2G IOD支持TB級帶寬與高并發(fā)數(shù)據(jù)傳輸,給大模型的訓(xùn)練和推理提供持續(xù)穩(wěn)定的高效互聯(lián)支撐。

拓撲擴展性

超節(jié)點由數(shù)十甚至上百塊GPU/xPU構(gòu)成,不同的訓(xùn)練任務(wù)和部署場景對網(wǎng)絡(luò)結(jié)構(gòu)有不同要求:有些任務(wù)適合全互聯(lián)(Full Mesh),有些適合脊葉(Spine-Leaf)結(jié)構(gòu)。G2G IOD便兼容全互聯(lián)、脊葉等多種網(wǎng)絡(luò)結(jié)構(gòu),避免在每次擴展或任務(wù)切換時重新設(shè)計網(wǎng)絡(luò)的需求。

多語義需求

GPU互聯(lián)領(lǐng)域長期存在兩種語義分野:消息語義與內(nèi)存語義。

消息語義適合大塊數(shù)據(jù)傳輸,通常通過RDMA(遠程直接內(nèi)存訪問)來完成。內(nèi)存語義則更適合小粒度操作。GPU之間可以像訪問本地內(nèi)存一樣,直接對另一顆GPU的內(nèi)存進行操作。

過去的產(chǎn)業(yè)格局中,英偉達NVLink以私有協(xié)議走內(nèi)存語義路線,而華為、Intel等廠商更多采用消息語義方案。

然而,單純依賴消息語義,在傳輸大塊數(shù)據(jù)時效率很高,但在處理小數(shù)據(jù)時會面臨巨大開銷。單純依賴內(nèi)存語義,雖能高效處理小規(guī)模訪問,卻在面對大數(shù)據(jù)搬移時效率下降。

因此,一個理想的Scale-up互聯(lián)架構(gòu),必須同時支持兩種語義。G2G IOD同時支持消息語義和內(nèi)存語義,這種“雙模”設(shè)計,才能真正兼顧性能與靈活性。

協(xié)議通用性

當前Scale-up協(xié)議從簡單P2P接口演進為復(fù)雜協(xié)議,通用協(xié)議仍在標準化過程中。

G2G IOD本身基于奇異摩爾獨創(chuàng)的HPDE可編程架構(gòu),能支持不同的協(xié)議包括SUE、OISA、ETH-X,和未來其他主流協(xié)議,從而滿足不同廠商不同場景的需求,在生態(tài)百花齊放的Scale-up系統(tǒng)中支持多協(xié)議類型及其升級,從而降低持續(xù)研發(fā)難度和開發(fā)成本。

G2G IOD的優(yōu)勢不僅體現(xiàn)在性能,更在于芯粒架構(gòu)帶來的戰(zhàn)略價值。

芯粒范式賦予系統(tǒng)架構(gòu)師對性能、功耗、面積和成本(PPAC)四個維度進行解耦和獨立優(yōu)化的能力,從而顯著提升系統(tǒng)設(shè)計的靈活性,并降低研發(fā)門檻。

互聯(lián)技術(shù)站上“C位”,AI超節(jié)點迎關(guān)鍵拼圖,國產(chǎn)化閉環(huán)近了?

▲GPU互聯(lián)芯粒與GPU集成I/O通信IP的區(qū)別

一方面,越來越大的超節(jié)點域所帶來的網(wǎng)絡(luò)流控、IO功能對于xPU企業(yè)的研發(fā)提出復(fù)雜性挑戰(zhàn)。而解耦的互聯(lián)芯粒無需在設(shè)計階段就確定采用何種Scale-Up協(xié)議,同時也大幅降低了研發(fā)難度和成本,可節(jié)省數(shù)億元的研發(fā)投入。

另一方面,基于奇異摩爾的HPDE高性能可編程架構(gòu),G2G芯粒支持通過用戶友好的編程配置或產(chǎn)品升級來適配更新的算法和協(xié)議類型,有利于實現(xiàn)快速迭代與升級,進一步降低持續(xù)研發(fā)的難度和開發(fā)成本。

此外,該范式還支持開放生態(tài),可復(fù)用現(xiàn)有的網(wǎng)絡(luò)交換機,無需專門研發(fā)專用交換機,有助于構(gòu)建更加開放和具備競爭力的 Scale-Up生態(tài)系統(tǒng)。

在工藝體系方面,芯粒設(shè)計是應(yīng)對后摩爾時代挑戰(zhàn)、特別是先進制程節(jié)點下成本與物理限制的重要戰(zhàn)略轉(zhuǎn)型。其關(guān)鍵優(yōu)勢在于支持異構(gòu)集成,即不同制程節(jié)點的芯片可分別優(yōu)化后組合集成。

其中,成熟制程的應(yīng)用有助于提升良率、降低非經(jīng)常性工程(NRE)成本,而計算單元仍可采用最先進制程,從而實現(xiàn)整體異構(gòu)集成所帶來的成本優(yōu)化。

G2G IOD并非一款單點產(chǎn)品,而是開放生態(tài)的一部分。可以說,這款芯粒既是超級節(jié)點互聯(lián)的性能解法,也是國產(chǎn)AI算力基礎(chǔ)設(shè)施走向開放化和規(guī)模化的一次關(guān)鍵嘗試。

三、擁抱開放生態(tài),多套方案回應(yīng)AI時代算力變革

在當前的AI加速計算領(lǐng)域,奇異摩爾推出的超節(jié)點互聯(lián)解決方案是行業(yè)內(nèi)目前唯一一種基于芯粒架構(gòu)并構(gòu)建于開放生態(tài)之上的互聯(lián)方案。

奇異摩爾積極投身于全球及國內(nèi)主流開放標準生態(tài)的建設(shè),全面參與了UEC、UALINK、OISA、ETH-X等多個關(guān)鍵產(chǎn)業(yè)聯(lián)盟。

其中,與中國移動共同構(gòu)建OISA(全向智感互聯(lián))生態(tài)是其戰(zhàn)略重點之一。自O(shè)ISA 1.0階段起,奇異摩爾便深度跟進該技術(shù)體系的演進。

在2025年中國算力大會上,奇異摩爾作為核心合作伙伴,與中國移動等產(chǎn)業(yè)伙伴共同啟動了OISA生態(tài)共建戰(zhàn)略合作,并見證了性能大幅增強的OISA 2.0協(xié)議的發(fā)布。

中國移動研究院技術(shù)經(jīng)理李鍇在活動演講中談道,“作為OISA體系的積極踐行者,奇異摩爾深度投身生態(tài)建設(shè),在協(xié)議及IO芯粒的標準制定與產(chǎn)品研發(fā)中全力推進生態(tài)適配,為《OISA全向智感互聯(lián)IO芯粒技術(shù)白皮書》的編撰貢獻了關(guān)鍵力量?!?/p>

奇異摩爾作為一家全棧AI網(wǎng)絡(luò)互聯(lián)企業(yè),還在Scale-out超級網(wǎng)卡SuperNIC和Scale-inside D2D方面有產(chǎn)品布局。

互聯(lián)技術(shù)站上“C位”,AI超節(jié)點迎關(guān)鍵拼圖,國產(chǎn)化閉環(huán)近了?

在Scale-out方向,為應(yīng)對網(wǎng)絡(luò)面臨的帶寬、延遲、海量節(jié)點流控和成本控制等多重挑戰(zhàn),業(yè)界提出了UEC(Ultra Ethernet Consortium,超級以太網(wǎng)聯(lián)盟)技術(shù)路線,為下一代RDMA提供方向。

奇異摩爾在研的Kiwi SNIC超級智能網(wǎng)卡內(nèi)置高性能RDMA引擎,提供高達800G帶寬,并支持亂序處理、多徑傳輸和選擇性重傳,顯著提升大規(guī)模網(wǎng)絡(luò)的數(shù)據(jù)傳輸效率和可靠性。

在Scale-Inside方向,奇異摩爾的片內(nèi)互聯(lián)方案,基于UCIe的D2D IP及Central IO Die及3D Base Die系列,可賦能AI芯片/高性能芯片的算力提升,進一步提升AI網(wǎng)絡(luò)的單計算卡算力。

結(jié)語:國產(chǎn)AI算力閉環(huán),初步成型

在昨日落幕的生態(tài)沙龍活動上,我們看到越來越多企業(yè)正覆蓋從算力芯片到算法模型再到算力服務(wù)的全鏈條環(huán)節(jié),展現(xiàn)了國產(chǎn)AI從技術(shù)突破到生態(tài)構(gòu)建的整體進展,國產(chǎn)算力閉環(huán)正在持續(xù)完善。

奇異摩爾這樣的企業(yè)專注于互聯(lián)解決方案,構(gòu)建了從芯片內(nèi)部到超算集群的完整閉環(huán),不僅解決了傳輸性能、協(xié)議兼容性和部署成本等核心難題,更以開放標準和靈活架構(gòu)推動了國產(chǎn)算力生態(tài)的持續(xù)迭代與升級。

新華三則發(fā)布了全新H3C UniPoD系列超節(jié)點,支持高性能Scale-up互聯(lián),可實現(xiàn)單機柜多卡GPU的高速互聯(lián)與資源協(xié)同,滿足大模型訓(xùn)練和推理需求。該系列同時支持靈活交付模式,助力企業(yè)快速構(gòu)建業(yè)務(wù)和全棧能力。

此外,財躍星辰、騰訊云、沐曦、中科創(chuàng)星、無問芯穹、后摩智能、中昊芯英等企業(yè)也分享了他們在打造國產(chǎn)AI技術(shù)體系上的探索。

在會上,中國信通院華東分院總工程師陳俊琰指出,未來,智能算力產(chǎn)業(yè)的高質(zhì)量發(fā)展需要強化技術(shù)創(chuàng)新協(xié)同,突破核心瓶頸;完善算力調(diào)度體系,提升配置效率;深化場景融合應(yīng)用,賦能實體經(jīng)濟。

中科創(chuàng)星董事總經(jīng)理盧小保認為,AI算力正由單體智能往群體智能發(fā)展,Scaling Law下,互聯(lián)的作用越來越凸顯,成了延續(xù)摩爾定率、不斷提升算力密度的核心解決路徑。在國內(nèi)先進工藝受限的情況下,互聯(lián)更是具備特殊價值,讓國內(nèi)算力產(chǎn)業(yè)可以以規(guī)模和成本換性能,實現(xiàn)算力自立。

業(yè)內(nèi)投資專家曾指出:“未來三年,誰能把國產(chǎn)算力高效‘連’起來,誰就能贏得AI基礎(chǔ)設(shè)施的賽點。”互聯(lián),這個曾經(jīng)被忽視的技術(shù)角落,正成為國產(chǎn)AI算力能否真正實現(xiàn)閉環(huán)的關(guān)鍵一戰(zhàn)。