智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影

隨著大模型的快速演進和模型參數(shù)規(guī)模的快速增長,AI算力需求正呈現(xiàn)爆發(fā)式態(tài)勢。然而,支撐芯片發(fā)展的摩爾定律已逼近物理極限,晶體管微縮帶來的成本呈指數(shù)級上升,性能提升幅度卻逐年收窄。

這一根本性矛盾促使業(yè)界亟需探索一種能繼續(xù)擴展AI基礎設施的解決方案。超節(jié)點技術應運而生,通過數(shù)十張乃至數(shù)百張加速卡的高帶寬互連,將相對獨立的計算資源整合為統(tǒng)一的超級計算單元,突破了傳統(tǒng)架構在規(guī)模擴展上的瓶頸。

不過,在國內環(huán)境中,由于高端算力的缺乏,國產超節(jié)點方案往往需要整合更大規(guī)模的集群,這對互連技術提出了更高的要求。在帶寬、能耗、傳輸距離上較傳統(tǒng)電互連方案更具優(yōu)勢的光學方案的應用,有望逐步成為推動超節(jié)點性能提升的關鍵驅動力。

就在昨天,國內光電混合算力獨角獸曦智科技在世界人工智能大會(WAIC)上發(fā)布了國內首個光互連光交換GPU超節(jié)點光躍LightSphere X,并聯(lián)合壁仞科技、中興通訊首次進行示范應用,即將于上海儀電國產超節(jié)點算力集群落地。

超節(jié)點迎最佳拍檔!上海獨角獸首創(chuàng)分布式光交換芯片,成果已獲頂會認證

憑借全球首創(chuàng)的分布式光交換技術,光躍LightSphere X獲得世界人工智能大會的最高獎項,2025 SAIL獎,并成為SAIL四大評價維度(Superior, Application, Innovation, Leading)中“Innovation”(創(chuàng)新)維度的標桿案例。

超節(jié)點迎最佳拍檔!上海獨角獸首創(chuàng)分布式光交換芯片,成果已獲頂會認證

近日,智東西與曦智科技創(chuàng)始人兼CEO沈亦晨博士、曦智科技聯(lián)合創(chuàng)始人兼CTO孟懷宇博士以及曦智科技互連產品線副總裁朱劍進行了近2個小時的深入溝通,他們向智東西等媒體剖析了光躍LightSphere X背后的技術創(chuàng)新與曦智科技對光電混合算力行業(yè)的長期展望。

一、超節(jié)點互連技術路徑分野,國產方案如何突圍

當下,海外的超節(jié)點方案基本由英偉達主導,使用電交換構建單柜達72卡的大規(guī)模超節(jié)點,也就是所謂的GB200 NVL72。

該解決方案依賴于一個在國內看來幾乎有些“奢侈”的前提——每張GB200的算力數(shù)倍于國產卡。若要實現(xiàn)同等效果,國產超節(jié)點可能需要進行成百上千卡的互連,在現(xiàn)有條件下,基本難以在單機柜內實現(xiàn)。

即便從理論上可行,單機柜內構建如此密集的電互連方案本身也面臨極高的技術挑戰(zhàn)和投入成本,對于目前國內的產業(yè)基礎來說,依然是一項極具挑戰(zhàn)性的任務。

超節(jié)點迎最佳拍檔!上海獨角獸首創(chuàng)分布式光交換芯片,成果已獲頂會認證

因此,國產解決方案更可行的路徑或許是通過增加機柜數(shù)量,先確保計算卡的總量,再通過高效互連技術組成超節(jié)點。

沈亦晨博士稱,在多機柜場景下,傳統(tǒng)的銅導線連接距離一旦超過1-1.5米,就無法滿足超節(jié)點對帶寬和延時的嚴苛要求,光互連幾乎成為必選項。

谷歌曾在其TPU光互連超節(jié)點方案采用集中式光交換,實現(xiàn)GPU集群間的跨機柜通信。不過,該方案專為TPU定制,硬件成本高昂,對全棧軟件能力要求較高,目前除了谷歌外尚未有其他廠商采用。

前段時間帶火超節(jié)點概念的華為昇騰CloudMatrix 384超節(jié)點,也使用了光互連網絡,配備近7000個光模塊,讓數(shù)百塊GPU能實現(xiàn)高效協(xié)同。

此外,要打造高效的超節(jié)點方案,交換也是極為關鍵的一環(huán)。

沈亦晨博士介紹,在模型訓練過程中,不同階段GPU間的通信拓撲存在動態(tài)變化。英偉達采用NVSwitch電交換芯片集中調度NVLink信號,類似交通信號燈統(tǒng)一分配各GPU間的通信路徑。

然而,國內GPU廠商普遍缺乏同類高性能電交換芯片,現(xiàn)有解決方案在性能上仍與英偉達存在顯著差距。此外,國內GPU廠商的互連接口協(xié)議也各不相同,傳統(tǒng)交換機無法做到統(tǒng)一調度。

面臨種種挑戰(zhàn),國產超節(jié)點方案究竟應該如何破局?作為國內乃至全球領先的光電混合算力提供商,曦智科技依托其在光子計算和光子網絡的技術積累,交出國內首個光互連光交換GPU超節(jié)點解決方案光躍LightSphere X。

二、首創(chuàng)分布式光交換芯片,相關成果獲頂會認證

光躍LightSphere X的核心技術,是曦智科技全球首創(chuàng)的基于硅光子技術的分布式光交換dOCS(distributed Optical Circuit Switch)芯片。

若把傳統(tǒng)集中式的交換芯片比為中央物流中心,將每張計算卡比為一個車間,分布式光交換技術所進行的調整,就是取消了中央物流中心,轉而在每個車間旁邊設置小型物料中轉站,使物料傳輸路徑更短、更直接。

超節(jié)點迎最佳拍檔!上海獨角獸首創(chuàng)分布式光交換芯片,成果已獲頂會認證

得益于這一架構,光躍LightSphere X可靈活配置超節(jié)點的規(guī)模,并可靈活切換GPU間互連拓撲結構,以適應不同模型負載對通信模式的差異化需求。

在大規(guī)模訓練、推理場景中,上述解決方案在GPU冗余率上展現(xiàn)出明顯優(yōu)勢。傳統(tǒng)超節(jié)點必須整體運作,單卡故障會導致整個節(jié)點下線,冗余成本高;而分布式光交換讓超節(jié)點支持動態(tài)重組——當檢測到異常時,系統(tǒng)可自動移除故障節(jié)點,接入備份服務器重新組網。

這種“卡級冗余”相比傳統(tǒng)“節(jié)點級冗余”大幅降低備用資源需求,將冗余比例從整節(jié)點壓縮到單卡級別,冗余率僅為英偉達、谷歌等方案的1/10。

超節(jié)點迎最佳拍檔!上海獨角獸首創(chuàng)分布式光交換芯片,成果已獲頂會認證

光躍LightSphere X解決方案在商用光電轉換模組的基礎上,增加了用于光交換功能的芯片,以較低的成本實現(xiàn)了分布式的光交換。分布式設計方案幾乎可以無限擴展,突破了傳統(tǒng)交換芯片對連接數(shù)量的限制。

在本屆WAIC期間發(fā)布的光躍LightSphere X獲得了SAIL獎(WAIC最高獎項),也成為該獎項創(chuàng)新維度的標桿案例。而dOCS相關方案則收錄于國際通信網絡旗艦會議SIGCOMM 2025。

除了技術方面的突破之外,光躍LightSphere X還對國產算力生態(tài)起到了一定的推動作用。

當下,國產GPU類型、架構龐雜,協(xié)議各有區(qū)別,難以形成協(xié)同效應。而光交換本身不依賴于特定的數(shù)據傳輸協(xié)議,這意味著它能無縫兼容不同廠商使用的互連協(xié)議。這有效緩解了開放生態(tài)中缺乏高效Scale-Up交換芯片的現(xiàn)狀,推動了基于光交換的Scale-Up技術路徑。

此外,dOCS芯片基于硅光技術,其設計與制造不依賴于先進半導體工藝節(jié)點,這對提升算力基礎設施供應鏈的安全性與韌性也有較大意義。

三、硅光技術迎來歷史機遇期,5年內硅光芯片占比或將達30%

光躍LightSphere X是曦智科技在AI算力需求大爆發(fā)的當下,對光電混合算力的最新探索,這離不開曦智成立8年多來在硅光技術上的長期投入。該公司擁有光子矩陣計算(oMAC)、片上光網絡(oNOC)和片間光網絡(oNET)三大領域的核心技術,并打造了光子計算和光子網絡兩大產品線。

超節(jié)點迎最佳拍檔!上海獨角獸首創(chuàng)分布式光交換芯片,成果已獲頂會認證

沈亦晨認為,近兩年,硅光技術在國際上的熱度和重視度不斷攀升,可能已經走到歷史上最好的階段。面臨這一歷史機遇期,曦智從兩年前便開始聚焦產品化、商業(yè)化,業(yè)務收入在過去3年內快速增長,今年芯片出貨量已經達到數(shù)萬顆。

放眼未來,曦智科技的高管們一致認為,隨著算力集群和算力需求越來越大,硅光是必然的解決方案。雖然國際上純電互連仍占主導,但華為這一主流廠商已將光互連引入超節(jié)點解決方案,英偉達的下一步也可能是如此。

此外,光互連和光交換技術當前仍屬于系統(tǒng)級方案,通過外接光模組實現(xiàn),通過不斷迭代,未來光互連和光交換器件有望與主芯片實現(xiàn)共封裝,從而進一步提高帶寬和能效。

沈亦晨預測,未來五年,硅光芯片在智算中心的占比有望提升至30%以上。隨著規(guī)?;慨a,硅光芯片成本將成倍下降,推動成本降低到應用普及的正向循環(huán)。

具體來看,他認為光互連有望率先在未來幾年出現(xiàn)指數(shù)級增長;光計算則從大模型推理、AI for Science等追求極致性能的場景切入,逐步擴展通用性。

曦智科技目前擁有一支近250人的團隊,核心成員由來自麻省理工學院的頂尖科學家和擁有豐富半導體行業(yè)經驗的業(yè)界知名人士組成,在上海、杭州、南京、北京、新加坡等地均設有辦公室及實驗室。

自成立以來,曦智科技在產品進展、技術研發(fā)、融資規(guī)模等方面均位居全球光電混合賽道前列。孟懷宇博士透露,曦智在光學芯片、模擬芯片、先進封裝技術等方面都擁有前瞻性的技術儲備。

負責互連產品線的朱劍則稱,曦智有很多先進的技術儲備,但該公司會采取較為務實的態(tài)度,根據市場的發(fā)展階段提供適合的解決方案。

結語:實現(xiàn)從0到千卡突破,光電融合已成行業(yè)大勢

光電混合算力作為一項前沿技術,在落地的時候必然面臨客戶原有技術路徑的慣性問題。沈亦晨透露,直到如今,曦智仍需要花精力“教育市場”,逐步說服廠商采用這一技術。

令人慶幸的是,曦智已在光躍LightSphere X方案上實現(xiàn)了從0到千卡突破,將對光互連超節(jié)點方案的魯棒性和成本效益驗證起到極大的推動作用。

在智東西與曦智的溝通中,我們清楚地感受到其發(fā)展路徑:以光電混合算力技術為支點,逐步撬動算力基礎設施的升級,同時保持對“光替代電”的長期信仰。