芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西2月11日報道,2月10日,思科推出3nm交換芯片Silicon One G300,單設(shè)備可提供102.4Tbps的以太網(wǎng)交換容量,專為AI集群網(wǎng)絡(luò)而優(yōu)化。

思科將Silicon One G300稱作“Agent時代的網(wǎng)絡(luò)基礎(chǔ)”。

G300支持1.6T以太網(wǎng)端口,并集成思科自研200Gbps片上SerDes,可實現(xiàn)低功耗、高性能和更遠的傳輸距離。它具有高達512個端口的高擴展性,能構(gòu)建更“扁平化”的網(wǎng)絡(luò),并將更多計算資源連接到網(wǎng)絡(luò)邊緣附近。

這使得運營商能夠在物理距離上更近的地方連接更多GPU,從而降低延遲、簡化網(wǎng)絡(luò),并最大限度地提高AI訓練和推理工作負載的效率。

思科Silicon One G300將為全新思科N9000思科8000系統(tǒng)提供動力。該系統(tǒng)具有創(chuàng)新的液冷功能,并支持高密度光學器件,以實現(xiàn)新的效率基準,并確??蛻舫浞掷肎PU投資。

G300軟件開發(fā)工具包(SDK)現(xiàn)已發(fā)布。首批系統(tǒng)計劃在2026年下半年推出。

思科通過兩大戰(zhàn)略支柱——智能集體網(wǎng)絡(luò)面向未來的基礎(chǔ)設(shè)施,來優(yōu)化TCO,并提高網(wǎng)絡(luò)集群的盈利能力。

一、智能集體網(wǎng)絡(luò):有效吸收突發(fā)AI流量,防止數(shù)據(jù)包丟失

Silicon One G300引入一系列智能集體網(wǎng)絡(luò)功能,旨在為大規(guī)模GPU集群提供更高的性能和可靠性:

(1)完全共享的數(shù)據(jù)包緩沖區(qū):將252MB的數(shù)據(jù)包緩沖區(qū)直接嵌入芯片,允許來自任何端口的數(shù)據(jù)包占用任何可用空間。這種擴展容量可提供比業(yè)界其他方案高出2.5倍的突發(fā)流量吸收能力,有效吸收突發(fā)的AI流量,防止性能下降,并確保網(wǎng)絡(luò)始終以最佳狀態(tài)運行。

(2)基于路徑的負載均衡:此功能可將流量定向到所有可能的網(wǎng)絡(luò)路徑,并以比軟件調(diào)優(yōu)快10萬倍的速度,通過硬件對瞬時擁塞事件或網(wǎng)絡(luò)故障做出響應(yīng)。這種路徑選擇自動化無需手動優(yōu)化,可以提高GPU密度,并確保即使流量模式實時變化,網(wǎng)絡(luò)也能保持最佳狀態(tài)。

(3)主動式網(wǎng)絡(luò)遙測:Silicon One G300提供豐富的可編程會話級診斷功能。這種可視性有助于客戶主動識別和解決網(wǎng)絡(luò)故障以及優(yōu)化機會。

智能集體網(wǎng)絡(luò)可帶來可衡量的效益。在模擬中,與非優(yōu)化路徑選擇相比,更大的數(shù)據(jù)包緩沖區(qū)使網(wǎng)絡(luò)吞吐量提高了33%。這使得在無需增加網(wǎng)絡(luò)容量、構(gòu)建更大網(wǎng)絡(luò)或添加更多交換機的情況下,即可支持更高的GPU互連流量,從而降低了每個已部署GPU的資本支出。

此外,模擬結(jié)果表明,與高級數(shù)據(jù)包噴射實現(xiàn)相比,作業(yè)完成時間(JCT)減少了28%,顯著提高了AI計算效率,使AI數(shù)據(jù)中心每GPU小時產(chǎn)生更多的token。

最后,通過將遙測和可視化功能直接集成到交換機中,運行時所需的軟件干預極少。網(wǎng)絡(luò)可以無縫處理不同的工作負載,無需重新配置或重新優(yōu)化。

二、面向未來的基礎(chǔ)設(shè)施:高度可編程,無需更換硬件就能升級

部署新的數(shù)據(jù)中心設(shè)備是一項重大的財務(wù)和運營挑戰(zhàn)。以往,部署具有高級功能的新硬件迫使網(wǎng)絡(luò)運營商做出艱難的選擇:要么將新設(shè)備的功能降級到“最低標準”,要么承擔強制淘汰舊設(shè)備的成本。

Silicon One通過自適應(yīng)分組處理技術(shù)打破了這一循環(huán)。G300只是Silicon One最新一款采用P4可編程技術(shù)的芯片,具有高度可編程性,靈活性高,使運營商能夠在不更換硬件的情況下升級基礎(chǔ)設(shè)施。

這種可編程性有兩個主要優(yōu)點:

(1)一種硬件設(shè)計可以針對多種角色進行優(yōu)化。Silicon One G300可用于后端、前端以及跨數(shù)據(jù)中心的分散式擴展應(yīng)用。其結(jié)果是減少了硬件SKU,簡化了庫存管理,并降低了總體開發(fā)成本。

(2)新功能可在部署后推出。這改變了以往每個周期都購買新設(shè)備的模式,轉(zhuǎn)而擴展現(xiàn)有基礎(chǔ)設(shè)施,同時確?;旌鲜来渴鸬囊恢滦?。

這使得基于Silicon One的產(chǎn)品能夠支持新興的用例,并發(fā)揮多種網(wǎng)絡(luò)作用,保護長期基礎(chǔ)設(shè)施投資。通過將安全性融合到硬件中,客戶可以采用全面、高速的安全性來保持群集的正常運行。

三、面向AI工作負載的極端功率和熱需求,推出全新以太網(wǎng)系統(tǒng)

為了使各種規(guī)模的AI網(wǎng)絡(luò)構(gòu)建器(超大規(guī)模到企業(yè))能夠?qū)崿F(xiàn),思科宣布擴展Silicon One P200產(chǎn)品組合,推出全新思科8000N9000固定式和模塊化以太網(wǎng)系統(tǒng),并提供靈活的操作系統(tǒng)支持。

Silicon One P200解決方案基于Silicon One架構(gòu),可為數(shù)據(jù)中心互連(DCI)、通用脊交換機以及核心和對等路由等全新應(yīng)用場景提供支持。

思科N9000思科8000 102.4T系統(tǒng)由Silicon One G300提供支持,通過液冷和風冷設(shè)計,提供更出色的數(shù)據(jù)中心性能和效率。100%液冷系統(tǒng)可顯著提高帶寬密度,并實現(xiàn)近70%的能效提升,在單個系統(tǒng)中提供與以前需要6個上一代系統(tǒng)相同的帶寬。

思科還在推出創(chuàng)新的光學器件,以釋放更高的效率和更高的可靠性。

1.6T OSFP(八通道小型可插拔)光學提供針對1.6T交換機到NIC鏈路和1.6T、800G、400G或200G交換機到服務(wù)器鏈路的AI擴展解決方案的超高帶寬連接,為客戶提供高性能和可靠性。

800G線性可插拔光學器件(LPO)提高AI擴展網(wǎng)絡(luò)的效率,與重定時光學模塊相比,LPO將光學模塊的功耗降低了50%

有了支持LPO的新N9000和8000系統(tǒng),客戶可將整體開關(guān)功率降低30%,從而實現(xiàn)更可靠和可持續(xù)的運營。

思科還推出了新的28.8T模塊化線卡。這種P200驅(qū)動產(chǎn)品的擴展,結(jié)合思科800G ZR/ZR+相干可插拔光學器件,使客戶能夠在其網(wǎng)絡(luò)中跨多個角色部署通用架構(gòu)。

該公司正在通過統(tǒng)一的管理平臺優(yōu)化Nexus One。該平面將硅、系統(tǒng)、光學、軟件和可編程智能作為一個單一的集成解決方案,使企業(yè)更容易運營其AI網(wǎng)絡(luò)。

思科還通過AI Canvas引入AgenticOps,用于數(shù)據(jù)中心聯(lián)網(wǎng),通過引導式、人際對話,使故障排除更容易,將復雜問題轉(zhuǎn)化為可操作的解決方案。

結(jié)語:推動數(shù)據(jù)中心AI網(wǎng)絡(luò)的前沿

AI熱潮正面臨一個新挑戰(zhàn):大規(guī)模并行AI計算并不適合在“混搭”的網(wǎng)絡(luò)設(shè)備上運行。由于需要進行大量的互操作性測試,以及新部署的系統(tǒng)可能被迫回退到舊版功能,運營商正在承擔新的隱性成本。

對此,思科正在采用包括Silicon One G300在內(nèi)的多代AI網(wǎng)絡(luò)方法,優(yōu)先考慮網(wǎng)絡(luò)效率,并大規(guī)模降低AI部署的總擁有成本(TCO)。其靈活且集成的方法,可以實現(xiàn)更多的選擇、更強的安全性和更深的可觀察性,從而支持更多客戶轉(zhuǎn)向AI驅(qū)動的工作負載。