智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 心緣

智東西1月15日報道,今天,國內(nèi)軟件定義存儲廠商XSKY(星辰天合)推出了專為AI場景打造的全棧AI數(shù)據(jù)方案AIMesh,其中包含MeshFS、MeshSpace、MeshFusion三大產(chǎn)品,分別針對制約AI效率的IO墻、數(shù)據(jù)重力墻和內(nèi)存墻。

XSKY CEO兼聯(lián)合創(chuàng)始人胥昕認為,大模型時代,算法同質(zhì)化趨勢愈發(fā)明顯,真正的差異化競爭優(yōu)勢是企業(yè)自身的專有數(shù)據(jù)。

XSKY發(fā)布AIMesh,想幫AI工廠打通數(shù)據(jù)“任督二脈”

企業(yè)不僅需要高速的存儲,也需要一個私有化、安全、可控的AI數(shù)據(jù)底座。XSKY想做的就是讓私有數(shù)據(jù)在企業(yè)內(nèi)部安全地轉(zhuǎn)化為智能。

XSKY還宣布其戰(zhàn)略重心從“信息技術(shù)(IT)”全面轉(zhuǎn)變?yōu)椤皵?shù)據(jù)智能(Data Intelligence)”,希望打造中立、解耦的“數(shù)據(jù)常青”底座,幫助企業(yè)構(gòu)建高效、可控的AI工廠。

一、AI效率撞上三堵墻,AIMesh可實現(xiàn)帶寬、讀寫性能大幅提升

胥昕稱,過去?年,我們處于信息技術(shù)時代,數(shù)據(jù)中?是?座嚴謹?shù)膱D書館,價值在于“存得進、找得到”。但現(xiàn)在,我們進?了數(shù)據(jù)智能時代,數(shù)據(jù)的價值,正在從“被檢索”進化為“被計算”。

然而,傳統(tǒng)的存儲架構(gòu)已經(jīng)無法支撐AI時代的需求。AI效率撞上了“三堵墻”,在?量訓(xùn)練與數(shù)據(jù)?程場景中,GPU利?率被I/O等待拉低到30?50%,極端情況下更低。

“IO墻”的出現(xiàn),是由于算力吞吐速度遠大于存儲讀寫速度,導(dǎo)致計算單元空轉(zhuǎn)。

“內(nèi)存墻”指的是模型參數(shù)量的爆發(fā)式增長,受限于顯存容量的物理限制?!爸亓Α敝傅氖菙?shù)據(jù)體量幾何級數(shù)增長,造成跨域流動成本高企,形成新的數(shù)據(jù)孤島。

AIMesh是XSKY為AI場景打造的全棧AI數(shù)據(jù)方案,旨在幫助企業(yè)突破上述“三堵墻”。其定位為面向“AI工廠”的數(shù)據(jù)與內(nèi)存網(wǎng),由三大組件構(gòu)成:訓(xùn)練數(shù)據(jù)網(wǎng)MeshFS、全局對象網(wǎng)MeshSpace、推理內(nèi)存網(wǎng)MeshFusion。

XSKY發(fā)布AIMesh,想幫AI工廠打通數(shù)據(jù)“任督二脈”

1、訓(xùn)練數(shù)據(jù)網(wǎng)MeshFS

MeshFS是面向AI訓(xùn)練場景的并行文件系統(tǒng),擁有全協(xié)議兼容、線性性能與企業(yè)級智能分層能力,能把訓(xùn)練數(shù)據(jù)快速供給GPU,緩解I/O等待導(dǎo)致的算力浪費問題。

實測數(shù)據(jù)顯示,MeshFS在順序讀帶寬上比行業(yè)通用方案提升30%,順序?qū)憥挸?0%。

XSKY發(fā)布AIMesh,想幫AI工廠打通數(shù)據(jù)“任督二脈”

2、全局對象網(wǎng)MeshSpace

MeshSpace是面向EB級數(shù)據(jù)的全局非結(jié)構(gòu)化數(shù)據(jù)平臺。通過統(tǒng)一的全局命名空間,MeshSpace實現(xiàn)了跨地域、跨異構(gòu)存儲的數(shù)據(jù)流動與統(tǒng)一納管。

升級后的XScale引擎實現(xiàn)了單桶百萬OPS的效果,單個對象存儲桶每秒支持高達一百萬對象寫入,大塊寫性能提升近50%,延遲降低30%。

XSKY發(fā)布AIMesh,想幫AI工廠打通數(shù)據(jù)“任督二脈”

3、推理內(nèi)存網(wǎng)MeshFusion

MeshFusion是面向KVCache的“持久化內(nèi)存”方案。它將服務(wù)器本地NVMeSSD轉(zhuǎn)化為L3級外部內(nèi)存,硬件成本僅為傳統(tǒng)方案的1%,可實現(xiàn)近乎無限的上下文窗口。

實測顯示,其與純DRAM的性能差距控制在10%以內(nèi),高并發(fā)場景下吞吐量線性增長,資源受限狀態(tài)下能實現(xiàn)20%的性能反超,大幅降低AI推理硬件投入成本。

二、堅持不綁定任何算力和云環(huán)境,與MiniMax、英特爾、ZStack均有合作

胥昕透露,近3年,星辰天合實現(xiàn)了超過50%的增長,全閃存占比達到了35%,擁有280個10PB級以上的超級集群,并突破了單機群百PB的技術(shù)?檻。

由于架構(gòu)、算法的不斷變遷,今天的頂流大模型明天可能就被顛覆。XSKY給出的解決方案是“堅持開放解耦,做絕對中?的數(shù)據(jù)底座”。

AIMesh的設(shè)計采取了中立原則。胥昕稱,XSKY不綁定任何算力和云環(huán)境,?論選擇英偉達、昇騰、寒武紀、摩爾線程、沐曦等算力,?論是在私有云還是混合云,AIMesh都能提供統(tǒng)?、標(biāo)準的數(shù)據(jù)服務(wù)。

胥昕認為算力的摩爾定律正在失效,而數(shù)據(jù)的價值定律正在生效。每一代新硬件的生命周期可能只有3到5年,但數(shù)據(jù)資產(chǎn)要存續(xù)10年甚至20年。他們希望?確定性的數(shù)據(jù)能?,去對抗不確定性的技術(shù)變?,這就是XSKY定義的主題?數(shù)據(jù)常?。

XSKY的產(chǎn)品在多家頭部客戶與行業(yè)巨頭的業(yè)務(wù)中獲得驗證。

上海大模型廠商MiniMax的PB級核心訓(xùn)練數(shù)據(jù)與推理模型數(shù)據(jù),一直穩(wěn)定運行在XSKY平臺上。MiniMax認為MeshSpace的全局命名空間,可為混合云“數(shù)據(jù)孤島”問題提供解決方案,MeshFS的高吞吐低延遲也將進一步保障訓(xùn)練效率。

英特爾與XSKY的合作已經(jīng)超過10年。XSKY曾與英特爾進行技術(shù)共創(chuàng),入選英特爾精選解決方案,并成為英特爾CPU新品首發(fā)伙伴。

XSKY的MeshFS針對英特爾至強處理器指令集深度優(yōu)化,MeshFusion則利用了NVMe SSD。這些方案實現(xiàn)了“軟硬協(xié)同”的效果,雙方還在聯(lián)合預(yù)研基于CXL技術(shù)的內(nèi)存池化方案。

云基礎(chǔ)軟件提供商ZStack(云軸科技)在云計算時代就開始與XSKY合作。ZStack正在構(gòu)建新一代智算平臺,其AIOS產(chǎn)品與XSKY的AIMesh設(shè)計高度契合。

結(jié)語:AI驅(qū)動的存儲市場愈發(fā)龐大

隨著大模型不斷演進,其背后的數(shù)據(jù)規(guī)模與處理復(fù)雜度迅速攀升,存儲系統(tǒng)已成為AI計算的關(guān)鍵參與者。黃仁勛預(yù)測,由AI驅(qū)動的存儲市場“未來很可能成為全球最大的存儲市場”。

目前,XSKY的產(chǎn)品已經(jīng)應(yīng)用于3000多家客戶,并在金融生產(chǎn)系統(tǒng)、運營商海量并發(fā)場景、自動駕駛算力中心等對性能和可靠性要求較高的領(lǐng)域?qū)崿F(xiàn)規(guī)?;涞?。