▲頭圖由AI生成

智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影

城市大模型正處于爆發(fā)前夕,數(shù)據(jù)很可能成為一只“攔路虎”。

當(dāng)下,北京、上海、深圳等多地都推出了AI新政策,提出“在城市大腦建設(shè)中應(yīng)用大模型”、“構(gòu)建開放式城市大模型服務(wù)平臺”等明確指示。沉睡的城市數(shù)據(jù)成為大模型的“養(yǎng)料”,同時數(shù)量巨大、種類異構(gòu)等特征也加大了大模型落地的難度

數(shù)據(jù)存儲是數(shù)據(jù)價值挖掘的第一關(guān)口,大模型正倒逼產(chǎn)業(yè)進(jìn)化。過去一年多,包括曙光、華為等基礎(chǔ)設(shè)施龍頭,以及阿里云、騰訊云、百度智能云等云廠商都面向大模型進(jìn)行了數(shù)據(jù)存儲產(chǎn)品優(yōu)化,動輒達(dá)數(shù)倍模型訓(xùn)練效率提升。

曙光存儲運(yùn)營總監(jiān)石靜告訴智東西:“從過去一年多次與客戶的溝通情況來看,大家從早期直接要PB級的存儲容量,到咨詢存儲如何讓GPU發(fā)揮更大效能,到現(xiàn)在則更加關(guān)注契合應(yīng)用需求的變化,這都推動曙光存儲產(chǎn)品不斷進(jìn)化?!?/p>

據(jù)悉,目前,曙光ParaStor分布式存儲產(chǎn)品能將AI整體表現(xiàn)提升20倍,已落地了北京、泉州、中國移動等多個AI智能化項(xiàng)目,并在大模型、具身智能機(jī)器人、自動駕駛、智算中心等各個領(lǐng)域落地,打造了AI大模型應(yīng)用標(biāo)桿案例。

從AI城市體到千行百業(yè),曙光跑出數(shù)字山河間的中國速度

▲曙光ParaStor分布式全閃系列產(chǎn)品

隨著算力、模型的價格降低,數(shù)據(jù)成為AI產(chǎn)業(yè)落地的“牛鼻子”如何挖掘城市中的海量數(shù)據(jù)價值,讓AI助力城市智能化發(fā)展,進(jìn)而滲透到千行百業(yè)?從存儲環(huán)節(jié)來看,整個AI落地的成本壓縮邏輯是什么樣的?

通過對話曙光存儲運(yùn)營總監(jiān)石靜,沿著曙光AI數(shù)據(jù)存儲落地的足跡,我們對這些問題有了深入了解。

一、AI城市大腦進(jìn)化時,向數(shù)據(jù)存儲要成本和效率

當(dāng)下,城市已成為AI落地的第一站,數(shù)據(jù)存儲成為不容忽視的短板環(huán)節(jié)。

北京、上海、廣東等一線城市及省份均發(fā)布了將大模型與城市治理相結(jié)合的相關(guān)政策。比如《北京市推動“人工智能+”行動計劃(2024-2025年)》提出“構(gòu)建開放式城市大模型服務(wù)平臺,打造智慧城市大腦”;《廣東省加快數(shù)字政府領(lǐng)域通用人工智能應(yīng)用工作方案》提出“探索人工智能與城市大腦等場景創(chuàng)新”。各地都在加速推動AI與城市智能化建設(shè)融合發(fā)展,落地城市治理、數(shù)字政務(wù)、智慧交通、智能制造、商業(yè)等各個領(lǐng)域。

從AI城市體到千行百業(yè),曙光跑出數(shù)字山河間的中國速度 從AI城市體到千行百業(yè),曙光跑出數(shù)字山河間的中國速度 從AI城市體到千行百業(yè),曙光跑出數(shù)字山河間的中國速度 從AI城市體到千行百業(yè),曙光跑出數(shù)字山河間的中國速度從AI城市體到千行百業(yè),曙光跑出數(shù)字山河間的中國速度
▲城市智能化領(lǐng)域AI及大模型部分核心政策(智東西梳理)

石靜告訴智東西,在AI時代,城市智能化建設(shè)發(fā)生了較大變化。

此前,“城市大腦”更側(cè)重抓取城市數(shù)據(jù)去做智能分析,現(xiàn)在更主要的是借助大模型去輔助城市決策和管理;此前很多項(xiàng)目用CPU算力就行了,現(xiàn)在則更多考慮異構(gòu)算力,GPU等AI算力占比投入大大提升。

以泉州聯(lián)合曙光推進(jìn)的智慧城市項(xiàng)目為例,項(xiàng)目涉及圖片、語音、視頻等多種業(yè)務(wù)數(shù)據(jù),要將這些數(shù)據(jù)匯聚接入AI大模型,不僅對存儲性能和安全可靠提出更高要求,對異構(gòu)數(shù)據(jù)的納管能力要求也很高。其在方案中兼顧了這些多方面需求,從而實(shí)現(xiàn)城市數(shù)據(jù)快速互聯(lián),支持城市大腦中樞決策。

再以智慧交通場景為例,此前各地主要是將數(shù)據(jù)匯聚后來做簡單分析,現(xiàn)在則是通過交通垂直大模型輔助決策。曙光存儲也跟業(yè)界專門做交通大模型的廠商做了相關(guān)適配,以提供整個城市交通態(tài)勢掌控、更科學(xué)的交通調(diào)配等更多服務(wù)。

在這一過程中,忽略存儲是比較要命的。

石靜說:“算力越來越快,如果存儲跟不上,這很可能導(dǎo)致GPU算力空轉(zhuǎn)或等待,從而使資源效率難以發(fā)揮;如果忽略存儲,一些數(shù)據(jù)質(zhì)量問題的出現(xiàn),也可能導(dǎo)致大模型效果出現(xiàn)偏差?!?/p>

具體來說,當(dāng)下城市智能化進(jìn)程對數(shù)據(jù)存儲提出了以下新要求

1、存儲性能要更極致。只有足夠快的存儲,才能匹配上足夠快的GPU或者AI芯片。2、存儲更加契合用戶業(yè)務(wù)。從通用大模型到行業(yè)生產(chǎn)大模型需要針對性調(diào)優(yōu),要求存儲具有一定的可定制化能力。3、數(shù)據(jù)安全要求更高。大模型訓(xùn)練若出現(xiàn)中斷往往損失慘重,保障數(shù)據(jù)安全可靠尤為關(guān)鍵。4、更強(qiáng)異構(gòu)數(shù)據(jù)的納管能力。面向大模型,非結(jié)構(gòu)化數(shù)據(jù)的采集、匯聚、分析、處理能力提升。

“百模大戰(zhàn)”快速發(fā)展一年,得益于數(shù)據(jù)存儲技術(shù)進(jìn)步,城市智能化項(xiàng)目的計算效率大幅提升

石靜告訴智東西,在帶寬指標(biāo)方面,曙光存儲ParaStor分布式全閃單個節(jié)點(diǎn)已經(jīng)做到最高150GB/s帶寬,也就是一秒鐘可為用戶提供150G的數(shù)據(jù)吞吐,這個指標(biāo)還在快速提升中,早在兩個月前還是130GB/s。

在IOPS指標(biāo)方面,智存ParaStor產(chǎn)品可以提供320萬IOPS/s,也就是一秒鐘可以處理320萬個I/O請求,相較于以前有了十倍以上的提升。而同樣的硬件配置下,當(dāng)前市場主流產(chǎn)品的單節(jié)點(diǎn)帶寬能力普遍在100GB/s以內(nèi),單節(jié)點(diǎn)的IOPS能力基本在200萬以下。

從AI城市體到千行百業(yè),曙光跑出數(shù)字山河間的中國速度

▲曙光ParaStor分布式全閃在相關(guān)指標(biāo)情況

二、從城市體到千行百業(yè),數(shù)據(jù)成AI落地的“牛鼻子”

眾所周知,AI大模型落地,受到算力、算法和數(shù)據(jù)“三駕馬車”牽引。

石靜談道,在前期大家更多關(guān)心模型、算力如何,但隨著AI的發(fā)展,數(shù)據(jù)應(yīng)該排到更靠前的位置。大模型能否很好地指導(dǎo)各行各業(yè)的發(fā)展?存儲所承載的數(shù)據(jù)質(zhì)量非常關(guān)鍵。

今年1月4日,國家數(shù)據(jù)局等17部門聯(lián)合印發(fā)《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》(簡稱:行動計劃),提出選取工業(yè)制造、現(xiàn)代農(nóng)業(yè)、商貿(mào)流通、交通運(yùn)輸、金融服務(wù)等12個行業(yè)和領(lǐng)域,推動發(fā)揮數(shù)據(jù)要素乘數(shù)效應(yīng),釋放數(shù)據(jù)要素價值。

從城市到千行百業(yè),新一代智存技術(shù)已經(jīng)在促進(jìn)“數(shù)據(jù)要素x”發(fā)展。

在熱門的具身智能領(lǐng)域,“天才少年”稚輝君創(chuàng)辦的智元機(jī)器人剛剛在8月發(fā)布了第一代具身智能機(jī)器人遠(yuǎn)征A1,號稱達(dá)200TOPS算力?;谑锕釶araStor分布式全閃存儲提供與算力匹配的高性能存儲池,智元機(jī)器人在大模型訓(xùn)練中實(shí)現(xiàn)了存儲的低延時、高IO吞吐,從而釋放了強(qiáng)大的AI算力

在自動駕駛領(lǐng)域,國內(nèi)知名造車新勢力通過模型模擬仿真,加速新車型從量產(chǎn)走向市場,曙光在2022~2024年連續(xù)為其提供超百PB的存儲資源,包括通過NVMe全閃產(chǎn)品提供單節(jié)點(diǎn)45GB/s帶寬和百萬級IOPS,最大化提升自動駕駛模型訓(xùn)練效率;3天內(nèi)幫助用戶從幾十個節(jié)點(diǎn)擴(kuò)展到200+節(jié)點(diǎn),應(yīng)對擴(kuò)展中的數(shù)據(jù)挑戰(zhàn);存儲負(fù)載率長期維持在85%以上,保障數(shù)據(jù)的完整性和可靠性。

在智算中心領(lǐng)域中國移動在2022年啟動了全球運(yùn)營商最大單體智算中心,針對中心所需的海量非結(jié)構(gòu)化數(shù)據(jù)承載、多協(xié)議互融等存儲需求,曙光ParaStor滿足了其對存儲靈活性的需求,順暢完成全局統(tǒng)一調(diào)度與管理,為項(xiàng)目未來超大規(guī)模模型跨地域、多中心并行訓(xùn)練提供了存力保障。

而聚焦AI大模型生產(chǎn)本身,曙光ParaStor分布式全閃存儲支持某AI大模型廠商億級文件數(shù)據(jù)訓(xùn)練及推理,相比原系統(tǒng)提效50%,最終相隔兩月內(nèi)即發(fā)布上線大模型新版本;支持某科技大模型廠商整體訓(xùn)練效率提升50%以上。

可以看到,從城市體到千行百業(yè)都在加速智能化,當(dāng)模型和算力價格降低,數(shù)據(jù)正成為AI落地新的“牛鼻子”。

從AI城市體到千行百業(yè),曙光跑出數(shù)字山河間的中國速度

▲曙光存儲產(chǎn)品全家福

三、強(qiáng)者恒存,曙光存儲跑出中國AI加速度

AI大模型飛速發(fā)展,也反過來倒逼存儲產(chǎn)業(yè)升級。

在過去一年多時間里,包括曙光、華為等基礎(chǔ)設(shè)施龍頭企業(yè),以及阿里云、騰訊云、百度智能云等云廠商,都針對AI大模型研發(fā)與落地的全流程,對存儲產(chǎn)品進(jìn)行了性能優(yōu)化。各大廠商的存儲產(chǎn)品的優(yōu)化方向具有一致性,都強(qiáng)調(diào)高性能、多協(xié)議、可定制、高安全等提升。

其中,作為深耕AI存儲多年的頭部玩家,曙光ParaStor分布式全閃存儲將AI整體表現(xiàn)提升了超20倍。這是如何實(shí)現(xiàn)的?

石靜告訴智東西,曙光是從兩大核心去解決的,可以總結(jié)成:最強(qiáng)的數(shù)據(jù)底座、最佳的AI應(yīng)用加速套件

在數(shù)據(jù)底座方面,存儲就是要去發(fā)揮極致的硬件性能,軟件要把CPU、內(nèi)存、網(wǎng)絡(luò)和硬盤介質(zhì)的性能發(fā)揮出來。在AI方面,現(xiàn)在大家都在通過高速網(wǎng)絡(luò),加上NVMe SSD閃存介質(zhì)去實(shí)現(xiàn),存儲軟件把高速網(wǎng)絡(luò)跟NVMe介質(zhì)的協(xié)同發(fā)揮出來,實(shí)現(xiàn)最高性能。

在AI應(yīng)用加速套件方面,這需要結(jié)合AI方向特殊的一些應(yīng)用模式做優(yōu)化。曙光有五大加速技術(shù)方案,能夠通過分析AI整個的流程去盡量縮短整個I/O流程,讓GPU更加靠近存儲,或者說讓存儲更加靠近于顯存。

從AI城市體到千行百業(yè),曙光跑出數(shù)字山河間的中國速度

▲曙光AI應(yīng)用加速套件五級加速

具體展開這五級加速,覆蓋了數(shù)據(jù)流動到GPU服務(wù)器、網(wǎng)絡(luò)和存儲的整個階段:

1、本地內(nèi)存加速。首先把計算節(jié)點(diǎn)本身的CPU對應(yīng)內(nèi)存利用起來,將一些關(guān)鍵的數(shù)據(jù)緩存在那里,做第一層加速層,延時降至納秒級別。

2、BurstBuffer加速層。進(jìn)一步把GPU服務(wù)器本地的NVMe盤利用起來,它相較本地內(nèi)存容量大很多,把這些數(shù)據(jù)緩存起來以后,就能夠保證海量數(shù)據(jù)不用跨網(wǎng)絡(luò)訪問存儲,把讀取性能提高幾倍甚至十倍以上。本地內(nèi)存加速和BurstBuffer都是聚焦計算節(jié)點(diǎn)本身。

3、XDS雙棧兼容,減少CPU中斷。讓GPU去直通訪問存儲,縮短整個I/O通路;不光實(shí)現(xiàn)GPU跟存儲的直接交互,還通過存儲技術(shù)讓AI智能芯片跟存儲直接打交道,從而減少CPU本身的損耗,降低延時。

4、網(wǎng)絡(luò)加速(RDMA-Based)。在網(wǎng)絡(luò)層,用RDMA技術(shù)等技術(shù),不管是IB網(wǎng)絡(luò)還是在以太網(wǎng)里,RDMA或RoCE都能夠把網(wǎng)絡(luò)帶寬給跑滿,實(shí)現(xiàn)第三層加速。

5、存儲節(jié)點(diǎn)高速層( NVMe SSD-Based )。最后是存儲本身,當(dāng)下在AI應(yīng)用最多的主要是NVMe全閃存,把全閃存本身的性能充分發(fā)揮出來。

深耕存儲領(lǐng)域20年,曙光不僅在技術(shù)進(jìn)化方面緊跟市場需求發(fā)展,還不斷推進(jìn)存儲產(chǎn)業(yè)開放生態(tài)建設(shè)。

石靜稱,目前,曙光存儲在國產(chǎn)和非國產(chǎn)硬件上都充分開放,通過軟硬件一體形態(tài)支持客戶搭建數(shù)據(jù)底座;存儲與多種前端應(yīng)用計算節(jié)點(diǎn)平臺兼容,支持國內(nèi)外AI芯片直通存儲;存儲兼容更多AI應(yīng)用,通過智能I/O分析工具輔助其存儲更好地契合應(yīng)用,做到應(yīng)用開放。

強(qiáng)者恒存,曙光正跑出中國AI的加速度。

可以看到,大模型發(fā)展不僅推動國產(chǎn)存儲廠家不斷實(shí)現(xiàn)技術(shù)突破,還以更加開放的心態(tài)推動軟硬件兼容、計算平臺兼容及應(yīng)用兼容,從而強(qiáng)化AI落地。

結(jié)語:從曙光的AI足跡,看到數(shù)字山河間的中國速度

隨著大模型落地各行各業(yè),加速已成為AI數(shù)據(jù)存儲的核心需求。從曙光城市智能化到各行各業(yè)的AI落地案例來看,其存儲方案通過縮短數(shù)據(jù)讀寫時間,大大提升了AI大模型的訓(xùn)練效率,減少算力的空轉(zhuǎn)等待時間,從而降低AI成本。

20年篳路藍(lán)縷,曙光存儲伴隨著中國信息化、數(shù)字化和智能化轉(zhuǎn)型一路發(fā)展。當(dāng)下,大模型成為全球科技競賽的主賽場,以曙光為代表的國產(chǎn)ICT龍頭正通過更精尖的技術(shù)、更貼近場景的服務(wù)、更開放的生態(tài)助力國內(nèi)大模型產(chǎn)業(yè)發(fā)展,跑出數(shù)字山河間的中國速度。