芯東西(公眾號(hào):aichip001)
作者 | ?程茜
編輯 |? 漠影

超一個(gè)月訓(xùn)練時(shí)長(zhǎng)、TB/PB級(jí)別的數(shù)據(jù)容量、行業(yè)數(shù)據(jù)的實(shí)時(shí)動(dòng)態(tài)更新……這些模型訓(xùn)練、推理與迭代的核心流程中日益復(fù)雜的需求,都對(duì)數(shù)據(jù)存儲(chǔ)提出了更嚴(yán)苛的要求。

一直以來,算力、數(shù)據(jù)、算法作為驅(qū)動(dòng)大模型發(fā)展的“三駕馬車”已是行業(yè)共識(shí),而如今伴隨大模型的發(fā)展,此前Scaling Law指引下的算力競(jìng)賽是AI發(fā)展的上半場(chǎng),那么以大規(guī)模應(yīng)用為核心的AI落地競(jìng)賽,已然將先進(jìn)存力推至產(chǎn)業(yè)競(jìng)爭(zhēng)的聚光燈下。

在這背后,我們看到了中國(guó)存儲(chǔ)芯片賽道的一匹黑馬——平頭哥半導(dǎo)體的鎮(zhèn)岳510 SSD主控芯片。

先進(jìn)存力站穩(wěn)AI應(yīng)用落地主場(chǎng)!平頭哥鎮(zhèn)岳510以六大特性鎮(zhèn)場(chǎng)

▲平頭哥半導(dǎo)體鎮(zhèn)岳510 SSD主控芯片

鎮(zhèn)岳510的IO處理能力達(dá)到3400K IOPS,數(shù)據(jù)帶寬達(dá)到14GB/s,能效比達(dá)到420K IOPS/Watt,其通過自研LDPC糾錯(cuò)算法與介質(zhì)電壓預(yù)測(cè)算法,誤碼率比業(yè)內(nèi)頭部產(chǎn)品領(lǐng)先1個(gè)數(shù)量級(jí),且擁有4μs時(shí)延,比業(yè)界主流產(chǎn)品降低超30%以上。

具備大容量、低時(shí)延、高能效、高帶寬、高可靠、低成本六大特性的鎮(zhèn)岳510,既是阿里云AI存儲(chǔ)體系的核心底座,更釋放出成為AI產(chǎn)業(yè)存儲(chǔ)能力升級(jí)“芯引擎”的潛力。

一、AI時(shí)代冷熱數(shù)據(jù)邏輯重構(gòu),鎮(zhèn)岳510六大硬指標(biāo)破局

穩(wěn)定、高效、安全的數(shù)據(jù)存儲(chǔ)在大模型時(shí)代至關(guān)重要。

一方面,傳統(tǒng)的冷熱數(shù)據(jù)概念被顛覆,以往因訪問頻率低被稱冷數(shù)據(jù)的信息,現(xiàn)在也可以在大模型場(chǎng)景發(fā)揮作用,大模型的精準(zhǔn)度、泛化能力高度依賴海量、高質(zhì)量且多樣化的數(shù)據(jù)支撐;另一方面,其在訓(xùn)練階段所需的大規(guī)模標(biāo)注數(shù)據(jù)、文本圖像音頻等異構(gòu)數(shù)據(jù)、推理過程中實(shí)時(shí)調(diào)用的動(dòng)態(tài)數(shù)據(jù)、模型優(yōu)化時(shí)依賴的反饋數(shù)據(jù),都需要數(shù)據(jù)存儲(chǔ)體系承載。

可以說,在一定程度上數(shù)據(jù)存儲(chǔ)直接決定了大模型的發(fā)展上限與應(yīng)用價(jià)值

當(dāng)下,千億、萬億級(jí)別參數(shù)規(guī)模的大模型誕生,就意味著其訓(xùn)練過程可能需同時(shí)承載TB級(jí)的模型參數(shù)、PB級(jí)的訓(xùn)練語(yǔ)料及TB級(jí)的中間計(jì)算結(jié)果,還要維持在長(zhǎng)達(dá)數(shù)月訓(xùn)練時(shí)間內(nèi)的系統(tǒng)穩(wěn)定,避免因中途數(shù)據(jù)丟失或損壞導(dǎo)致訓(xùn)練流程中斷。

再加上大模型存儲(chǔ)集群芯片能耗、成本控制,這意味著存儲(chǔ)芯片的核心競(jìng)爭(zhēng)力成為容量、速度、能效、兼容性、可靠性的多維協(xié)同。

而兼具高性能與低成本雙重核心優(yōu)勢(shì)的平頭哥鎮(zhèn)岳510,與大模型時(shí)代數(shù)據(jù)存儲(chǔ)在這些維度的需求高度契合。

為了更為直觀對(duì)比其性能與大模型訓(xùn)練的需求,平頭哥半導(dǎo)體技術(shù)服務(wù)專家楊澤宏舉例說,公開數(shù)據(jù)顯示GPT-3在幾個(gè)月的訓(xùn)練時(shí)間內(nèi),GPU利用率不到40%,其中大部分時(shí)間都在進(jìn)行故障恢復(fù)、數(shù)據(jù)預(yù)處理。這是當(dāng)下大模型訓(xùn)練效率提升的一大難點(diǎn)。

鎮(zhèn)岳510誤碼率低至10?1?,這就意味著讀取一塊32TB的硬盤,一天寫一遍,連續(xù)十年才出一個(gè)無法恢復(fù)的讀錯(cuò)誤。這種高可靠性盡可能地減少了因?yàn)榇鎯?chǔ)出現(xiàn)不可恢復(fù)性錯(cuò)誤導(dǎo)致的模型訓(xùn)練中斷。

平頭哥半導(dǎo)體產(chǎn)品總監(jiān)周冠鋒提到,雖然AI訓(xùn)練、推理集群當(dāng)下的性能瓶頸是算力和算力密度,但存力的重要性也不斷提升,算力的性能和存力能提供的IO性能之間有一定匹配關(guān)系,隨著未來算力密度進(jìn)一步提升、算力規(guī)模擴(kuò)大,必然會(huì)要求存力密度和存力的IO性能隨之提高。鎮(zhèn)岳510擁有最大隨機(jī)讀帶寬3400K IOPS,隨機(jī)寫帶寬2500K IOPS,并率先實(shí)現(xiàn)4μs的超低時(shí)延,比業(yè)界主流降低30%以上。

這種兼具高可靠性與穩(wěn)定性的數(shù)據(jù)存儲(chǔ)系統(tǒng),就使得AI訓(xùn)練集群提高GPU利用率、降低訓(xùn)練成本水到渠成。

二、與阿里云軟硬協(xié)同,為AI場(chǎng)景提供高容量、高性能存力

這些能力的落地,背后是平頭哥清晰的技術(shù)戰(zhàn)略,將發(fā)力點(diǎn)集中在性能提升容量擴(kuò)大兩大方向上,其本質(zhì)就是破解當(dāng)前存儲(chǔ)芯片瓶頸,適配AI場(chǎng)景的核心需求。

首先在性能提升層面,平頭哥看到了兩個(gè)市場(chǎng)機(jī)遇。

其一是市場(chǎng)需求的急迫性,楊澤宏提到,性能在云存儲(chǔ)當(dāng)中有著巨大價(jià)值,特別是高性能緩存可以解決數(shù)據(jù)延遲、數(shù)據(jù)不一致等問題。

其二是傲騰技術(shù)的退出,意味著業(yè)界急需一種能夠解決高性能緩存需求的更優(yōu)方案。

平頭哥瞄準(zhǔn)了pSLC技術(shù),楊澤宏進(jìn)一步透露,他們采用傳統(tǒng)的TLC介質(zhì),通過固件與電壓控制技術(shù)也就是僅施加高低兩種電壓信號(hào),將TLC的單個(gè)存儲(chǔ)單元切換為SLC模擬模式。

這樣一來,可以提升大模型訓(xùn)練前數(shù)據(jù)準(zhǔn)備的效率,因?yàn)槠鋵?duì)數(shù)據(jù)進(jìn)行清洗、格式化、標(biāo)注等操作往往需要全局頻繁隨機(jī)讀寫。

目前,基于鎮(zhèn)岳510的pSLC在阿里云OSS上進(jìn)行灰度試驗(yàn),其實(shí)測(cè)發(fā)現(xiàn),與傲騰相比,基于鎮(zhèn)岳510的pSLC,隨機(jī)讀帶寬可以提升17%,寫帶寬維持和傲騰介質(zhì)相當(dāng)?shù)乃?/span>,相對(duì)于目前主流的TLC SSD+硬盤的混閃模式,pSLC+硬盤的組合可以提供更高的讀寫IOPS。與此同時(shí),鎮(zhèn)岳510還實(shí)現(xiàn)了和傲騰一致的極低寫延時(shí)、近乎無限的寫壽命。

其次是擴(kuò)大存儲(chǔ)容量,平頭哥的策略是前瞻性布局。

楊澤宏解釋說,平頭哥的布局之一是提早規(guī)劃、適配未來5~6年可能出現(xiàn)的更多介質(zhì)。

目前,諸多存儲(chǔ)介質(zhì)廠商提出QLC、OLC和PLC,可以預(yù)見未來芯片單位封裝的容量會(huì)持續(xù)提升,這隨之而來的挑戰(zhàn)就是,如何協(xié)同底層算法優(yōu)化、負(fù)載均衡、充分發(fā)揮大容量介質(zhì)的作用。

在此基礎(chǔ)上,鎮(zhèn)岳510和阿里云協(xié)同探索ZNS(分區(qū)命名空間)+QLC存儲(chǔ)解決方案。

相比于現(xiàn)在業(yè)界主流看好的FDP方案,楊澤宏談道,他們選擇ZNS有兩大原因,一是FDP無法釋放冗余雜質(zhì),二是ZNS可以降低對(duì)DRAM的占用。隨著存儲(chǔ)介質(zhì)迭代,單個(gè)存儲(chǔ)單元需承載更多bit數(shù)據(jù),導(dǎo)致介質(zhì)本身的可靠性下降,為對(duì)沖這一風(fēng)險(xiǎn),介質(zhì)廠商趨向于提供更大OP(預(yù)留空間),而FDP無法釋放OP就使得存儲(chǔ)介質(zhì)的低成本優(yōu)勢(shì)大打折扣。

平頭哥與阿里云正深度協(xié)同合作,積極探索這一解決方案的應(yīng)用。

除了AI,鎮(zhèn)岳510在分布式存儲(chǔ)上同樣展現(xiàn)出強(qiáng)大的競(jìng)爭(zhēng)優(yōu)勢(shì),其為阿里云EBS打造了更優(yōu)的混合讀寫QoS,實(shí)測(cè)的99%時(shí)延表現(xiàn)僅為使用海外兩大主流競(jìng)品時(shí)延的56%和84%

綜合來看,作為平頭哥旗下首款SSD主控芯片,其于2023年11月發(fā)布至今,以阿里云數(shù)據(jù)中心為起點(diǎn),正在更多AI核心場(chǎng)景釋放價(jià)值。

三、大模型驅(qū)動(dòng)存力價(jià)值升級(jí),鎮(zhèn)岳510瞄準(zhǔn)四大進(jìn)階方向

大模型發(fā)展至今,可以肯定的一點(diǎn)是,存力的核心價(jià)值正在被重新定義,其作為AI效能的核心樞紐價(jià)值凸顯。

今年8月,中國(guó)信息通信研究院發(fā)布了《先進(jìn)存力中心研究報(bào)告(2025)》,其中提到我國(guó)數(shù)據(jù)生產(chǎn)量逐年增長(zhǎng),存力建設(shè)略顯滯后,數(shù)據(jù)仍存在“應(yīng)存未存”現(xiàn)象。

據(jù)《全國(guó)數(shù)據(jù)資源調(diào)查報(bào)告》所示,2023年至2024年數(shù)據(jù)年產(chǎn)量增速25%,數(shù)據(jù)存儲(chǔ)總量增速為20.81%,這意味著存力缺口存在,在大模型飛速發(fā)展的同時(shí)持續(xù)強(qiáng)化存力建設(shè)迫在眉睫

一開始就錨定高性能、高可靠性、低成本的鎮(zhèn)岳510,內(nèi)置RISC-V多核CPU,可以提供強(qiáng)大的算力支持,能適應(yīng)AI、數(shù)據(jù)庫(kù)、云計(jì)算等高性能應(yīng)用場(chǎng)景,已經(jīng)站上這一波先進(jìn)存力競(jìng)賽的第一梯隊(duì)。

而這僅僅是AI存力競(jìng)賽的起點(diǎn),AI需求仍在飆漲,正迫切呼喚性能更強(qiáng)、容量更大、SSD容量開銷更低、功耗更優(yōu)的存儲(chǔ)芯片加速誕生。

楊澤宏談道,隨著大模型應(yīng)用大規(guī)模鋪開,其需要降低實(shí)時(shí)推理時(shí)延、支撐更大容量,其必備的兩大指標(biāo)就是高帶寬、大容量,未來或許可以達(dá)到一顆主控芯片實(shí)現(xiàn)PB級(jí)容量。

針對(duì)上文提到的超大OP趨勢(shì),其需要降低內(nèi)部存儲(chǔ)容量開銷,迭代算法優(yōu)化釋放OP,基于片內(nèi)RAID提高數(shù)據(jù)、空間的利用率。

最后是針對(duì)大型AI集群算力帶來的能量損耗,針對(duì)其中數(shù)量較多的核心部件,降低SSD的功耗可以顯著降低整個(gè)數(shù)據(jù)中心能源損耗。

一方面可以通過制程演進(jìn)降低主控芯片本身的功率密度,另一方面可以通過先進(jìn)的電源管理模塊,實(shí)現(xiàn)低功耗模式高效運(yùn)行,同時(shí)讓發(fā)熱量盡可能保持平穩(wěn),制冷系統(tǒng)的功率也相對(duì)平穩(wěn)。

周冠鋒補(bǔ)充說,目前其還在探索針對(duì)更細(xì)分場(chǎng)景優(yōu)化產(chǎn)品特性,例如統(tǒng)一地址尋址、新CXL接口等。

但總的來看,平頭哥鎮(zhèn)岳510在先進(jìn)存力競(jìng)賽上正憑借實(shí)力突圍。

此前AI Infra建設(shè)多以算力規(guī)模為核心指標(biāo),而當(dāng)算力密度不斷增大,與之深度綁定的存力,其重要性也隨之愈發(fā)凸顯,成為不可忽視的關(guān)鍵支撐。

結(jié)語(yǔ):嶄露頭角的平頭哥鎮(zhèn)岳510,還有巨大的想象空間

在大模型驅(qū)動(dòng)的先進(jìn)存力時(shí)代,數(shù)據(jù)的價(jià)值早已超越存儲(chǔ)留存的基礎(chǔ)范疇,單純將數(shù)據(jù)存起來只是滿足了AI運(yùn)轉(zhuǎn)的前提,而通過存儲(chǔ)體系的優(yōu)化讓數(shù)據(jù)被高效利用起來,才是釋放數(shù)據(jù)價(jià)值、撬動(dòng)AI效能的關(guān)鍵。

作為存儲(chǔ)主控芯片賽道的后來者,平頭哥鎮(zhèn)岳510短短幾年已成功通過了阿里云存儲(chǔ)和多家硬盤廠商的檢驗(yàn),這也意味著在存力領(lǐng)域,鎮(zhèn)岳510已經(jīng)拿到了一張門票。當(dāng)然,這只是故事的開端,面向即將爆發(fā)的AI推理市場(chǎng),鎮(zhèn)岳還有巨大的想象空間。