智東西(公眾號:zhidxcom
作者 | 香草
編輯 | 李水青

智東西4月8日報道,今日,騰訊云宣布云存儲解決方案面向AIGC(生成式AI)場景全面升級,針對AI大模型數(shù)據(jù)采集清洗、訓練、推理、數(shù)據(jù)治理全流程,提供全面高效的云存儲支持。數(shù)據(jù)顯示,采用騰訊云AIGC云存儲解決方案,可將大模型的數(shù)據(jù)清洗和訓練效率均提升一倍,需要的時間縮短一半。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲騰訊云存儲AIGC解決方案升級

據(jù)騰訊云存儲總經(jīng)理馬文霜介紹,騰訊云AIGC云存儲解決方案主要由對象存儲COS、高性能并行文件存儲CFS Turbo、數(shù)據(jù)加速器GooseFS和數(shù)據(jù)萬象CI等產(chǎn)品組成,是國內(nèi)首個實現(xiàn)存儲引擎全面自研的云存儲解決方案。目前,已經(jīng)有80%的頭部大模型企業(yè)選擇了騰訊云AIGC云存儲解決方案,包括百川智能、智譜AI、元象等。

此前,騰訊云已經(jīng)面向AIGC場景推出了基于星脈網(wǎng)絡的大模型訓練集群HCC、向量數(shù)據(jù)庫、以及行業(yè)大模型服務MaaS等大模型全鏈路云服務。馬文霜強調(diào),本次存儲方案“升級不加價”,價格方面沒有任何變化。

一、實現(xiàn)秒級Checkpoint寫入,端到端一條龍服務

大模型的研發(fā)生產(chǎn)流程,分為數(shù)據(jù)采集與清洗、模型訓練、推理三大環(huán)節(jié),其中每個環(huán)節(jié)都涉及海量的數(shù)據(jù)處理。尤其是目前大模型的參數(shù)量越“卷”越大,從十億、百億一直到萬億級,這對云基礎設施提出了新要求。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲大模型對云基礎設施提出新要求

對此,騰訊云從每個環(huán)節(jié)分別入手,面向AIGC場景推出覆蓋全鏈路的端到端解決方案升級,實現(xiàn)了低延時、高OPS(每秒操作數(shù))。

在數(shù)據(jù)采集環(huán)節(jié),騰訊云COS(對象存儲)支持單集群管理百EB級別存儲規(guī)模,提供便捷、高效的數(shù)據(jù)公網(wǎng)接入能力,并支持多種協(xié)議,充分支持大模型PB級別的海量數(shù)據(jù)采集。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲騰訊云全自研對象存儲引擎

同時,隨著訓練數(shù)據(jù)和推理數(shù)據(jù)的增長,需要低成本的存儲能力以減少存儲開銷。對象存儲服務提供了12個9的數(shù)據(jù)持久性和99.995%的數(shù)據(jù)可用性,能夠為業(yè)務提供持續(xù)可用的存儲服務。

在數(shù)據(jù)清洗環(huán)節(jié),大數(shù)據(jù)引擎需要快速地讀取并過濾出有效數(shù)據(jù),COS通過自研數(shù)據(jù)加速器GooseFS提升數(shù)據(jù)訪問性能,可實現(xiàn)高達數(shù)TBps的讀取帶寬,單次清洗任務耗時減少一半,單個文件讀取速度提升10倍。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲騰訊云自研數(shù)據(jù)加速服務

在模型訓練環(huán)節(jié),由于大模型訓練時間一般長達數(shù)周甚至數(shù)月,在這期間,任何GPU出現(xiàn)故障都會導致訓練終止,通常需要每2-4小時保存一次訓練成果,以便能在GPU故障時時能回滾。因此,快速讀寫Checkpoint(檢查點)文件也成了能否高效利用算力資源、提高訓練效率的關鍵。

騰訊云自主研發(fā)并行文件存儲CFS Turbo,面向AIGC訓練場景的進行了專門優(yōu)化,每秒總讀寫吞吐達到TiB/s級別,每秒元數(shù)據(jù)性能高達百萬OPS,均為業(yè)界第一。面向3TB規(guī)模的Checkpoint,寫入時間從10分鐘縮短至10秒內(nèi),樣本讀取效率也提升50%。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲騰訊云自研并行文件存儲CFS Turbo

這一能力的背后,是騰訊云自研的文件存儲引擎Histor,這也是業(yè)內(nèi)唯一云原生自研并行文件存儲引擎,其單客戶端能力達10GiB/s,支持百萬計OPS、千億級文件擴展。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲騰訊云自研文件存儲引擎Histor

在數(shù)據(jù)審核階段,大模型推理場景對數(shù)據(jù)安全與可追溯性提出更高要求。騰訊云一站式內(nèi)容智理平臺數(shù)據(jù)萬象CI推出圖片隱式水印、AIGC內(nèi)容審核、智能數(shù)據(jù)檢索MetaInsight等功能,為數(shù)據(jù)生產(chǎn)業(yè)務全流程提供有力支撐。

其中,明暗水印為每個AI作品生成專屬ID,MetaInsight支持跨模態(tài)檢索,可文搜圖、文搜視頻、圖搜視頻等,內(nèi)容審核延時降低50%,支持全媒體類型。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲騰訊云一站式內(nèi)容智理平臺數(shù)據(jù)萬象

馬文霜透露,目前國內(nèi)80%的頭部大模型企業(yè)都在用騰訊云存儲服務,包括百川智能、智譜AI、元象、右腦科技等。

騰訊云智能存儲產(chǎn)品總監(jiān)葉嘉梁為我們演示了MetaInsight的智能檢索功能,如輸入一張紅裙舞者照片,右邊可以在對象存儲直接找到對應的圖片。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲MetaInsight智能檢索

通過自然語言輸入,MetaInsight同樣能在對象存儲空間中輸出符合描述的圖片。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲MetaInsight智能檢索

二、存儲引擎全面自研,四大核心技術實現(xiàn)高性能文件讀寫

騰訊云文件存儲總監(jiān)陸志剛解讀了并行文件存儲CFS Turbo的技術升級。據(jù)稱,這是國內(nèi)目前唯一實現(xiàn)存儲引擎全面自研的云存儲解決方案。

CFS Turbo擁有四大核心技術,分別是并行客戶端、智能緩存技術、自適應條帶化以及分布式元數(shù)據(jù)。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲AIGC時代下的文件存儲技術要素

并行客戶端支持一個客戶端同時和多個服務端通過多條鏈路傳輸,提升訪問速率。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲CFS Turbo總體架構

智能緩存技術在客戶端和服務端兩級采用分布式緩存,元數(shù)據(jù)和數(shù)據(jù)之間采用獨立緩存機制,讀寫操作可分別配置,讀緩存加速重復數(shù)據(jù)的讀取,寫緩存提升Checkpoint的保存速度。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲分布式緩存

自適應條帶化通過智能分片,把大文件切割成小文件同時并發(fā)寫入,提升吞吐,單文件讀寫吞吐可達5GB/s,集群讀寫吞吐線性增長,1PB容量規(guī)模可達1TB/s讀寫吞吐,單客戶端文件讀寫性能達10GB/s。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲文件動態(tài)條帶化

分布式元數(shù)據(jù)對上億級別文件目錄分散處理,提升并發(fā)性能。傳統(tǒng)元數(shù)據(jù)服務器是樹型,受單點制約,而業(yè)內(nèi)普遍的解決方式是采用聯(lián)邦式,但仍需要提前規(guī)劃文件和目錄分配。CFS Turbo采取的分布式,能使元數(shù)據(jù)性能線性擴展至十多倍,文件和目錄自動均衡分配。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲分布式元數(shù)據(jù)

在這些技術的支撐下,騰訊云CFS Turbo能提供業(yè)界第一的TiB/s級別總讀寫吞吐和百萬OPS的每秒元數(shù)據(jù)性能,解決訓練文件讀寫瓶頸。以3TB大小的Checkpoint為例,寫入能從10分鐘瞬間縮短至10秒內(nèi)。在GPU發(fā)生故障時,能大幅降低對訓練時長的影響。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲Checkpoint寫入效果

此外在數(shù)據(jù)推理階段,CFS Turbo可實現(xiàn)字節(jié)粒度強一致,在模型發(fā)布或修改時,多客戶端可同時讀寫同意模型文件,保證數(shù)據(jù)一致性。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業(yè)

▲字節(jié)粒度強一致

基于自研分布式高性能存儲引擎Histor,CFS Turbo底層通過自研用戶態(tài)協(xié)議棧和RDMA等技術,減少數(shù)據(jù)的多次拷貝與虛擬化消耗,大幅降低了存儲時延、提升吞吐性能;在應用側,CFS Turbo自研并行文件傳輸協(xié)議,實現(xiàn)了多鏈路并行訪問,大大提升了吞吐效率。

除了大模型企業(yè)以外,CFS Turbo也被廣泛應用于自動駕駛與工業(yè)仿真場景,包括博世汽車、蔚來等自動駕駛廠商,上海電氣、深勢等廠商的仿真場景,墨鏡天合、追光等企業(yè)的影視特效場景。

結語:大模型倒逼云存儲升級,騰訊云樹立新標桿

今年1月,在沙利文聯(lián)合頭豹研究院發(fā)布的《2023年中國云存儲解決方案市場報告》中,騰訊云存儲入選“領導者”陣營,位列第一。隨著大模型時代來臨,AIGC場景對數(shù)據(jù)存儲和處理的需求日益增長,騰訊云憑借其在云計算領域的深厚積累,推出了全面升級的AIGC云存儲解決方案,為AI大模型提供更加高效、全面的云存儲支持。

在數(shù)據(jù)采集、清洗、訓練、推理、數(shù)據(jù)治理等全流程中,騰訊云的AIGC云存儲解決方案展現(xiàn)出了卓越的性能。通過自研的核心技術和產(chǎn)品,騰訊云不僅在性能上實現(xiàn)了質的飛躍,更在價格上保持了親民,成為眾多頭部大模型企業(yè)的首選。