智東西(公眾號(hào):zhidxcom)
作者 | GenAICon 2024

2024中國(guó)生成式AI大會(huì)于4月18-19日在北京舉行,在大會(huì)第二天的主會(huì)場(chǎng)AI Infra專(zhuān)場(chǎng)上,焱融科技CTO張文濤以《多云環(huán)境下大模型訓(xùn)練和推理的高效存儲(chǔ)》為題發(fā)表演講。

隨著大模型訓(xùn)練和推理需要的算力越來(lái)越高,單個(gè)數(shù)據(jù)中心已經(jīng)無(wú)法滿足大模型訓(xùn)練所需要的算力要求,需要多數(shù)據(jù)中心進(jìn)行訓(xùn)練和推理。

多個(gè)數(shù)據(jù)中心存在多份數(shù)據(jù)拷貝的成本越來(lái)越大,如何在保證性能的前提下,讓數(shù)據(jù)按需跟隨算力進(jìn)行流轉(zhuǎn),成為大模型廠商和存儲(chǔ)廠商要解決的難題。從數(shù)據(jù)加載、模型加載到Checkpoint保存等過(guò)程中,存在大量的讀寫(xiě)請(qǐng)求、元數(shù)據(jù)訪問(wèn)和內(nèi)存拷貝等操作。在此背景下,張文濤解讀了存儲(chǔ)對(duì)大模型訓(xùn)練和推理的重要性和一些可行方法。

對(duì)于多模態(tài)大模型,高性能存儲(chǔ)對(duì)訓(xùn)練的提升效果更好,效率可提升20-40%。針對(duì)訓(xùn)練推理,焱融科技推出了多云存儲(chǔ)解決方案。基于統(tǒng)一的數(shù)據(jù)湖底座,通過(guò)數(shù)據(jù)編排將數(shù)據(jù)按需加載到數(shù)據(jù)中心,并異步將新增的模型數(shù)據(jù)推到數(shù)據(jù)湖。數(shù)據(jù)加載支持對(duì)接OSS、COS、BOS等各大主流對(duì)象存儲(chǔ)平臺(tái)。

以下為張文濤的演講實(shí)錄:

炎融科技專(zhuān)注于高性能分布式文件存儲(chǔ),是英偉達(dá)在中國(guó)的合作伙伴之一。在Gartner中國(guó)軟件定義存儲(chǔ)競(jìng)爭(zhēng)格局報(bào)告中,我們是唯一一家專(zhuān)注于文件存儲(chǔ)的廠商。

我們?cè)鴧⑴c過(guò)IO500測(cè)試,全球排名第六,是國(guó)內(nèi)首家進(jìn)入云原生存儲(chǔ)領(lǐng)域的公司。去年,焱融科技入選了賽迪中國(guó)式存儲(chǔ)挑戰(zhàn)者象限,展現(xiàn)了我們?cè)谛袠I(yè)中的競(jìng)爭(zhēng)實(shí)力。焱融科技的產(chǎn)品在AI和智能汽車(chē)行業(yè)占有領(lǐng)先地位。

接下來(lái),我們將分享三個(gè)主要方面:第一,為什么存儲(chǔ)對(duì)大模型訓(xùn)練和推理很重要;第二,大模型推理和訓(xùn)練的解決方案;第三,在當(dāng)前算力短缺的情況下,我們不得不采用多云方式進(jìn)行訓(xùn)練和推理,在此過(guò)程中,將會(huì)遇到哪些問(wèn)題,又該如何去解決?

一、大模型場(chǎng)景六大環(huán)節(jié)需要存儲(chǔ),優(yōu)秀方案能平衡性能與成本問(wèn)題

大模型場(chǎng)景里有哪些環(huán)節(jié),這些環(huán)節(jié)里對(duì)存儲(chǔ)又有哪些訴求?主要分為六個(gè)部分。

第一,數(shù)據(jù)采集。包括從第三方購(gòu)買(mǎi)數(shù)據(jù)、網(wǎng)絡(luò)爬取以及現(xiàn)場(chǎng)采集。由于采集方式各異,存儲(chǔ)訪問(wèn)也需考慮多種協(xié)議。采集的原始數(shù)據(jù)量較大,因此需要高容量、低成本的存儲(chǔ)方案。同時(shí),我們希望存儲(chǔ)能夠支持高并發(fā)、高帶寬。

焱融科技張文濤:將大模型訓(xùn)練效率提升40%!詳解多云架構(gòu)下高效存儲(chǔ)策略丨GenAICon 2024

第二,數(shù)據(jù)預(yù)處理。包括清洗、篩選、格式轉(zhuǎn)換和集成。這一過(guò)程涉及多個(gè)環(huán)節(jié),對(duì)存儲(chǔ)而言需要支持多種協(xié)議,如NFS、SMB、S3、HCFS、POSIX等。在數(shù)據(jù)預(yù)處理中,需要進(jìn)行大量的數(shù)據(jù)檢索,從各個(gè)維度提取數(shù)據(jù),滿足不同的檢索需求。數(shù)據(jù)在此階段的特點(diǎn)是混亂的,IO大小和讀寫(xiě)方式也是混合的。

第三,模型訓(xùn)練。在存儲(chǔ)方面相對(duì)簡(jiǎn)單,但也具有挑戰(zhàn)性。在這一階段,性能是關(guān)鍵,包括對(duì)讀取帶寬、讀取IOPS和寫(xiě)入帶寬的要求,以及整體低延遲的需求。

第四,模型驗(yàn)證。這也是訓(xùn)練過(guò)程的一部分。

第五,推理。推理本身并不需要頻繁訪問(wèn)存儲(chǔ),其主要對(duì)存儲(chǔ)的需求源自模型的部署和更新。在模型部署和更新時(shí),要批量將模型加載到GPU中,這可能引發(fā)類(lèi)似啟動(dòng)風(fēng)暴的問(wèn)題,需要瞬時(shí)加載大量數(shù)據(jù),峰值瞬時(shí)流量可能達(dá)數(shù)十TB。

第六,數(shù)據(jù)歸檔。隨著數(shù)據(jù)的不斷增加,涵蓋了模型數(shù)據(jù)、數(shù)據(jù)集以及原始數(shù)據(jù),數(shù)據(jù)治理問(wèn)題日益顯現(xiàn)。在存儲(chǔ)方面,我們期望實(shí)現(xiàn)全生命周期的數(shù)據(jù)管理,最好是基于時(shí)間維度的方式。隨著數(shù)據(jù)訪問(wèn)熱度的降低,我們希望自動(dòng)將冷數(shù)據(jù)轉(zhuǎn)移到低成本的存儲(chǔ)介質(zhì)上,但同時(shí)保證當(dāng)需要訪問(wèn)時(shí),數(shù)據(jù)能夠隨時(shí)可見(jiàn)。

這幾個(gè)環(huán)節(jié)對(duì)存儲(chǔ)的需求很高,特別是在模型的訓(xùn)練和推理階段,這兩個(gè)環(huán)節(jié)尤為挑戰(zhàn)性。

為何存儲(chǔ)在這兩個(gè)方面至關(guān)重要?主要有兩個(gè)原因。

首先,存儲(chǔ)直接影響了模型訓(xùn)練的效率。在訓(xùn)練過(guò)程中,需要從存儲(chǔ)加載模型和數(shù)據(jù),并定期將GPU內(nèi)存中的數(shù)據(jù)保存到存儲(chǔ)中。在每個(gè)環(huán)節(jié),存儲(chǔ)都必須提供最佳性能。

其次,推理業(yè)務(wù)上線時(shí)通常會(huì)同時(shí)啟動(dòng)數(shù)十甚至上百個(gè)業(yè)務(wù)pod,需要瞬時(shí)提供幾十TB的流量。例如,一個(gè)量化后的模型可能有數(shù)十GB甚至上百GB,幾十個(gè)業(yè)務(wù)pod同時(shí)啟動(dòng),會(huì)產(chǎn)生巨大的瞬時(shí)流量。由于模型更新頻繁,業(yè)務(wù)上線的延遲應(yīng)控制在分鐘級(jí)別,并且希望不受推理業(yè)務(wù)規(guī)模擴(kuò)大影響,以避免存儲(chǔ)帶寬峰值對(duì)模型下載延遲的影響。優(yōu)秀的存儲(chǔ)解決方案不僅能夠解決這些問(wèn)題,還能平衡性能與成本。

二、高性能存儲(chǔ)如何影響訓(xùn)練與推理?縮短多模態(tài)訓(xùn)練時(shí)間可提升40%效率

接下來(lái)介紹一下存儲(chǔ)對(duì)于訓(xùn)練的影響,在訓(xùn)練過(guò)程當(dāng)中,有4個(gè)地方會(huì)對(duì)存儲(chǔ)有要求:

1、數(shù)據(jù)的預(yù)讀和訓(xùn)練。我們進(jìn)行數(shù)據(jù)訓(xùn)練時(shí),需要將數(shù)據(jù)從存儲(chǔ)加載到GPU進(jìn)行計(jì)算。在這個(gè)過(guò)程中,可能會(huì)采用預(yù)讀機(jī)制或直接讀取方式。特別是在Batch Size較小時(shí),會(huì)產(chǎn)生大量小的I/O操作。在多模態(tài)大模型中,由于存在許多圖文對(duì)形式的小文件,因此會(huì)出現(xiàn)大量小文件訪問(wèn)帶來(lái)的大量元數(shù)據(jù)操作。

焱融科技張文濤:將大模型訓(xùn)練效率提升40%!詳解多云架構(gòu)下高效存儲(chǔ)策略丨GenAICon 2024

2、POSIX和GDS協(xié)議。盡管當(dāng)前許多訓(xùn)練任務(wù)都使用對(duì)象存儲(chǔ),但在訓(xùn)練階段,實(shí)際上還是通過(guò)文件接口進(jìn)行訪問(wèn)。只有文件接口能夠提供高性能,并且具有最佳的兼容性。隨著越來(lái)越多的訓(xùn)練任務(wù)面臨內(nèi)存拷貝性能問(wèn)題,將數(shù)據(jù)從CPU內(nèi)存拷貝到GPU內(nèi)存時(shí),性能問(wèn)題變得突出。目前,許多客戶開(kāi)始嘗試使用GPU Direct技術(shù)來(lái)加速性能。

3、模型的加載。當(dāng)啟動(dòng)新的訓(xùn)練任務(wù),或由于其他原因需要重新啟動(dòng)訓(xùn)練時(shí),需要將模型加載到GPU中。在這個(gè)過(guò)程會(huì)產(chǎn)生大量的讀取I/O。英偉達(dá)在2021年發(fā)表了一篇論文,關(guān)于千卡規(guī)模,當(dāng)時(shí)的存儲(chǔ)峰值讀取帶寬可達(dá)到1TB/秒。

4、Checkpoint的保存。在訓(xùn)練過(guò)程中,Checkpoint起著重要作用。由于有大量GPU同時(shí)進(jìn)行Checkpoint,且GPU的故障率相對(duì)較高,因此需要定期保存Checkpoint。這個(gè)過(guò)程本身就是保存一個(gè)模型,保存過(guò)程中,訓(xùn)練狀態(tài)會(huì)暫停,并進(jìn)行同步等待。保存過(guò)程的時(shí)長(zhǎng)越短,訓(xùn)練的GPU利用率就越高。

焱融科技張文濤:將大模型訓(xùn)練效率提升40%!詳解多云架構(gòu)下高效存儲(chǔ)策略丨GenAICon 2024

這個(gè)圖比較直觀,紅色表示數(shù)據(jù)加載,綠色表示訓(xùn)練,黃色表示Checkpoint保存。

對(duì)于大語(yǔ)言模型而言,由于其訓(xùn)練集較小,存儲(chǔ)訪問(wèn)占比并不會(huì)很高。但是對(duì)于多模態(tài)大模型,尤其像Sora模型,數(shù)據(jù)訪問(wèn)占比較大。對(duì)于訓(xùn)練任務(wù)來(lái)說(shuō),普通存儲(chǔ)和高性能存儲(chǔ)之間的差異會(huì)非常明顯。高性能存儲(chǔ)能夠大大壓縮存儲(chǔ)訪問(wèn)時(shí)間。對(duì)于多模態(tài)任務(wù)來(lái)說(shuō),縮短訓(xùn)練時(shí)間可以提升20%至40%的效率。

在英偉達(dá)的最佳實(shí)踐中,對(duì)于NLP任務(wù),單臺(tái)GPU只需要4GBps的讀取帶寬。但對(duì)于多模態(tài)任務(wù)而言,單節(jié)點(diǎn)需要40GBps的讀取帶寬,基本上需要一張400Gb NDR的卡來(lái)處理。一個(gè)SuperPod需要500GBps的讀取帶寬,這個(gè)要求是相當(dāng)高的

存儲(chǔ)對(duì)推理的影響主要集中在模型加載和更新的過(guò)程。在啟動(dòng)推理業(yè)務(wù)時(shí)需要先加載模型文件,模型文件大小在幾十G到上百GB之間,而一次性會(huì)啟動(dòng)幾十個(gè)pod,因此整個(gè)數(shù)據(jù)量可達(dá)幾十到上百TB。

焱融科技張文濤:將大模型訓(xùn)練效率提升40%!詳解多云架構(gòu)下高效存儲(chǔ)策略丨GenAICon 2024

推理業(yè)務(wù)通常部署在邊緣節(jié)點(diǎn),其GPU配置不如訓(xùn)練集群那么高。在這樣的環(huán)境中,存儲(chǔ)和計(jì)算之間的網(wǎng)絡(luò)帶寬通常也會(huì)受限,一般為25Gb的以太網(wǎng)絡(luò)。此時(shí)啟動(dòng)整個(gè)推理業(yè)務(wù)時(shí)的延遲會(huì)很高,在啟動(dòng)和擴(kuò)容過(guò)程中會(huì)遇到嚴(yán)重的啟動(dòng)風(fēng)暴問(wèn)題。

三、基于四大核心組件,精準(zhǔn)部署存儲(chǔ)解決方案

我們的大模型訓(xùn)練和推理過(guò)程的存儲(chǔ)解決方案基于YRCloudFile系統(tǒng),整體架構(gòu)包含四個(gè)核心組件:1)集群管理服務(wù),采用一主多備的高可用架構(gòu);2)元數(shù)據(jù)服務(wù),支持海量小文件場(chǎng)景,我們的元數(shù)據(jù)集群能夠橫向水平擴(kuò)展;3)集群服務(wù),能夠水平擴(kuò)展;4)客戶端。相比于基于FUSE的用戶態(tài)私有客戶端,它有更高的性能。

焱融科技張文濤:將大模型訓(xùn)練效率提升40%!詳解多云架構(gòu)下高效存儲(chǔ)策略丨GenAICon 2024

在硬件方面,我們能夠支持標(biāo)準(zhǔn)x86架構(gòu),也支持Arm架構(gòu)的鯤鵬服務(wù)器、海光服務(wù)器和飛騰服務(wù)器;在數(shù)據(jù)冗余方面,支持副本的方式,也可以支持低成本的糾刪碼的方式;在網(wǎng)絡(luò)方面,支持25Gb、100Gb、200Gb的以太網(wǎng),以及支持200Gb、400Gb的Infiniband網(wǎng)絡(luò),也支持RoCE網(wǎng)絡(luò);在協(xié)議層面,支持標(biāo)準(zhǔn)的NFS、SMB、S3、HCFS以及私有的POSIX協(xié)議。

針對(duì)大模型訓(xùn)練場(chǎng)景,我們提供了一系列功能和特性,以支持和加速模型的訓(xùn)練過(guò)程。

焱融科技張文濤:將大模型訓(xùn)練效率提升40%!詳解多云架構(gòu)下高效存儲(chǔ)策略丨GenAICon 2024

其中包括Multi-Channel技術(shù),支撐單節(jié)點(diǎn)提供超高性能帶寬和IOPS的核心技術(shù)。

其次是GPU Direct Storage(GDS)技術(shù)。隨著客戶內(nèi)存的不斷增大,傳統(tǒng)的緩存技術(shù)已經(jīng)無(wú)法滿足數(shù)據(jù)集的存儲(chǔ)需求,GDS技術(shù)應(yīng)運(yùn)而生。

還有內(nèi)核私有客戶端,能夠減少上下文的切換,能夠提供高帶寬和IOPS。

第四,能夠支持400Gb NDR的網(wǎng)絡(luò),結(jié)合Multi-Channel技術(shù),在x86架構(gòu)下,提供單節(jié)點(diǎn)90GBps的帶寬,以及300萬(wàn)IOPS的性能。

針對(duì)多模態(tài)的海量小文件場(chǎng)景,我們提供了分布式元數(shù)據(jù)集群,單個(gè)集群能夠支撐千億級(jí)的文件數(shù)量。我們線上最大的單一集群包含接近400億文件,擁有100多個(gè)元數(shù)據(jù)節(jié)點(diǎn),是目前線上最大的單一元數(shù)據(jù)集群。

在功能層面,我們提供了多種功能。

第一,智能分層。能夠有效地將數(shù)據(jù)下沉到對(duì)象存儲(chǔ)中,從而極大地降低成本。即便在提供高性能的情況下,也能夠?qū)崿F(xiàn)低成本。

第二,目錄級(jí)Quota和QoS。為運(yùn)維人員提供方便的管理工具,同時(shí)提供了日審計(jì)和回收站功能,使運(yùn)維同學(xué)能更好地應(yīng)對(duì)客戶的需求和問(wèn)題。

第三,協(xié)議網(wǎng)絡(luò)支持。近一年來(lái),對(duì)多協(xié)議網(wǎng)絡(luò)支持的需求急劇增加。由于GPU卡供應(yīng)緊張,數(shù)據(jù)中心構(gòu)建時(shí)出現(xiàn)了異構(gòu)網(wǎng)絡(luò)場(chǎng)景,既有InfiniBand網(wǎng)絡(luò),又有以太網(wǎng)。

在這種情況下,構(gòu)建多套存儲(chǔ)是不現(xiàn)實(shí)的,因?yàn)榇鎯?chǔ)之間不互通,且會(huì)增加成本和管理復(fù)雜度。我們提供了多網(wǎng)絡(luò)協(xié)議支持,在同一個(gè)集群中可以同時(shí)支持InfiniBand和以太網(wǎng)訪問(wèn),方便數(shù)據(jù)中心存儲(chǔ)設(shè)施的構(gòu)建和管理。

GDS技術(shù)的最大優(yōu)勢(shì)在于能夠有效減少CPU和CPU Memory的使用,從而極大地降低了CPU的利用率。在沒(méi)有GDS技術(shù)時(shí),數(shù)據(jù)的傳輸路徑通常是從網(wǎng)卡拷貝到CPU Memory,涉及多次內(nèi)存的拷貝。而使用了GDS技術(shù)后,數(shù)據(jù)可以直接從網(wǎng)卡經(jīng)由DMI方式傳輸?shù)紾PU的Memory里面,減少了內(nèi)存拷貝的次數(shù),有效降低了CPU的利用率。

接下來(lái)是一些我們?cè)趯?shí)驗(yàn)環(huán)境和客戶現(xiàn)場(chǎng)測(cè)得的數(shù)據(jù)。

我們對(duì)比了使用GDS和不使用GDS的情況,在帶寬和延遲方面都取得了顯著的性能提升。具體來(lái)說(shuō),在帶寬方面,使用了GDS后,整體帶寬性能提升了近40%;而在延遲方面,我們觀察到有50%至60%的性能提升。

當(dāng)然,在低負(fù)載情況下,性能提升不太明顯,但在高負(fù)載情況下,其效果顯著。這與GDS的作用相符合。在CPU利用率方面,我們可以看到,在高并發(fā)量的情況下,CPU負(fù)載顯著降低。使用了GDS后,CPU的利用率基本上處于空閑狀態(tài)。

針對(duì)推理環(huán)節(jié)的解決方案,主要在于存儲(chǔ)和計(jì)算之間的網(wǎng)絡(luò)瓶頸。由于推理集群通常采用25Gb以太網(wǎng)絡(luò),無(wú)法像訓(xùn)練集群那樣構(gòu)建200Gb或400Gb的IB網(wǎng)絡(luò),因此存儲(chǔ)和計(jì)算之間的帶寬成為一個(gè)重要瓶頸。

我們推出了客戶端緩存池解決方案,該方案在加載模型時(shí)充分利用計(jì)算節(jié)點(diǎn)的本地SSD形成一個(gè)大的緩存池。當(dāng)需要加載模型時(shí),我們首先將模型并發(fā)加載到客戶端緩存池中,然后再由客戶端緩存池將模型加載到GPU中。這樣一來(lái),我們有效地解決了啟動(dòng)風(fēng)暴的問(wèn)題。隨著計(jì)算節(jié)點(diǎn)規(guī)模的增加,緩存池的性能也會(huì)相應(yīng)提升,從而有效地應(yīng)對(duì)啟動(dòng)風(fēng)暴的挑戰(zhàn)。

四、訓(xùn)練推理無(wú)法在單一數(shù)據(jù)中心完成,多云方式帶來(lái)一系列挑戰(zhàn)

之前我們討論了單一數(shù)據(jù)中心內(nèi)的解決方案,然而,由于諸多因素的影響,如卡的采購(gòu)、資源租賃等,訓(xùn)練和推理往往無(wú)法在單一數(shù)據(jù)中心完成。

因此,我們不得不采用多云的方式,但這也帶來(lái)了一系列挑戰(zhàn)。

對(duì)于大模型廠商而言,通常會(huì)將所有數(shù)據(jù)存放在一個(gè)稱為“Source of Truth”的數(shù)據(jù)中心內(nèi),而訓(xùn)練集群和推理集群則分布在多個(gè)云上,它們之間通過(guò)公網(wǎng)或?qū)>W(wǎng)連接。

訓(xùn)練集群通常需要共享數(shù)據(jù),而不是為每個(gè)集群提供一份全量數(shù)據(jù),這樣做成本高且管理復(fù)雜。推理集群也需要共享模型數(shù)據(jù),以便靈活擴(kuò)展推理業(yè)務(wù)。由于邊緣數(shù)據(jù)中心的存儲(chǔ)容量有限,我們的訓(xùn)練集群和推理集群都需要按需加載數(shù)據(jù)。

我們面臨兩個(gè)主要特點(diǎn):共享和按需。在這種情況下,通常會(huì)有一個(gè)中心的“Source of Truth”數(shù)據(jù)湖提供對(duì)象存儲(chǔ)訪問(wèn)。當(dāng)我們?cè)谶吘墧?shù)據(jù)中心進(jìn)行訓(xùn)練時(shí),需要通過(guò)數(shù)據(jù)編排的方式將數(shù)據(jù)集按需加載到數(shù)據(jù)中心。當(dāng)訓(xùn)練產(chǎn)生模型數(shù)據(jù)或結(jié)束后,我們可以將模型數(shù)據(jù)導(dǎo)出到數(shù)據(jù)湖中,而其他推理集群可以根據(jù)需要訂閱并拉取這些模型數(shù)據(jù)到各自的集群中。

整個(gè)架構(gòu)的基本思路就是這樣,所有邊緣數(shù)據(jù)中心都能與數(shù)據(jù)湖進(jìn)行連接,數(shù)據(jù)的流轉(zhuǎn)通過(guò)數(shù)據(jù)編排的方式按需拉取或?qū)Щ氐綌?shù)據(jù)湖中。

實(shí)現(xiàn)數(shù)據(jù)的靈活流轉(zhuǎn),需要具備相應(yīng)的功能支持。其中,數(shù)據(jù)加載功能可以讓數(shù)據(jù)在各個(gè)平臺(tái)之間靈活地流動(dòng);Dataload功能可以與主流的調(diào)度平臺(tái)對(duì)接起來(lái)進(jìn)行數(shù)據(jù)編排,對(duì)接標(biāo)準(zhǔn)的S3,如公有云的OSS、COS、BOS以及開(kāi)源的對(duì)象存儲(chǔ),如Ceph、Minio等。Dataload功能能夠關(guān)聯(lián)對(duì)象和文件,將對(duì)象bucket或者Prefix與文件路徑關(guān)聯(lián)起來(lái),并支持多次導(dǎo)入導(dǎo)出;通過(guò)API方式,可以按需進(jìn)行數(shù)據(jù)流轉(zhuǎn)。

焱融科技張文濤:將大模型訓(xùn)練效率提升40%!詳解多云架構(gòu)下高效存儲(chǔ)策略丨GenAICon 2024

為了方便管理員管理,我們提供了查看導(dǎo)入導(dǎo)出進(jìn)度和歷史記錄的功能。這些功能不會(huì)影響業(yè)務(wù)對(duì)數(shù)據(jù)的訪問(wèn),業(yè)務(wù)仍然可以通過(guò)標(biāo)準(zhǔn)的NFS、SMB、POSIX、S3等接口進(jìn)行訪問(wèn)。

當(dāng)數(shù)據(jù)發(fā)生變化時(shí),例如A集群的數(shù)據(jù)推送到Source of Truth的數(shù)據(jù)湖中,其他集群可以通過(guò)訂閱方式實(shí)時(shí)感知這些數(shù)據(jù)的變化。這樣,我們可以通過(guò)API制定策略,選擇是否要更新本地?cái)?shù)據(jù)。同時(shí),我們還適配了Fluid對(duì)數(shù)據(jù)集進(jìn)行編排,使用戶的訪問(wèn)更加靈活。

以上是張文濤演講內(nèi)容的完整整理。