智東西(公眾號:zhidxcom
作者?|?香草
編輯?|?李水青

智東西9月5日報道,今日,騰訊云在騰訊全球數(shù)字生態(tài)大會上發(fā)布AI Infra(AI基礎(chǔ)設(shè)施)品牌“騰訊云智算”,將旗下高性能計算HCC、星脈網(wǎng)絡(luò)、AIGC云存儲等單項(xiàng)產(chǎn)品能力整合,提供集算存網(wǎng)一體的高性能智算底座。

騰訊云智算目前已服務(wù)了90%的國內(nèi)大模型頭部用戶,包括百川智能、智譜AI等。據(jù)騰訊公司副總裁、云與智慧產(chǎn)業(yè)事業(yè)群COO兼騰訊云總裁邱躍鵬介紹,騰訊云的集群千卡單日故障數(shù)是行業(yè)水平的1/3,數(shù)據(jù)讀寫效率是業(yè)界10倍,千卡集群通信時間是業(yè)界一半。

在大會之前,智東西與少數(shù)媒體對話了騰訊云副總裁、云計算資深技術(shù)專家沙開波,深入交流了智算產(chǎn)業(yè)的市場趨勢、技術(shù)難點(diǎn)等。

談及AI對云計算的影響,沙開波認(rèn)為長期來看,生成式AI的發(fā)展是具有確定性的,大模型對智算產(chǎn)業(yè)來說是一塊很大的增量,未來一定會有一個比較大的爆發(fā)節(jié)點(diǎn)。

之所以選擇在這時成立騰訊云智算的品牌,也與客戶需求有很大的關(guān)系。另一方面,大模型計算、推理等場景對云基礎(chǔ)設(shè)施提出高要求,騰訊云作為解決方案提供方需要不斷打磨產(chǎn)品能力,從而更好地支持這一類客戶的業(yè)務(wù)需求。

一、集算存網(wǎng)一體,從設(shè)備上架到啟動訓(xùn)練僅1

整體來看,騰訊云智算是一個集算、存、網(wǎng)于一體的高性能智算底座,整合了騰訊云高性能計算HCC、高性能網(wǎng)絡(luò)IHN星脈、高性能云存儲、加速框架、容器、向量數(shù)據(jù)庫、智算套件等產(chǎn)品,提供性能領(lǐng)先、多芯兼容、靈活部署的智算產(chǎn)品能力。

互聯(lián)網(wǎng)企業(yè)、大模型廠商、本地智算IDC、金融企業(yè)等是騰訊云智算現(xiàn)階段的主要客戶,具體到場景中除了公有云,還有私有云、專有云的一些應(yīng)用,其中大模型廠商是最主要的客戶之一。

騰訊云智算在訓(xùn)練啟動時效上大幅提升,從設(shè)備到位到開始訓(xùn)練,相較業(yè)界平均的30天時間縮小到僅1天。

在集群穩(wěn)定性方面,騰訊云智算千卡單日故障卡數(shù)0.08,只有業(yè)界的1/6;數(shù)據(jù)讀寫效率上,Checkpoint聚合寫入的峰值性達(dá)到業(yè)界10倍以上,1分鐘就能完成萬卡Checkpoint讀寫;網(wǎng)絡(luò)交換效率方面,通過服務(wù)器、網(wǎng)絡(luò)端、交換機(jī)和通訊庫的整體自研優(yōu)化,千卡集群的通信時間占比為6%,是業(yè)界平均時間占比12%的一半。

千卡集群每年降本2000萬!騰訊云推出AI Infra品牌,副總裁解讀智算產(chǎn)業(yè)趨勢

▲騰訊云智算訓(xùn)練效率

隨著市面上的大模型參數(shù)不斷增長,從百億、千億,逐漸擴(kuò)展到萬億,模型訓(xùn)練對底層算力集群的要求也不斷提升。騰訊云是如何破解集群升級難點(diǎn)的?

沙開波談道,大規(guī)模計算集群的打造也是騰訊云智算產(chǎn)品矩陣最想解決的問題。其中,HCC高性能計算產(chǎn)品是專門用于高性能、穩(wěn)定、大規(guī)模計算集群的構(gòu)建,而如何將GPU等算力高效利用起來,則用到星脈網(wǎng)絡(luò)來提供卡之間的高效互聯(lián),模型訓(xùn)練過程中的Checkpoints高效讀寫對應(yīng)的是高性能存儲產(chǎn)品。

基于這些產(chǎn)品整體構(gòu)建的計算存儲網(wǎng)絡(luò)全棧解決方案,才能幫助客戶實(shí)現(xiàn)大規(guī)模集群的高效利用。

二、4天訓(xùn)完萬億參數(shù)模型,網(wǎng)絡(luò)故障5分鐘解決

具體來看騰訊云智算的產(chǎn)品矩陣,包括高性能計算、網(wǎng)絡(luò)、存儲產(chǎn)品,加速框架、向量數(shù)據(jù)庫以及智算套件等。

千卡集群每年降本2000萬!騰訊云推出AI Infra品牌,副總裁解讀智算產(chǎn)業(yè)趨勢

▲騰訊云智算解決方案

騰訊云HCC高性能計算集群發(fā)布于去年4月,是行業(yè)最早發(fā)布的面向大模型訓(xùn)練、推理的算力集群。

HCC底層采用騰訊云自研星星海服務(wù)器,可以提供3.2T的超高互聯(lián)帶寬,算力性能比上一代提升3倍。萬億參數(shù)的混元NLP大模型訓(xùn)練,最快4天就能訓(xùn)練完成。在穩(wěn)定性方面,HCC千卡單日故障卡數(shù)為0.08,無中斷訓(xùn)練時長達(dá)到300小時,是業(yè)界平均市場50小時的6倍。

騰訊云星脈網(wǎng)絡(luò)是其自研的高性能計算網(wǎng)絡(luò)IHN,支持超10萬卡大規(guī)模組網(wǎng)、多型號異構(gòu)GPU接入,網(wǎng)絡(luò)通信效率比上一代提升60%,大模型訓(xùn)練效率提升20%。

星脈網(wǎng)絡(luò)具備高效的故障處理能力,在萬卡集群下,網(wǎng)絡(luò)故障可實(shí)現(xiàn)1分鐘發(fā)現(xiàn),3分鐘定位,5分鐘解決。

據(jù)沙開波介紹,這是因?yàn)樾敲}網(wǎng)絡(luò)通過一些流量和拓?fù)涞淖詣痈兄?,進(jìn)行流量替換中心的調(diào)度,從而提升整個網(wǎng)絡(luò)的吞吐,并在發(fā)現(xiàn)故障的時候迅速定位到是哪個鏈路出的問題,對鏈路進(jìn)行調(diào)度、異常處理,讓整個訓(xùn)練可以不中斷或者少中斷。

騰訊云的AIGC云存儲解決方案包括CFS Turbo、對象存儲COS、數(shù)據(jù)加速器GooseFS以及數(shù)據(jù)處理CI等,針對AI大模型數(shù)據(jù)采集清洗、訓(xùn)練、推理、數(shù)據(jù)智理全流程,提供全面高效的云存儲支持,可將大模型的數(shù)據(jù)清洗和訓(xùn)練效率提升一倍。

三、千卡集群每年降本2000萬,助力傳統(tǒng)企業(yè)AI轉(zhuǎn)型

目前,騰訊云智算可以靈活地支持公有云、私有云以及分布式云的輸出,成為了國內(nèi)90%頭部大模型廠商的選擇,也幫助一大批IDC廠商實(shí)現(xiàn)了AIDC轉(zhuǎn)型。

沙開波解讀了騰訊云智算具體的落地案例,公有云的一些大模型的客戶在使用其完整的智算解決方案后,一個千卡集群每年的成本相比過去傳統(tǒng)的方式可以降低2000萬。

例如某社區(qū)電商的企業(yè),在評論分析、圖像分類等OCR、CV業(yè)務(wù)上應(yīng)用騰訊云智算解決方案,在去年下半年從海外的芯片更換成了騰訊云公有云上的國產(chǎn)芯片。在主要業(yè)務(wù)指標(biāo)不變的前提下,只用了21天就完成了替換,其中兩周左右用來適配模型,一周左右改造推理框架,對不同芯片的適配非常高效靈活。

千卡集群每年降本2000萬!騰訊云推出AI Infra品牌,副總裁解讀智算產(chǎn)業(yè)趨勢

▲騰訊云智算客戶價值

在私有云的落地上,騰訊云智算主要的客戶是傳統(tǒng)的IDC公司,它們原本具有機(jī)房、硬件、網(wǎng)絡(luò)優(yōu)勢,但是缺少云、軟件解決方案。

具體案例是,某傳統(tǒng)IDC企業(yè)通過與騰訊云智算合作,組建新一代具備AI Infra基礎(chǔ)能力的智算平臺,并通過租戶、計費(fèi)管理等能力,為終端用戶提供一站式自主用云服務(wù),實(shí)現(xiàn)到AIDC的轉(zhuǎn)型。該客戶還獲得了今年的可信云大會用戶最佳實(shí)踐獎。

四、談智算產(chǎn)業(yè)五大趨勢,保持兼容、開放、公私一體

縱觀整個智算產(chǎn)業(yè),正處于快速發(fā)展的階段,從產(chǎn)業(yè)規(guī)模、應(yīng)用場景到技術(shù)創(chuàng)新都在不斷拓展。沙開波與我們分享了騰訊云對未來趨勢的看法,主要有五個層面。

首先是大模型的規(guī)模仍在持續(xù)增加,這對AI Infra要求也越來越高,需要更大的算力集群,如何在更大集群下確保穩(wěn)定性、應(yīng)用性可以滿足要求是主要命題。

其次是多芯的能力。多芯一方面來源于供給端的挑戰(zhàn),需要AI Infra產(chǎn)品去適配各種芯片的能力,比如金融等行業(yè)的一些央國企會有國產(chǎn)化訴求,需要云廠商去兼容、適配國產(chǎn)化的芯片。

第三是現(xiàn)在整體AI應(yīng)用,處于一個快速發(fā)展的階段,在應(yīng)用落地層面仍處于前期,未來可能會越來越快。從這個角度看,未來的推理比重可能也會逐步增加。

第四是AI場景變得越來越廣泛,很多行業(yè)還在探索的階段。從騰訊云智算和很多客戶的交流中,可以看出他們在這方面都有很強(qiáng)的訴求,未來肯定會有一些創(chuàng)新的業(yè)務(wù)應(yīng)用落地。

最后是對數(shù)據(jù)安全的需求強(qiáng)烈。對很多國內(nèi)企業(yè)來說,用于訓(xùn)練推理的業(yè)務(wù)數(shù)據(jù),只能在自己的機(jī)房里面完成,這對產(chǎn)品能力的部署提出比較多訴求。

談及騰訊云智算的整體戰(zhàn)略目標(biāo),沙開波稱騰訊云從ChatGPT出現(xiàn)后就一直在打磨產(chǎn)品,在原來的通用計算、云上去演進(jìn),讓原有的云基礎(chǔ)設(shè)施能更加滿足大模型時代對訓(xùn)練、推理場景的訴求。

此次發(fā)布騰訊云智算品牌,主要還是出于把過去一系列的工作組合起來,變成一個整體解決方案對外提供,向行業(yè)傳遞更準(zhǔn)確、更完整的信息。

相較其他友商,騰訊云智算品牌的主要戰(zhàn)略是整體的兼容性、開放性,以及公私一體。

結(jié)語:生成式AI推動智算產(chǎn)業(yè)飛速發(fā)展

憑借集算存網(wǎng)一體的高性能智算底座,騰訊云智算整合了多項(xiàng)優(yōu)勢產(chǎn)品,展現(xiàn)了在智算領(lǐng)域的技術(shù)能力和潛力。

隨著生成式AI的持續(xù)發(fā)展,智算產(chǎn)業(yè)也許會乘著這股大模型的風(fēng)“起飛”。騰訊云智算以其兼容性、開放性以及公私一體的戰(zhàn)略,不僅靈活地支持公有云、私有云以及分布式云的輸出,同時也成為了國內(nèi)大量大模型廠商的選擇,幫助一大批IDC廠商實(shí)現(xiàn)向AIDC的轉(zhuǎn)型。