10月起,智猩猩芯片與算力教研組全新策劃推出「智猩猩智算集群公開(kāi)課」,聚焦集群構(gòu)建、互聯(lián)網(wǎng)絡(luò)、算力調(diào)度、存儲(chǔ)等關(guān)鍵技術(shù)。
目前,「智猩猩智算集群公開(kāi)課」前四期已順利完結(jié)。騰訊專有云首席架構(gòu)師方天戟、矩向科技CEO黃朝波、云脈芯聯(lián)產(chǎn)品總監(jiān)孫偉、益思芯科技解決方案副總裁唐杰四位主講人,分別以《智算集群技術(shù)概述》、《智算中心融合算力調(diào)度》、《智算集群網(wǎng)絡(luò)互連技術(shù)創(chuàng)新應(yīng)用與展望》、《智算中心 AI Scale-Up 網(wǎng)絡(luò)技術(shù)》為主題,進(jìn)行了直播講解。
12月4日19:30,智猩猩智算集群公開(kāi)課第5期將開(kāi)講,由中國(guó)移動(dòng)研究院網(wǎng)絡(luò)與IT技術(shù)研究所技術(shù)經(jīng)理李鍇主講,主題為《OISA構(gòu)建開(kāi)放高性能GPU卡間互聯(lián)體系》。
大模型的爆發(fā),對(duì)智能算力的需求指數(shù)級(jí)提升,集群規(guī)模邁入萬(wàn)卡、十萬(wàn)卡級(jí)別。大模型的訓(xùn)練嚴(yán)重依賴集群內(nèi)GPU之間頻繁的數(shù)據(jù)交互,帶來(lái)的龐大的通信開(kāi)銷導(dǎo)致集群的有效算力無(wú)法隨GPU數(shù)量增加而線性增長(zhǎng),這也意味著互聯(lián)性能將是決定集群規(guī)模擴(kuò)展和性能提升的關(guān)鍵所在。
智算集群互聯(lián)體系的構(gòu)建需要GPU芯片、交換機(jī)、網(wǎng)卡、網(wǎng)絡(luò)協(xié)議等軟硬件的緊密結(jié)合,技術(shù)體系復(fù)雜,難度極高。
為了應(yīng)對(duì)GPU卡間互聯(lián)的帶寬和時(shí)延要求,中國(guó)移動(dòng)聯(lián)合產(chǎn)業(yè)合作伙伴共同發(fā)布OISA協(xié)議,旨在打造一個(gè)高效、智能、靈活開(kāi)放的GPU卡間互聯(lián)體系。OISA采用全向連接設(shè)計(jì),能夠確保大規(guī)模GPU之間的對(duì)等通信;同時(shí),引入智能感知設(shè)計(jì),通過(guò)定義流量感知標(biāo)簽,并結(jié)合流控和重傳機(jī)制,優(yōu)化數(shù)據(jù)傳輸效率。在協(xié)議層面,OISA采用統(tǒng)一報(bào)文格式、多語(yǔ)義融合、多層次流控和重傳以及集合通信加速等四大關(guān)鍵技術(shù),能夠?qū)崿F(xiàn)高速、低時(shí)延、無(wú)損和高可靠的GPU通信。
本次公開(kāi)課,李鎧老師首先會(huì)介紹智算及GPU卡間互聯(lián)的發(fā)展背景,并進(jìn)一步分析為什么要重塑GPU卡間互聯(lián)體系。之后,李鎧老師將著重講解如何利用OISA協(xié)議實(shí)現(xiàn)高效的GPU卡間互聯(lián),并分享當(dāng)前OISA的最新進(jìn)展及下一步計(jì)劃。

公開(kāi)課內(nèi)容
主題:OISA構(gòu)建開(kāi)放高性能GPU卡間互聯(lián)體系
提綱:
1、智算及GPU卡間互聯(lián)背景
2、為什么要重塑GPU卡間互聯(lián)體系
3、如何通過(guò)OISA實(shí)現(xiàn)高效互聯(lián)能力
4、當(dāng)前OISA進(jìn)展及下一步計(jì)劃
主講人
李鍇,中國(guó)移動(dòng)研究院網(wǎng)絡(luò)與IT技術(shù)研究所技術(shù)經(jīng)理,主要職責(zé)集中在構(gòu)建通用和智能算力技術(shù)體系、NFV網(wǎng)絡(luò)基礎(chǔ)設(shè)施以及先進(jìn)計(jì)算等關(guān)鍵領(lǐng)域。致力于解決數(shù)據(jù)中心內(nèi)部處理器、加速器、存儲(chǔ)器等核心組件之間的效率提升問(wèn)題,特別強(qiáng)調(diào)通過(guò)采用開(kāi)放的互聯(lián)技術(shù)來(lái)提高智算中心GPU卡間的數(shù)據(jù)傳輸效率和性能。以推動(dòng)新型智算中心的創(chuàng)新,實(shí)現(xiàn)更高效、更靈活的數(shù)據(jù)處理。
直播時(shí)間
12月4日19:30-20:30