「AI新青年講座」將邀請(qǐng)世界頂尖AI研究機(jī)構(gòu)和大學(xué)的科研新青年,主講他們?cè)谟?jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對(duì)人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識(shí)也能夠得以積累加深。同時(shí),通過(guò)與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過(guò)程中遇到的問(wèn)題,也能夠盡快解決。

有興趣分享學(xué)術(shù)成果的朋友,可以與智東西公開(kāi)課教研團(tuán)隊(duì)進(jìn)行郵件(class@zhidx.com)聯(lián)系。

擴(kuò)展深度神經(jīng)網(wǎng)絡(luò)已被證明在提高模型質(zhì)量方面是有效的,同時(shí)它也帶來(lái)了不斷增長(zhǎng)的訓(xùn)練挑戰(zhàn),包括訓(xùn)練效率、可編程性和資源適應(yīng)性。新加坡國(guó)立大學(xué)System Lab在讀博士史子驥在阿里云計(jì)算平臺(tái)事業(yè)部實(shí)習(xí)期間,提出了一個(gè)針對(duì)巨型模型的通用且高效的分布式訓(xùn)練框架Whale。

Whale通過(guò)對(duì)不同并行化策略進(jìn)行統(tǒng)一抽象、封裝,在一套分布式訓(xùn)練框架中支持多種并行策略,并進(jìn)行顯存、計(jì)算、通信等全方位的優(yōu)化,來(lái)提供易用、高效的分布式訓(xùn)練框架。Whale也提供了簡(jiǎn)潔易用的接口,用戶只需添加幾行代碼即可組合各種混合并行策略。

同時(shí)Whale還提供了一種新穎的基于硬件感知的自動(dòng)化分布式并行策略,可以感知不同硬件的算力、顯存等資源,均衡不同硬件上的計(jì)算量,最大化計(jì)算效率。在具有 512 個(gè) GPU 的生產(chǎn)集群中,Whale成功訓(xùn)練了一個(gè)行業(yè)規(guī)模的多模態(tài)模型M6,模型參數(shù)超過(guò) 10 萬(wàn)億個(gè) ,展示了出色的可擴(kuò)展性和效率。

8月3日晚7點(diǎn),「AI新青年講座」第142講,邀請(qǐng)到新加坡國(guó)立大學(xué)System Lab在讀博士史子驥參與,主講《利用自動(dòng)化的分布式混合并行策略高效訓(xùn)練大模型》。

講者
史子驥,新加坡國(guó)立大學(xué)System Lab在讀博士;師從李佳臨教授;研究方向?yàn)楦咝阅苡?jì)算和分布式機(jī)器學(xué)習(xí),曾在AAAI/USENIX ATC發(fā)表論文,本科期間曾獲SC17超算競(jìng)賽冠軍,目前在阿里云計(jì)算平臺(tái)事業(yè)部實(shí)習(xí)。

第142講

主 題
《利用自動(dòng)化的分布式混合并行策略高效訓(xùn)練大模型》

提 綱
1、大模型訓(xùn)練的難點(diǎn)
2、易用且支持多種并行策略的分布式訓(xùn)練框架Whale
3、基于硬件感知的自動(dòng)化并行策略及顯存、通訊優(yōu)化
4、實(shí)操演示:通過(guò)幾行代碼實(shí)現(xiàn)分布式并行策略

直 播 信 息
直播時(shí)間:8月3日19:00
直播地點(diǎn):智東西公開(kāi)課知識(shí)店鋪

成果

Whale
《Whale: Efficient Giant Model Training over Heterogeneous GPUs》

項(xiàng)目主頁(yè)
https://zijishi.xyz/publication/whale/

開(kāi)源地址
https://github.com/alibaba/EasyParallelLibrary