今年9月起,智東西公開課品牌全新升級為智猩猩。智猩猩定位硬科技講解與服務(wù)平臺,提供公開課、在線研討會、講座、峰會等線上線下產(chǎn)品。
「AI新青年講座」由智猩猩出品,致力于邀請青年學(xué)者,主講他們在生成式AI、LLM、計算機(jī)視覺、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。
有興趣分享學(xué)術(shù)成果的朋友,可以與智猩猩教研產(chǎn)品團(tuán)隊進(jìn)行郵件(class@zhidx.com)聯(lián)系。
目前,大多數(shù)大語言模型都僅支持短文本輸入,而實際應(yīng)用中,很多任務(wù)都需要長文本輸入能力,如長文檔的總結(jié)、提問等。傳統(tǒng)方法為了進(jìn)行長度拓展通常需要使用超過100塊以上的A100 GPUs或TPUs,這樣的計算資源消耗對大多數(shù)研究而言都是難以持續(xù)的。

香港中文大學(xué)在讀博士陳玉康:高效的大型語言模型長文本訓(xùn)練方法 LongLoRA|AI新青年講座

為了解決這樣的問題,麻省理工學(xué)院韓松團(tuán)隊和香港中文大學(xué)賈佳亞團(tuán)隊聯(lián)合提出了基于 LoRA 的全新大模型微調(diào)方法:LongLoRA ,僅用一臺8卡機(jī)器就能將 Llama2 模型從原本的4k tokens 處理長度拓展到 32k,甚至是 100k。
此外,為了提升模型的長文本對話能力,團(tuán)隊還構(gòu)建了高質(zhì)量長文本對話數(shù)據(jù)集 LongAlpaca-12k,并開源了首個 70B 參數(shù)量的長文本大語言模型 LongAlpaca-70B。該工作的代碼、數(shù)據(jù)集、模型和 demos 已經(jīng)全部開源在https://github.com/dvlab-research/LongLoRA。

香港中文大學(xué)在讀博士陳玉康:高效的大型語言模型長文本訓(xùn)練方法 LongLoRA|AI新青年講座

11月27日晚7點,「AI新青年講座」第230講邀請到 LongLoRA 一作、香港中文大學(xué)在讀博士陳玉康參與,主講《高效的大型語言模型長文本訓(xùn)練方法 LongLoRA》。

講者
陳玉康,香港中文大學(xué)在讀博士;研究方向包括大語言模型、AutoML、3D 視覺等,曾在 CVPR、NeurIPS、T-PAMI 等頂級會議期刊上發(fā)表論文20篇,Google Scholar Citation 1300+。

第230講

主題
《高效的大型語言模型長文本訓(xùn)練方法 LongLoRA》

提綱
1、大語言模型長文本對話的難點
2、基于 LongLoRA 的長文本模型微調(diào)方法
3、長文本對話數(shù)據(jù)集 LongAlpaca-12k
4、開源的長文本大語言模型 LongAlpaca-70B

直播信息
直播時間:11月27日19:00
直播地點:智東西公開課知識店鋪

成果
論文標(biāo)題:《LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models》
論文地址:http://arxiv.org/abs/2309.12307
開源代碼:https://github.com/dvlab-research/LongLoRA