「大型語言模型技術(shù)公開課」由智東西公開課教研組全新出品,將持續(xù)邀請 LLM 領(lǐng)域的技術(shù)大牛和科研人員,對開源的大模型語言模型及其背后的技術(shù)細節(jié)以視頻直播形式進行深入講解。
在這一季,潞晨科技技術(shù) VP 柳泓鑫、新加坡國立大學在讀博士張傲、香港科技大學在讀博士刁詩哲和騰訊 AI LAB 高級研究員宋林四位主講人,將先后針對 ColossalChat、VPGTrans、LMFlow,以及 GPT4Tools 這四個開源項目帶來講解和答疑。
5月29日晚7點,新加坡國立大學在讀博士張傲將帶來「大型語言模型技術(shù)公開課」第二講的直播,講解的主題為《10%成本定制類 GPT-4 多模態(tài)對話模型》。
GPT-4、BLIP-2、Flamingo 等多模態(tài)(對話)大模型的出現(xiàn),將大語言模型的強大能力擴展到多模態(tài)輸入,實現(xiàn)了強大的多模態(tài)語義理解。然而,訓練一個多模態(tài)對話模型往往需要成百上千塊 GPU、以及很長時間和上億的數(shù)據(jù)。
針對多模態(tài)(對話)大模型,來自新加坡國立大學、清華大學的研究者們開源了一個 VPGTrans 框架,可以將已有的 BLIP-2 OPT-6.7B 模型的訓練開銷由 17901 元縮減到 1673 元,且模型效果相仿或更好。
同時,在近期新放出的語言模型 LLaMA 和 Vicuna 上,研究者們也對 VPGTrans 進行了驗證 ,構(gòu)建并開源了 VL-LLaMA 和 VL-Vicuna 模型。其中,VL-Vicuna 模型可以進行高質(zhì)量的多模態(tài)對話。
在這一講,張傲首先會對新一代的多模態(tài)大模型進行梳理,之后深度講解類 GPT4 多模態(tài)模型構(gòu)建框架 VPGTrans 及其原理。最后,他也會對 VPGTrans 的兩個應用實例:開源 VL-LLaMA 和 VL-Vicuna 進行解讀。
第二講
主 題
《10%成本定制類 GPT-4 多模態(tài)對話模型》
提 綱
1、新一代多模態(tài)大模型概述
2、類 GPT4 多模態(tài)模型構(gòu)建框架 VPGTrans
3、VPGTrans重點實驗解析
4、VPGTrans應用實例:開源 VL-LLaMA 和 VL-Vicuna
主 講 人
張傲,新加坡國立大學在讀博士;研究方向為多模態(tài)學習,導師為Chua Tat-Seng;曾在 ICCV、ECCV、EMNLP 等頂會發(fā)表多篇論文;代表工作有超大規(guī)模場景圖生成方法 IETrans (ECCV 2022 Oral),多模態(tài)提示學習方法 colorful prompt tuning (CPT)。
直 播 時 間
5月29日19:00