現(xiàn)有的多模態(tài)大模型(MLLM)通常將預(yù)訓(xùn)練的視覺編碼器與大語言模型結(jié)合來實現(xiàn),即模塊化MLLM。最近新興的Chameleon、EVE等原生MLLM,將視覺感知和多模態(tài)理解直接集成到LLM中,能夠更方便地通過現(xiàn)有工具進(jìn)行部署,且具備更高的推理效率。

然而,由于原生MLLM缺乏視覺能力,但視覺預(yù)訓(xùn)練過程中語言基座能力常常出現(xiàn)災(zāi)難性遺忘問題,這導(dǎo)致現(xiàn)有原生MLLM的性能仍顯著低于模塊化MLLM。

為此,上海人工智能實驗室通用視覺團隊(OpenGVLab)聯(lián)合清華大學(xué)、上海交通大學(xué)等提出了全新的原生多模態(tài)大模型Mono-InternVL。該模型采用增量預(yù)訓(xùn)練方法,解決了此前原生MLLM中的災(zāi)難性遺忘問題。與非原生模型相比,Mono-InternVL首個單詞延遲能夠降低67%,且在多個評測數(shù)據(jù)集上均達(dá)到了SOTA水準(zhǔn)。

解決原生MLLM災(zāi)難性遺忘問題!上海AI Lab提出原生多模態(tài)大模型Mono-InternVL | 博士后研究員羅根講座預(yù)告

相比于現(xiàn)有多模態(tài)大模型,Mono-InternVL無需額外的視覺編碼器,通過內(nèi)嵌視覺專家打通了一條從大語言模型到原生多模態(tài)模型擴展的新路徑,且2B模型多模態(tài)能力優(yōu)于7B參數(shù)的現(xiàn)有原生多模態(tài)模型,多個指標(biāo)超越了InternVL1.5。

Mono-InternVL兼具了視覺靈活性和部署高效性,支持高達(dá)2M像素輸入的動態(tài)圖像分辨率,在原生多模態(tài)架構(gòu)中感知精度最高。相比于InternVL1.5,在部署框架上首個單詞延遲最多降低67%,整體吞吐量提高31%。

解決原生MLLM災(zāi)難性遺忘問題!上海AI Lab提出原生多模態(tài)大模型Mono-InternVL | 博士后研究員羅根講座預(yù)告

11月7日19點,智猩猩邀請到論文一作、上海 AI Lab OpenGVLab 博士后研究員羅根參與「智猩猩通用視覺講座」03講,主講《Mono-InternVL: 突破原生多模態(tài)大模型性能瓶頸》。

講者

羅根,上海 AI Lab OpenGVLab 博士后研究員

羅根圍繞跨媒態(tài)理解相關(guān)方向展開了一系列深入研究,在 IEEE TPAMI、IJCV、IEEE TIP、NeurIPS、CVPR、AAAI 等 CCF推薦的國際頂級期刊及會議論文上發(fā)表論文 20余篇, 6 篇論文被CVPR、ECCV和MM等頂級國際會議評為口頭報告,谷歌學(xué)術(shù)總引用一千余次。第 3 講

?主 題?

《Mono-InternVL: 突破原生多模態(tài)大模型性能瓶頸》?

提 綱?

1、模塊化大模型與原生大模型對比分析
2、原生多模態(tài)大模型Mono-InternVL解析
3、原生MLLM面臨的的災(zāi)難性遺忘問題
4、增量內(nèi)生視覺預(yù)訓(xùn)練(EViP)方法
5、實驗比較及模型性能展示

直 播 信 息

直播時間:11月7日19:00

成果

論文標(biāo)題
《Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training》
論文鏈接
https://arxiv.org/abs/2410.08202
項目地址
https://internvl.github.io/blog/2024-10-10-Mono-InternVL/

如何報名

有講座直播觀看需求的朋友,可以添加小助手“沐可”進(jìn)行報名。已添加過“沐可”的老朋友,可以給“沐可”私信,發(fā)送“通用視覺03”進(jìn)行報名。對于通過報名的朋友,之后將邀請入群進(jìn)行觀看和交流。

解決原生MLLM災(zāi)難性遺忘問題!上海AI Lab提出原生多模態(tài)大模型Mono-InternVL | 博士后研究員羅根講座預(yù)告