今年9月起,智東西公開課品牌全新升級(jí)為智猩猩。智猩猩定位硬科技講解與服務(wù)平臺(tái),提供公開課、在線研討會(huì)、講座、峰會(huì)等線上線下產(chǎn)品。

「AI新青年講座」由智猩猩出品,致力于邀請(qǐng)青年學(xué)者,主講他們?cè)谏墒紸I、LLM、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對(duì)人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識(shí)也能夠得以積累加深。同時(shí),通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。

「AI新青年講座」現(xiàn)已完結(jié)231講;有興趣分享學(xué)術(shù)成果的朋友,可以與智猩猩教研產(chǎn)品團(tuán)隊(duì)進(jìn)行郵件(class@zhidx.com)聯(lián)系。

LLaVA 是第一個(gè)在圖像理解和推理方面具有類似 GPT-4V 級(jí)別的能力的開源大模型。在去年7月份,LLaVA 一作、美國威斯康星大學(xué)麥迪遜分校在讀博士柳昊天,曾圍繞主題《基于視覺指令調(diào)整的多模態(tài)聊天機(jī)器人 LLaVA》對(duì) LLaVA 進(jìn)行深度講解。在今年的NeurIPS 2023 上,LLaVA 也獲得了 Oral。

清華大學(xué)在讀博士劉世?。篖LaVA-Plus——學(xué)習(xí)使用視覺工具插件的多模態(tài)智能體|AI新青年講座

結(jié)合最近的 AI Agent,柳昊天博士聯(lián)合清華大學(xué)的劉世隆博士等人最新又提出了 LLaVA-Plus,使用插件(視覺工具)提升多模態(tài)大語言模型的視覺能力,擴(kuò)展了多模態(tài)大語言模型 LLaVA,使其支持了包括檢測(cè)、分割、檢索、生成、編輯在內(nèi)的多種視覺能力。

LLaVA-Plus 維護(hù)著一個(gè)技能庫,其中包含各種視覺和視覺語言預(yù)訓(xùn)練模型(工具),并且能夠根據(jù)用戶的多模式輸入激活相關(guān)工具,以即時(shí)組合執(zhí)行結(jié)果來完成許多現(xiàn)實(shí)任務(wù)。通過實(shí)驗(yàn)也驗(yàn)證了 LLaVA-Plus 的有效性,在多個(gè)基準(zhǔn)測(cè)試中取得了持續(xù)改進(jìn)的結(jié)果,特別是在 VisIT-Bench 上達(dá)到了的新 SoTA。

清華大學(xué)在讀博士劉世?。篖LaVA-Plus——學(xué)習(xí)使用視覺工具插件的多模態(tài)智能體|AI新青年講座

12月26日晚7點(diǎn),LLaVA-Plus 一作、清華大學(xué)在讀博士劉世隆將參與到「AI新青年講座」第232講,主講《LLaVA-Plus:學(xué)習(xí)使用視覺工具插件的多模態(tài)智能體》。

講者
劉世隆,清華大學(xué)在讀博士;導(dǎo)師朱軍教授;長期在粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(IDEA Research)實(shí)習(xí),接受張磊教授指導(dǎo);曾在 Microsof t實(shí)習(xí);主要研究方向包括目標(biāo)檢測(cè)和多模態(tài)學(xué)習(xí),曾獲得 CCF-CV 學(xué)術(shù)新銳,代表工作包括 DAB-DETR、DINO 和 Grounding DINO 等。

第232講
主 題
《LLaVA-Plus:學(xué)習(xí)使用視覺工具插件的多模態(tài)智能體》

提 綱
1、AI Agent 的研究概述
2、基于大語言模型的多模態(tài)智能體構(gòu)建方法
3、LLaVA-Plus 多模態(tài)能力的插件實(shí)現(xiàn)
4、LLaVA-Plus 的 SoTA 性能驗(yàn)證

直 播 信 息
直播時(shí)間:12月26日19:00
直播地點(diǎn):智東西公開課知識(shí)店鋪

成果
論文標(biāo)題:《LLaVA-Plus: Large Language and Vision Assistants that Plug and Learn to Use Skills》
論文地址:https://arxiv.org/pdf/2311.05437.pdf
開源代碼:https://github.com/LLaVA-VL/LLaVA-Plus-Codebase