隨著數(shù)據(jù)和模型規(guī)模的大幅擴展,大型語言模型(LLMs)的基礎(chǔ)模型已經(jīng)取得了顯著的成功。很多模型通過零/少樣本學(xué)習(xí),而無需大量的任務(wù)特定數(shù)據(jù)或模型參數(shù)更新,就能擁有先進的能力,包括語言理解、生成、推理和與代碼相關(guān)的任務(wù)。
視覺任務(wù)不同于語言任務(wù),很難找到一種封閉定義去囊括所有的任務(wù)形式。那么,視覺任務(wù)的終局是什么?有沒有可能做到像現(xiàn)在語言任務(wù)的大一統(tǒng)?同時,在這個大模型、多模態(tài)等前沿領(lǐng)域快速更新迭代的時代,研究者們又該如何在緊跟日新月異的技術(shù)發(fā)展潮流的同時,做出有自己特色的研究呢?
8月30日晚7點,智東西公開課推出「大規(guī)模視覺基礎(chǔ)模型在線研討會」。研討會由南開大學(xué)副教授李翔博士參與出品。李翔博士入選了南開大學(xué)百青計劃、博士后創(chuàng)新人才支持計劃,在 CVPR、NeurIPS 及權(quán)威期刊 TPAMI 等上發(fā)表40余篇學(xué)術(shù)論文,谷歌學(xué)術(shù)總引用達7400余次,合作提出的 PVT 模型入選 ICCV21 Top-10 最具影響力工作(排名第二,第一名為馬爾獎Swin Transformer)。
本次研討會,香港中文大學(xué)博士后王文海、微軟亞洲研究院研究員宋愷濤和南京理工大學(xué)在讀博士楊凌風(fēng)三位青年學(xué)者將參與主講。他們將分別圍繞主題《“大規(guī)模視覺基礎(chǔ)模型 + LLM”在開放世界任務(wù)中的應(yīng)用初探》、《基于 ChatGPT + Hugging Face 解決復(fù)雜人工智能任務(wù)》和《大型視覺語言模型的細粒度視覺提示及局部定位識別》進行深度講解。
出品人
李翔博士,南開大學(xué)計算機學(xué)院副教授;入選南開大學(xué)百青計劃、博士后創(chuàng)新人才支持計劃,主持國家自然科學(xué)青年基金,獲江蘇省人工智能學(xué)會優(yōu)秀博士論文獎,CCF優(yōu)秀博士論文提名獎;在CCF A 類會議CVPR、NeurIPS及權(quán)威期刊TPAMI等上發(fā)表40余篇學(xué)術(shù)論文,包括第一作者和通訊作者20余篇;谷歌學(xué)術(shù)總引用達7400余次,一作代表工作SKNet(CVPR19)引用1700余次;長期擔(dān)任國際人工智能頂級會議AAAI、CVPR及權(quán)威期刊TPAMI、TIP、TMM審稿人,擔(dān)任PRCV23領(lǐng)域主席,Image and Vision Computing期刊副主編。
主題介紹
香港中文大學(xué)博士后王文海:“大規(guī)模視覺基礎(chǔ)模型 + LLM”在開放世界任務(wù)中的應(yīng)用初探
近年來,以ChatGPT為代表的大規(guī)模語言模型已在自然語言處理開放世界任務(wù)中獲得了極大的成功。然而,由于其受到模態(tài)的限制,這些模型在計算機視覺和視覺語言任務(wù)中的應(yīng)用仍然受到限制。
在本次分享,我們將從大規(guī)模視覺基礎(chǔ)模型開始,探討視覺基礎(chǔ)模型與大規(guī)模語言模型在以視覺為中心的開放世界任務(wù)中的應(yīng)用。包括:(1)大規(guī)模視覺基礎(chǔ)模型的構(gòu)建和訓(xùn)練;(2)視覺基礎(chǔ)模型和大規(guī)模語言模型在開放世界視覺交互系統(tǒng)中協(xié)同應(yīng)用;(3)更靈活的大規(guī)模語言模型在開放世界視覺和視覺語言任務(wù)中的使用方法。
微軟亞洲研究院研究員宋愷濤:基于 ChatGPT + Hugging Face 解決復(fù)雜人工智能任務(wù)
利用不同領(lǐng)域和模態(tài)的復(fù)雜人工智能任務(wù)是邁向先進人工智能的關(guān)鍵一步。雖然針對不同領(lǐng)域和模態(tài)存在大量的人工智能模型,但它們無法處理復(fù)雜的人工智能任務(wù)。考慮到大型語言模型(LLMs)在語言理解、生成、交互和推理方面表現(xiàn)出色的能力,我們認為 LLMs 可以充當控制器,管理現(xiàn)有的人工智能模型來解決復(fù)雜的人工智能任務(wù),而語言可以作為通用接口來實現(xiàn)這一點?;谶@一理念,我們提出了一個框架,利用 LLMs(例如ChatGPT)來連接機器學(xué)習(xí)社區(qū)中的各種人工智能模型(例如Hugging Face)來解決人工智能任務(wù)。
具體而言,我們使用 ChatGPT 在接收用戶請求時進行任務(wù)規(guī)劃,根據(jù) Hugging Face 中可用的模型功能描述來選擇模型,使用所選的人工智能模型執(zhí)行每個子任務(wù),并根據(jù)執(zhí)行結(jié)果總結(jié)回應(yīng)。通過充分利用 ChatGPT 的強大語言能力和 Hugging Face 中豐富的人工智能模型,我們的系統(tǒng)(即HuggingGPT)能夠涵蓋許多不同模態(tài)和領(lǐng)域的復(fù)雜人工智能任務(wù),并在語言、視覺、語音和其他具有挑戰(zhàn)性的任務(wù)方面取得令人印象深刻的結(jié)果,為邁向人工通用智能開辟了新的道路。
南京理工大學(xué)在讀博士楊凌風(fēng):大型視覺語言模型的細粒度視覺提示及局部定位識別
大型視覺語言模型在多個圖像層級的任務(wù)上取得優(yōu)秀表現(xiàn),但是其潛在的知識難以被應(yīng)用于局部定位識別任務(wù)?,F(xiàn)有的零樣本遷移方法使用了視覺提示的策略,但是其提示設(shè)計存在不準確、引入噪聲等問題。
我們通過流程圖以及實例可視化展示了我們的解決方法,并在展示了在多個數(shù)據(jù)集上的實驗結(jié)果。最后,我們對各個方法進行了有效性分析,并進行了視覺提示的結(jié)果可視化。