「AI新青年講座」將邀請世界頂尖AI研究機構(gòu)和大學(xué)的科研新青年,主講他們在計算機視覺、機器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。
「AI新青年講座」目前已完結(jié)220講;有興趣分享學(xué)術(shù)成果的朋友,可以與智東西公開課教研團隊進行郵件(class@zhidx.com)聯(lián)系。
大語言模型已經(jīng)給自然語言處理領(lǐng)域帶來了新的革命。在計算機視覺領(lǐng)域,Meta AI近期推出的Segment Anything Model(SAM)工作,在視覺定位(Localization)任務(wù)上取得了令人振奮的結(jié)果。然而SAM作為一個極致的定位大模型,并沒有識別(Recognition)能力,而識別是與定位同等重要的CV基礎(chǔ)任務(wù)?,F(xiàn)有的開放式檢測、分割任務(wù)嘗試同時做好識別和定位,卻在兩個任務(wù)上都不能達到極致。
來自 OPPO 研究院、IDEA研究院的研究者們最新開源了一個視覺感知大模型Recognize Anything Model(RAM),提供最強的圖像識別能力。RAM 為圖像識別領(lǐng)域提供了一種新的范式,使用海量無需人工標(biāo)注的網(wǎng)絡(luò)數(shù)據(jù),可以訓(xùn)練出泛化能力強大的通用模型,甚至在垂域下可以超越人工標(biāo)注訓(xùn)練的有監(jiān)督模型。

RAM 可以以較高的準(zhǔn)確率自動識別超過 6400 類的圖像標(biāo)簽,橫跨學(xué)術(shù)數(shù)據(jù)集和商業(yè)化產(chǎn)品,并根據(jù)其 Open-Set 能力覆蓋任意標(biāo)簽類別。

7月27日晚7點,「AI新青年講座」第221講邀請到 RAM 一作、OPPO 研究院研究實習(xí)生、復(fù)旦大學(xué)在讀博士黃新宇參與,主講《視覺感知新范式——萬物識別大模型 RAM》。
講者
黃新宇復(fù)旦大學(xué)在讀博士,同時是 OPPO 研究院研究實習(xí)生,并與粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院保持密切合作;研究方向為多模態(tài)學(xué)習(xí)與圖像視覺理解,提出的 Recognize Anything(RAM)模型是目前最強的開源圖像識別模型。
主 題
《視覺感知新范式——萬物識別大模型 RAM》
提 綱
1、圖像分割大模型 SAM 概述
2、現(xiàn)有檢測、分割模型的局限性
3、開源圖像識別大模型 RAM
4、泛化訓(xùn)練及未來研究探討
直 播 信 息
直播時間:7月27日19:00
直播地點:智東西公開課知識店鋪
成果
論文標(biāo)題:《Recognize Anything: A Strong Image Tagging Mode》
論文地址:https://arxiv.org/pdf/2306.03514.pdf
代碼地址:https://github.com/xinyu1205/recognize-anything
Huggingface Demo:https://huggingface.co/spaces/xinyu1205/recognize-anything