智東西(公眾號(hào):zhidxcom)
編譯 | 王涵
編輯 | 漠影

智東西6月16日消息,上周五,IEEE計(jì)算機(jī)學(xué)會(huì)(CS)與計(jì)算機(jī)視覺基金會(huì)(CVF)聯(lián)合公布了2025年計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(CVPR)獲獎(jiǎng)?wù)撐募氨灸甓華I藝術(shù)獎(jiǎng)項(xiàng)。本次公布的7篇獲獎(jiǎng)?wù)撐?strong>全部都華人科研人員參與其中,其中2篇文章由全華人團(tuán)隊(duì)完成。尤為亮眼的是,斬獲 “CVPR 2025 最佳論文” 的成果同樣出自華人研究員之手。

CVPR是IEEE國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) 。它是計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域最重要的年度國際會(huì)議之一,被公認(rèn)為該領(lǐng)域的頂級(jí)盛會(huì),許多人甚至稱其為計(jì)算機(jī)視覺界的“奧斯卡”。

該會(huì)議的論文錄用標(biāo)準(zhǔn)非常嚴(yán)格,今年共有13008份有效投稿并進(jìn)入評(píng)審流程,其中2878篇被錄用,最終錄用率為22.1%。而其中能夠進(jìn)行口頭報(bào)告的論文更是少之又少,這意味著能被CVPR錄用的論文,通常代表了該領(lǐng)域最前沿、最具創(chuàng)新性的研究方向和最高水平。

一、CVPR 2025最佳論文:華人一作,多項(xiàng)3D任務(wù)達(dá)最先進(jìn)水平

摘得CVPR 2025最佳論文的論文題目為《VGGT: Visual Geometry Grounded Transformer》(VGGT:視覺幾何基礎(chǔ)Transformer)。作者包括Jianyuan Wang、Minghao Chen、Nikita Karaev、Andrea Vedaldi、Christian Rupprecht、David Novotny,來自牛津大學(xué)與Meta AI的工程師團(tuán)隊(duì),其中第一作者Jianyuan Wang、第二作者M(jìn)inghao Chen均為華人

計(jì)算機(jī)視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該文章提出VGGT(視覺幾何基礎(chǔ)Transformer),能夠直接從單視角、多視角乃至上百個(gè)視角中推斷場(chǎng)景的所有關(guān)鍵3D屬性,包括相機(jī)參數(shù)、點(diǎn)云圖、深度圖和3D點(diǎn)軌跡。該方法推動(dòng)了3D計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,傳統(tǒng)模型通常局限于單一任務(wù)且需要專門優(yōu)化。

VGGT不僅結(jié)構(gòu)簡(jiǎn)潔高效(圖像重建耗時(shí)不足1秒),其性能更超越了需要視覺幾何優(yōu)化技術(shù)進(jìn)行后處理的替代方案。該網(wǎng)絡(luò)在多項(xiàng)3D任務(wù)中達(dá)到最先進(jìn)水平,包括相機(jī)參數(shù)估計(jì)、多視角深度估計(jì)、稠密點(diǎn)云重建和3D點(diǎn)追蹤。實(shí)驗(yàn)表明,將預(yù)訓(xùn)練的VGGT作為特征骨干網(wǎng)絡(luò),可顯著提升非剛性點(diǎn)追蹤和前饋式新視角合成等下游任務(wù)的性能。

二、CVPR 2025最佳學(xué)生論文:根據(jù)物理規(guī)律逆向渲染,可屏蔽反射光干擾

獲得CVPR 2025最佳學(xué)生論文的是《Neural Inverse Rendering from Propagating Light》(傳播光線的神經(jīng)逆向渲染),作者包括Anagh Malik、Benjamin Attal、 Andrew Xie、 Matthew O’Toole、David B. Lindell,來自多倫多大學(xué)、Vector研究所與卡內(nèi)基梅隆大學(xué),其中第三作者Andrew Xie為華人。

計(jì)算機(jī)視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該團(tuán)隊(duì)首次實(shí)現(xiàn)基于物理的神經(jīng)逆向渲染系統(tǒng),能夠處理多視角傳播光線視頻。該方法通過擴(kuò)展神經(jīng)輻射緩存技術(shù)(一種通過存儲(chǔ)任意點(diǎn)從各方向接收的無限次彈射輻射來加速逆向渲染的技術(shù)),引入時(shí)間分辨率維度。所構(gòu)建的模型能精確模擬直接與間接光傳輸效應(yīng),當(dāng)應(yīng)用于閃光激光雷達(dá)系統(tǒng)的捕獲數(shù)據(jù)時(shí),可在強(qiáng)間接光照環(huán)境下實(shí)現(xiàn)最先進(jìn)的3D重建。此外,該團(tuán)隊(duì)還展示了傳播光線的視角合成、捕獲數(shù)據(jù)的直接/間接光自動(dòng)分解,以及多視角時(shí)間分辨重照明等創(chuàng)新功能。

三、榮譽(yù)提名獎(jiǎng)項(xiàng):華為和北大浙大的全華團(tuán)隊(duì)奪得最佳學(xué)生論文提名

榮譽(yù)提名獎(jiǎng)項(xiàng)授予那些在質(zhì)量上僅次于最佳論文,但同樣非常優(yōu)秀且具有顯著影響力的論文。它表明這些論文雖然不是最終的“第一名”,但其研究成果和貢獻(xiàn)也得到了高度認(rèn)可。

其中共有4篇論文獲得最佳論文榮譽(yù)提名,1篇論文獲得最佳學(xué)生論文提名,分別是:

1、最佳論文榮譽(yù)提名

《MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos》(MegaSaM:從動(dòng)態(tài)視頻中快速穩(wěn)健地重建結(jié)構(gòu)與運(yùn)動(dòng)),作者包括Zhengqi Li、Richard Tucker、Forrester Cole、Qianqian Wang、Linyi Jin、Vickie Ye、Angjoo Kanazawa、Aleksander Holynski、Noah Snavely,來自谷歌DeepMind與加州大學(xué)伯克利分校和密歇根大學(xué),其中第一作者Zhengqi Li和共同作者Qianqian Wang、Linyi Jin、Vickie Ye為華人

計(jì)算機(jī)視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

來自谷歌DeepMind與加州大學(xué)伯克利分校、密歇根大學(xué)的團(tuán)隊(duì)提出了一種能夠從動(dòng)態(tài)場(chǎng)景的單目視頻中快速、準(zhǔn)確且穩(wěn)定地估計(jì)相機(jī)參數(shù)和深度圖的系統(tǒng)。傳統(tǒng)運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(Structure from Motion)和單目SLAM技術(shù)大多假設(shè)輸入視頻以靜態(tài)場(chǎng)景為主且具有顯著視差,當(dāng)這些條件不滿足時(shí)往往會(huì)產(chǎn)生錯(cuò)誤估計(jì)。近期基于神經(jīng)網(wǎng)絡(luò)的方法嘗試解決這些問題,但這些方法要么計(jì)算成本高昂,要么在相機(jī)運(yùn)動(dòng)不受控或視場(chǎng)未知的動(dòng)態(tài)視頻中表現(xiàn)脆弱。

該團(tuán)隊(duì)證明了一個(gè)深度視覺SLAM框架經(jīng)過訓(xùn)練和推理方案的精心改進(jìn)后,能夠驚人地適應(yīng)真實(shí)世界中相機(jī)路徑不受限的復(fù)雜動(dòng)態(tài)場(chǎng)景視頻(包括相機(jī)視差較小的視頻)。在合成與真實(shí)視頻上的大量實(shí)驗(yàn)表明,相較于現(xiàn)有研究,該系統(tǒng)在相機(jī)位姿和深度估計(jì)方面顯著提升了精度與穩(wěn)定性,同時(shí)保持相當(dāng)或更快的運(yùn)行速度。

《Navigation World Models》(導(dǎo)航世界模型),作者包括Amir Bar、Gaoyue Zhou、?Danny Tran、Trevor Darrell、Yann LeCun(楊立昆),來自Meta FAIR團(tuán)隊(duì)、紐約大學(xué)與伯克利大學(xué)AI研究所,其中第二作者Gaoyue Zhou為華人

計(jì)算機(jī)視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該團(tuán)隊(duì)提出導(dǎo)航世界模型(Navigation World Model,NWM),這是一種基于視覺運(yùn)動(dòng)能力的智能體基礎(chǔ)導(dǎo)航系統(tǒng)。作為可控視頻生成模型,NWM能根據(jù)歷史觀測(cè)和導(dǎo)航動(dòng)作預(yù)測(cè)未來視覺場(chǎng)景。為捕捉復(fù)雜環(huán)境動(dòng)態(tài),NWM采用條件擴(kuò)散Transformer架構(gòu)(Conditional Diffusion Transformer, CDiT),通過大規(guī)模訓(xùn)練(10億參數(shù))于人類和機(jī)器人主體的第一視角視頻數(shù)據(jù)集。

在熟悉環(huán)境中,NWM可通過軌跡模擬與目標(biāo)達(dá)成度評(píng)估自主規(guī)劃路徑。與傳統(tǒng)固定行為的監(jiān)督式導(dǎo)航策略不同,NWM能在規(guī)劃過程中動(dòng)態(tài)整合約束條件。實(shí)驗(yàn)證明其具備兩種核心能力:(1)從零開始規(guī)劃軌跡;(2)對(duì)外部策略采樣軌跡進(jìn)行擇優(yōu)。更突出的是,NWM能基于單張輸入圖像,利用學(xué)習(xí)到的視覺先驗(yàn)對(duì)陌生環(huán)境進(jìn)行軌跡推演,這使其成為新一代導(dǎo)航系統(tǒng)中兼具靈活性與強(qiáng)大性能的工具。

《Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models》(Molmo與PixMo:先進(jìn)視覺語言模型的開源權(quán)重與數(shù)據(jù)),有Matt Deitke、Christopher Clark、Sangho Lee、Rohun Tripathi、Yue Yang、Jae Sung Park、Mohammadreza Salehi、Niklas Muennighoff、Kyle Lo、Luca Soldaini等39名作者,來自艾倫人工智能研究所與華盛頓大學(xué),有Yue Yang等多名華人為共同作者。

計(jì)算機(jī)視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該團(tuán)隊(duì)提出Molmo系列模型。核心突破在于PixMo數(shù)據(jù)集組合:包含用于預(yù)訓(xùn)練的精細(xì)化圖像描述數(shù)據(jù)集、用于微調(diào)的自由格式圖像問答數(shù)據(jù)集,以及創(chuàng)新的2D指向數(shù)據(jù)集,所有數(shù)據(jù)均未借助外部VLM生成。該方案的成功取決于三個(gè)要素:(1)精細(xì)的建模選擇;(2)優(yōu)化充分的訓(xùn)練流程;(3)最關(guān)鍵的新建數(shù)據(jù)集質(zhì)量。他們提出的72B旗艦?zāi)P筒粌H超越同類開源模型,更在學(xué)術(shù)基準(zhǔn)和大規(guī)模人工評(píng)估中勝過Claude 3.5 Sonnet、Gemini 1.5 Pro/Flash等商業(yè)大模型,性能僅次于GPT-4o。

《3D Student Splatting and Scooping》(3D學(xué)生飛濺與挖掘技術(shù)),作者包括Jialin Zhu、Jiangbei Yue、Feixiang He、He Wang,來自倫敦大學(xué)與倫敦大學(xué)AI中心、利茲大學(xué),三名作者全部為華人

計(jì)算機(jī)視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該團(tuán)隊(duì)提出了一個(gè)由靈活的學(xué)生t分布(Student’s t distributions)組成的新混合模型,該模型同時(shí)包含正密度(濺射)和負(fù)密度(舀?。?。此模型被命名為“學(xué)生濺射與舀取”(Student Splatting and Scooping),簡(jiǎn)稱SSS。通過在多個(gè)數(shù)據(jù)集、設(shè)置和指標(biāo)上進(jìn)行的詳盡評(píng)估與比較,該團(tuán)隊(duì)證明了SSS在質(zhì)量和參數(shù)效率方面均優(yōu)于現(xiàn)有方法。例如,在使用相似數(shù)量組件的情況下,SSS能達(dá)到同等或更優(yōu)的質(zhì)量;并且在將組件數(shù)量減少高達(dá)82%的情況下,仍能獲得可比較的結(jié)果。

2、最佳學(xué)生論文榮譽(yù)提名

獲得最佳學(xué)生論文榮譽(yù)提名的論文是《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》(基基于離散擴(kuò)散時(shí)間步長(zhǎng)tokens的生成式多模態(tài)預(yù)訓(xùn)練),作者包括Kaihang Pan, Wang Lin, Zhongqi Yue, Tenglong Ao, Liyu Jia, Wei Zhao, Juncheng Li, Siliang Tang, Hanwang Zhang,來自華為新加坡研究中心、北京大學(xué)、浙江大學(xué)與南洋理工大學(xué),全華人團(tuán)隊(duì)。

計(jì)算機(jī)視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

多模態(tài)大語言模型(MLLM)的最新研究致力于通過結(jié)合LLM與擴(kuò)散模型(分別為各自任務(wù)中的前沿技術(shù))來實(shí)現(xiàn)視覺理解與生成的統(tǒng)一?,F(xiàn)有方法依賴于空間視覺tokens,即圖像塊按空間順序(如光柵掃描)編碼排列。但研究發(fā)現(xiàn),空間tokens缺乏語言固有的遞歸結(jié)構(gòu),導(dǎo)致LLM難以掌握這種 “非語言化” 表征。

該研究提出通過擴(kuò)散時(shí)間步長(zhǎng)學(xué)習(xí)離散遞歸視覺tokens,可隨時(shí)間步長(zhǎng)遞增遞歸補(bǔ)償噪聲圖像的漸進(jìn)屬性損失,使擴(kuò)散模型能在任意時(shí)間步重建原始圖像。該方法有效融合了LLM自回歸推理優(yōu)勢(shì)與擴(kuò)散模型精確圖像生成能力,在統(tǒng)一框架內(nèi)實(shí)現(xiàn)了無縫多模態(tài)理解與生成。大量實(shí)驗(yàn)表明,相比其他MLLMs,該模型在多模態(tài)理解與生成任務(wù)上同步取得了更優(yōu)性能。

四、讓AI與藝術(shù)對(duì)話,全華人團(tuán)隊(duì)獲獎(jiǎng)

除技術(shù)研究外,CVPR AI藝術(shù)項(xiàng)目(AI Art Program)探索科學(xué)與藝術(shù)的交叉領(lǐng)域,征集運(yùn)用計(jì)算機(jī)視覺技術(shù)(包括生成模型、物體與面部識(shí)別等)的創(chuàng)作作品。今日公布的獲獎(jiǎng)作品從100余件入選作品中脫穎而出:

1、Tom White的《Atlas of Perception(感知圖冊(cè))》,通過探索神經(jīng)網(wǎng)絡(luò)的潛空間(latent space),揭示視覺模型的“視覺詞匯”。該雕塑作品解析機(jī)器如何理解世界,展現(xiàn)外觀本身的語法規(guī)則:視覺的模塊化語義。

計(jì)算機(jī)視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

2、Masaru Mizuochi的《Green Diffusion(綠色擴(kuò)散)》,將土壤微生物分解物質(zhì)為養(yǎng)分的“破壞”過程,與AI擴(kuò)散模型(diffusion model)的加噪去噪“創(chuàng)造”過程并置,凸顯二者的同步性。

計(jì)算機(jī)視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

3、全華人團(tuán)隊(duì)Mingyong Cheng, Sophia Sun, Han Zhang的《Learning to Move, Learning to Play, Learning to Animate(學(xué)習(xí)運(yùn)動(dòng)、學(xué)習(xí)游戲、學(xué)習(xí)動(dòng)畫)》,是跨學(xué)科多媒體表演作品,包含自主研發(fā)的拾得材料機(jī)器人、實(shí)時(shí)AI生成、動(dòng)作追蹤、音頻空間化及基于生物反饋(bio-feedback)的音頻合成技術(shù)。

計(jì)算機(jī)視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

AI藝術(shù)項(xiàng)目策展人Luba Elliott評(píng)價(jià)稱:“AI與藝術(shù)交匯處蘊(yùn)藏豐富素材,本項(xiàng)目鼓勵(lì)藝術(shù)家持續(xù)探索其潛力。祝賀所有獲獎(jiǎng)?wù)呒皡⑴c者對(duì)當(dāng)下圖景的深刻詮釋。”

結(jié)語:華人正站在世界AI研究前沿

CVPR 2025程序委員會(huì)聯(lián)合主席、美國麻省理工學(xué)院(MIT)副教授Phillip Isola對(duì)以上獲獎(jiǎng)?wù)撐馁澷p稱:“這些論文代表了本屆會(huì)議最高質(zhì)量的研究成果,包含突破性發(fā)現(xiàn)、廣受關(guān)注的重要工具以及富有創(chuàng)造力的新思路。”

此次CVPR 2025大會(huì)上,科技巨頭Meta和谷歌都沒有缺席領(lǐng)獎(jiǎng)臺(tái),華為的研究團(tuán)隊(duì)也獲得了榮譽(yù)提名。除此之外,華人在獲獎(jiǎng)?wù)撐闹械膮⑴c度讓人十分驚喜。

華人在CVPR 2025上的超高“出鏡率”?凸顯了華人在全球計(jì)算機(jī)視覺與模式識(shí)別領(lǐng)域的卓越貢獻(xiàn),多篇獲獎(jiǎng)?wù)撐募俺晒舱蔑@了中國在全球AI發(fā)展進(jìn)程中日益增長(zhǎng)的影響力。

來源:CVPR 2025