新智元報(bào)道
編輯:犀牛 好困
【新智元導(dǎo)讀】CVPR 2025獎(jiǎng)項(xiàng)重磅揭曉!華人博士生王建元憑借創(chuàng)新論文摘得最佳論文獎(jiǎng)。Hao Su、謝賽寧獲年輕研究者獎(jiǎng)。本屆大會(huì)投稿量激增13%,接收率22.1%,全球超9000名學(xué)者齊聚,學(xué)術(shù)盛況空前。
就在剛剛,CVPR 2025大會(huì)最佳論文等獎(jiǎng)項(xiàng)發(fā)布!
今年共有14篇論文入圍最佳論文角逐,最終5篇脫穎而出:1篇摘得最佳論文獎(jiǎng),4篇獲得最佳論文榮譽(yù)提名。
此外,還有1篇最佳學(xué)生論文和1篇最佳學(xué)生論文榮譽(yù)提名。
大會(huì)官方統(tǒng)計(jì),今年的投稿量再創(chuàng)新高!
來自全球4萬多名作者的13008篇論文蜂擁而至,比去年(11532篇)增長(zhǎng)了13%。
最終,2872篇論文被接收,每篇論文由3位審稿人和1位領(lǐng)域主席評(píng)審,總體接收率為22.1%。
其中,96篇(3.3%)入選Oral報(bào)告,387篇(13.7%)被選為Highlight展示。
投稿作者、審稿人和領(lǐng)域主席(AC)的數(shù)量都創(chuàng)下了歷史新高。
現(xiàn)場(chǎng)參會(huì)人數(shù)也相當(dāng)壯觀,超過9000名學(xué)者從70多個(gè)國家和地區(qū)趕來。
CVPR 2025官方還公布了各細(xì)分領(lǐng)域的論文接收情況:圖像與視頻生成領(lǐng)域的接收數(shù)量最多,而多視角/傳感器3D和單圖像3D領(lǐng)域的接收率最高。
審稿人質(zhì)量統(tǒng)計(jì)顯示,學(xué)術(shù)界審稿人中有70.4%達(dá)到預(yù)期水平,PhD學(xué)生和產(chǎn)業(yè)界審稿人分別有24.9%和24.1%的表現(xiàn)超出預(yù)期,展現(xiàn)了較高水平的評(píng)審能力。
低于預(yù)期的比例則相對(duì)較低,學(xué)術(shù)界為6.9%、PhD學(xué)生為4.6%、產(chǎn)業(yè)界為6.8%,表明整體審稿質(zhì)量較為穩(wěn)定。
值得一提的是,最佳論文獎(jiǎng)評(píng)審委員會(huì)中還有我們熟悉的AI大牛——ResNet的作者何愷明!
年輕研究員獎(jiǎng)
本次大會(huì)頒發(fā)了兩個(gè)年輕研究者獎(jiǎng),獲獎(jiǎng)?wù)叻謩e是加州大學(xué)圣迭戈分校的副教授Hao Su和紐約大學(xué)計(jì)算機(jī)科學(xué)助理教授謝賽寧。
這個(gè)獎(jiǎng)項(xiàng)每年都會(huì)頒給在計(jì)算機(jī)視覺領(lǐng)域有突出研究貢獻(xiàn)的年輕學(xué)者,但獲獎(jiǎng)?wù)吣玫讲┦繉W(xué)位的時(shí)間不能超過七年。
Hao Su,北大航空航天大學(xué)應(yīng)用數(shù)學(xué)博士,斯坦福大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)博士,現(xiàn)在是加州大學(xué)圣迭戈分校的副教授(兼職)。
他的研究方向很廣,覆蓋了計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)、機(jī)器學(xué)習(xí)、通用人工智能和機(jī)器人技術(shù)。
去年,他還參與創(chuàng)立了一家叫Hillbot的機(jī)器人公司,擔(dān)任CTO。
謝賽寧,2013年從上海交通大學(xué)本科畢業(yè),2018年在加州大學(xué)圣迭戈分校計(jì)算機(jī)科學(xué)與工程系拿到了博士學(xué)位,研究方向主要是深度學(xué)習(xí)和計(jì)算機(jī)視覺。
之后,他加入了Facebook人工智能研究室(FAIR)做研究科學(xué)家。
2022年,他和William Peebles一起發(fā)表了DiT論文,首次把Transformer和擴(kuò)散模型結(jié)合了起來。
榮譽(yù)提名
獲得榮譽(yù)提名的是Ishan Misra,在Meta的GenAI團(tuán)隊(duì)擔(dān)任研究科學(xué)家主任,領(lǐng)導(dǎo)視頻生成模型的研究工作。
在此之前,他在Meta的FAIR團(tuán)隊(duì),專注于計(jì)算機(jī)視覺的自監(jiān)督學(xué)習(xí)和多模態(tài)學(xué)習(xí)。
他在卡內(nèi)基梅隆大學(xué)拿到了博士學(xué)位。2024年,因?yàn)樵谟?jì)算機(jī)視覺和機(jī)器學(xué)習(xí)方面的研究貢獻(xiàn),獲得了卡內(nèi)基梅隆大學(xué)頒發(fā)的近期校友成就獎(jiǎng)。
最佳論文
VGGT: Visual Geometry Grounded Transformer
作者:Jianyuan Wang,Minghao Chen,Nikita Karaev,Andrea Vedaldi,Christian Rupprecht,David Novotny
機(jī)構(gòu):牛津大學(xué),Meta AI
論文地址:https://arxiv.org/abs/2503.11651
代碼模型:https://github.com/facebookresearch/vggt
本次CVPR 2025最佳論文來自牛津大學(xué)、Meta AI,提出了一種前饋神經(jīng)網(wǎng)絡(luò),能夠從場(chǎng)景的單個(gè)、少量或數(shù)百個(gè)視圖中直接推斷出其所有關(guān)鍵三維屬性,包括相機(jī)參數(shù)、點(diǎn)圖、深度圖和三維點(diǎn)軌跡。
在三維計(jì)算機(jī)視覺領(lǐng)域,模型通常僅限于并專用于單一任務(wù),而這種方法代表了該領(lǐng)域的一大進(jìn)步。
它還兼具簡(jiǎn)潔與高效的特點(diǎn),能在一秒內(nèi)完成圖像重建,并且其性能優(yōu)于那些需要采用視覺幾何優(yōu)化技術(shù)進(jìn)行后處理的替代方案。
該網(wǎng)絡(luò)在多項(xiàng)三維任務(wù)中均取得了當(dāng)前最佳SOTA成果,包括相機(jī)參數(shù)估計(jì)、多視圖深度估計(jì)、密集點(diǎn)云重建以及三維點(diǎn)跟蹤。
文中還證明,使用預(yù)訓(xùn)練的VGGT作為特征主干網(wǎng)絡(luò),能顯著增強(qiáng)下游任務(wù)的性能,例如非剛性點(diǎn)跟蹤和前饋式新視角合成。
論文第一作者Jianyuan Wang為Facebook AI Research和牛津大學(xué)視覺幾何組(VGG)的聯(lián)合博士研究生。
他的博士研究專注于打造創(chuàng)新的端到端幾何推理框架,主導(dǎo)開發(fā)了PoseDiffusion、VGGSfM,以及本次提出的通用3D基礎(chǔ)模型VGGT。
同樣是Jianyuan Wang作為第一作者的VGGSfM研究被CVPR 2024接收,并入選Highlight論文。
另一位華人作者M(jìn)inghao Chen是牛津大學(xué)的博士生,導(dǎo)師是Andrea Vedaldi教授和Iro Laina博士。同時(shí),也在Meta GenAI進(jìn)行研究科學(xué)家實(shí)習(xí)。
此前,他曾在石溪大學(xué)攻讀博士學(xué)位,師從Haibin Ling教授。期間在微軟亞洲研究院實(shí)習(xí),合作導(dǎo)師為Houwen Peng博士。
他分別在哥倫比亞大學(xué)獲得碩士學(xué)位,在北京航空航天大學(xué)獲得學(xué)士學(xué)位。
最佳學(xué)生論文
Neural Inverse Rendering from Propagating Light
作者:Anagh Malik,Benjamin Attal,Andrew Xie,Matthew O’Toole,David B. Lindell
機(jī)構(gòu):多倫多大學(xué),Vector Institute,卡內(nèi)基梅隆大學(xué)
論文地址:https://arxiv.org/pdf/2506.05347
最佳學(xué)生論文來自多倫多大學(xué)、Vector Institute以及CMU,提出了基于物理的神經(jīng)逆渲染,利用多視角視頻中的光傳播進(jìn)行處理。
該方法依賴于神經(jīng)輻射緩存的時(shí)序擴(kuò)展技術(shù)——這種技術(shù)通過存儲(chǔ)從任意方向到達(dá)任意點(diǎn)的無限次反射輻射來加速逆渲染。
由此生成模型能精確模擬直接和間接光傳輸效應(yīng),結(jié)合閃光激光雷達(dá)系統(tǒng)的捕捉數(shù)據(jù),即使在強(qiáng)間接光環(huán)境下也能實(shí)現(xiàn)頂尖的3D重建。
此外,本文展示了光傳播的視圖合成、自動(dòng)分解捕捉數(shù)據(jù)為直接和間接分量,以及對(duì)捕獲場(chǎng)景進(jìn)行多視圖時(shí)間分辨重新照明等新功能。
本文的時(shí)間分辨渲染器結(jié)合基于物理的主射線渲染和神經(jīng)渲染的間接輻射緩存,計(jì)算傳感器像素處的入射輻射。優(yōu)化場(chǎng)景外觀和幾何形狀,確保渲染與捕獲測(cè)量一致。
與基線相比,本文中的方法能夠恢復(fù)更準(zhǔn)確的法線以及相似或更優(yōu)的強(qiáng)度圖像(見激光雷達(dá)幀插圖中的箭頭)。
榮譽(yù)提名
最佳論文提名
論文1:MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos
作者:Zhengqi Li,Richard Tucker,F(xiàn)orrester Cole,Qianqian Wang,Linyi Jin,Vickie Ye,Angjoo Kanazawa,Aleksander Holynski,Noah Snavely
機(jī)構(gòu):Google DeepMind,加州大學(xué)伯克利分校,密歇根大學(xué)
論文地址:https://arxiv.org/abs/2412.04463
論文2:Navigation World Models
作者:Amir Bar,Gaoyue Zhou,Danny Tran,Trevor Darrell,Yann LeCun
機(jī)構(gòu):Meta,紐約大學(xué),伯克利AI研究院
論文地址:https://arxiv.org/abs/2412.03572
論文3:Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
作者:Matt Deitke,Christopher Clark,Sangho Lee,Rohun Tripathi,Yue Yang,Jae Sung Park,Reza Salehi,Niklas Muennighoff,Kyle Lo,Luca Soldaini,Jiasen Lu,Taira Anderson,Erin Bransom,Kiana Ehsani,Huong Ngo,Yen-Sung Chen,Ajay Patel,Mark Yatskar,Chris Callison-Burch,Andrew Head,Rose Hendrix,F(xiàn)avyen Bastani,Eli VanderBilt,Nathan Lambert,Yvonne Chou,Arnavi Chheda-Kothary,Jenna Sparks,Sam Skjonsberg,Michael Schmitz,Aaron Sarnat,Byron Bischoff,Pete Walsh,Christopher Newell,Piper Wolters,Tanmay Gupta,Kuo-Hao Zeng,Jon Borchardt,Dirk Groeneveld,Crystal Nam,Sophie Lebrecht,Caitlin Wittlif,Carissa Schoenick,Oscar Michel,Ranjay Krishna,Luca Weihs,Noah A. Smith,Hannaneh Hajishirzi,Ross Girshick,Ali Farhadi,Aniruddha Kembhavi
機(jī)構(gòu):艾倫人工智能研究所,華盛頓大學(xué),賓夕法尼亞大學(xué)
論文地址:https://arxiv.org/abs/2409.17146
論文4:3D Student Splatting and Scooping
作者:Jialin Zhu,Jiangbei Yue,F(xiàn)eixiang He,He Wang
機(jī)構(gòu):倫敦大學(xué)學(xué)院
論文地址:https://arxiv.org/abs/2503.10148
最佳學(xué)生論文提名
論文:Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens
作者:Kaihang Pan,Wang Lin,Zhongqi Yue,Tenglong Ao,Liyu Jia,Wei Zhao,Juncheng Li,Siliang Tang,Hanwang Zhang
機(jī)構(gòu):浙江大學(xué),南洋理工大學(xué),北京大學(xué),華為新加坡研究所
論文地址:https://arxiv.org/abs/2504.14666
最佳論文候選
國內(nèi)高校機(jī)構(gòu)云集
可以說,在整個(gè)最佳論文的候選名單中,不僅有大量的華人作者,還有很多來自國內(nèi)的高校和機(jī)構(gòu)。
比如浙江大學(xué),西湖大學(xué),香港中文大學(xué),香港科技大學(xué)(廣州),湖南大學(xué),華中科技大學(xué),南京大學(xué),以及商湯等等。
完整名單:https://cvpr.thecvf.com/virtual/2025/events/AwardCandidates2025
PAMI-TC獎(jiǎng)
Thomas Huang紀(jì)念獎(jiǎng)
Thomas S. Huang紀(jì)念獎(jiǎng)表彰的是在科研、教學(xué)與指導(dǎo)以及為計(jì)算機(jī)視覺學(xué)術(shù)社區(qū)服務(wù)方面堪為楷模的研究人員。每年授予一名博士畢業(yè)至少7年的研究者,處于職業(yè)生涯中期(博士畢業(yè)不超過25年)的學(xué)者將獲優(yōu)先考慮。
該獎(jiǎng)設(shè)立于CVPR 2020,自2021年起每年頒發(fā)一次,旨在紀(jì)念已故的Thomas S. Huang教授。
今年獲獎(jiǎng)的Kristen Grauman在FAIR擔(dān)任研究科學(xué)家,同時(shí)也是德克薩斯大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)系的教授。
她于2006年獲得了麻省理工學(xué)院的博士學(xué)位,是IEEE Fellow、AAAI Fellow、斯隆學(xué)者,并榮獲了「計(jì)算機(jī)與思想獎(jiǎng)」。
她的研究方向?yàn)橛?jì)算機(jī)視覺與機(jī)器學(xué)習(xí),專注于視覺識(shí)別、視頻分析、第一人稱視角感知和具身智能。
Longuet-Higgins獎(jiǎng)
Longuet-Higgins獎(jiǎng)以理論化學(xué)家和認(rèn)知科學(xué)家H. Christopher Longuet-Higgins的名字命名,授予的是在10年前發(fā)表且對(duì)計(jì)算機(jī)視覺研究產(chǎn)生重大影響的CVPR論文。
今年獲得該獎(jiǎng)的論文共有兩篇。
論文1:Going deeper with convolutions
作者:Christian Szegedy,Wei Liu,Yangqing Jia,Pierre Sermanet,Scott Reed,Dragomir Anguelov,Dumitru Erhan,Vincent Vanhoucke,Andrew Rabinovich
機(jī)構(gòu):谷歌,北卡羅來納大學(xué)教堂山分校,密歇根大學(xué)
論文2:Fully Convolutional Networks for Semantic Segmentation
作者:Jonathan Long,Evan Shelhamer,Trevor Darrell
機(jī)構(gòu):加州大學(xué)伯克利分校
參考資料:
https://x.com/CVPR/status/1933525241877442670
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.