網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

何愷明評(píng)審，謝賽寧獲獎(jiǎng)！牛津華人博士生拿下CVPR 2025最佳論文

2025-06-14 02:39:34　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：犀牛好困

【新智元導(dǎo)讀】CVPR 2025獎(jiǎng)項(xiàng)重磅揭曉！華人博士生王建元憑借創(chuàng)新論文摘得最佳論文獎(jiǎng)。Hao Su、謝賽寧獲年輕研究者獎(jiǎng)。本屆大會(huì)投稿量激增13%，接收率22.1%，全球超9000名學(xué)者齊聚，學(xué)術(shù)盛況空前。

就在剛剛，CVPR 2025大會(huì)最佳論文等獎(jiǎng)項(xiàng)發(fā)布！

今年共有14篇論文入圍最佳論文角逐，最終5篇脫穎而出：1篇摘得最佳論文獎(jiǎng)，4篇獲得最佳論文榮譽(yù)提名。

此外，還有1篇最佳學(xué)生論文和1篇最佳學(xué)生論文榮譽(yù)提名。

大會(huì)官方統(tǒng)計(jì)，今年的投稿量再創(chuàng)新高！

來自全球4萬多名作者的13008篇論文蜂擁而至，比去年（11532篇）增長(zhǎng)了13%。

最終，2872篇論文被接收，每篇論文由3位審稿人和1位領(lǐng)域主席評(píng)審，總體接收率為22.1%。

其中，96篇（3.3%）入選Oral報(bào)告，387篇（13.7%）被選為Highlight展示。

投稿作者、審稿人和領(lǐng)域主席（AC）的數(shù)量都創(chuàng)下了歷史新高。

現(xiàn)場(chǎng)參會(huì)人數(shù)也相當(dāng)壯觀，超過9000名學(xué)者從70多個(gè)國家和地區(qū)趕來。

CVPR 2025官方還公布了各細(xì)分領(lǐng)域的論文接收情況：圖像與視頻生成領(lǐng)域的接收數(shù)量最多，而多視角/傳感器3D和單圖像3D領(lǐng)域的接收率最高。

審稿人質(zhì)量統(tǒng)計(jì)顯示，學(xué)術(shù)界審稿人中有70.4%達(dá)到預(yù)期水平，PhD學(xué)生和產(chǎn)業(yè)界審稿人分別有24.9%和24.1%的表現(xiàn)超出預(yù)期，展現(xiàn)了較高水平的評(píng)審能力。

低于預(yù)期的比例則相對(duì)較低，學(xué)術(shù)界為6.9%、PhD學(xué)生為4.6%、產(chǎn)業(yè)界為6.8%，表明整體審稿質(zhì)量較為穩(wěn)定。

值得一提的是，最佳論文獎(jiǎng)評(píng)審委員會(huì)中還有我們熟悉的AI大牛——ResNet的作者何愷明！

年輕研究員獎(jiǎng)

本次大會(huì)頒發(fā)了兩個(gè)年輕研究者獎(jiǎng)，獲獎(jiǎng)?wù)叻謩e是加州大學(xué)圣迭戈分校的副教授Hao Su和紐約大學(xué)計(jì)算機(jī)科學(xué)助理教授謝賽寧。

這個(gè)獎(jiǎng)項(xiàng)每年都會(huì)頒給在計(jì)算機(jī)視覺領(lǐng)域有突出研究貢獻(xiàn)的年輕學(xué)者，但獲獎(jiǎng)?wù)吣玫讲┦繉W(xué)位的時(shí)間不能超過七年。

Hao Su，北大航空航天大學(xué)應(yīng)用數(shù)學(xué)博士，斯坦福大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)博士，現(xiàn)在是加州大學(xué)圣迭戈分校的副教授（兼職）。

他的研究方向很廣，覆蓋了計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)、機(jī)器學(xué)習(xí)、通用人工智能和機(jī)器人技術(shù)。

去年，他還參與創(chuàng)立了一家叫Hillbot的機(jī)器人公司，擔(dān)任CTO。

謝賽寧，2013年從上海交通大學(xué)本科畢業(yè)，2018年在加州大學(xué)圣迭戈分校計(jì)算機(jī)科學(xué)與工程系拿到了博士學(xué)位，研究方向主要是深度學(xué)習(xí)和計(jì)算機(jī)視覺。

之后，他加入了Facebook人工智能研究室（FAIR）做研究科學(xué)家。

2022年，他和William Peebles一起發(fā)表了DiT論文，首次把Transformer和擴(kuò)散模型結(jié)合了起來。

榮譽(yù)提名

獲得榮譽(yù)提名的是Ishan Misra，在Meta的GenAI團(tuán)隊(duì)擔(dān)任研究科學(xué)家主任，領(lǐng)導(dǎo)視頻生成模型的研究工作。

在此之前，他在Meta的FAIR團(tuán)隊(duì)，專注于計(jì)算機(jī)視覺的自監(jiān)督學(xué)習(xí)和多模態(tài)學(xué)習(xí)。

他在卡內(nèi)基梅隆大學(xué)拿到了博士學(xué)位。2024年，因?yàn)樵谟?jì)算機(jī)視覺和機(jī)器學(xué)習(xí)方面的研究貢獻(xiàn)，獲得了卡內(nèi)基梅隆大學(xué)頒發(fā)的近期校友成就獎(jiǎng)。

最佳論文

VGGT: Visual Geometry Grounded Transformer

作者：Jianyuan Wang，Minghao Chen，Nikita Karaev，Andrea Vedaldi，Christian Rupprecht，David Novotny

機(jī)構(gòu)：牛津大學(xué)，Meta AI

論文地址：https://arxiv.org/abs/2503.11651

代碼模型：https://github.com/facebookresearch/vggt

本次CVPR 2025最佳論文來自牛津大學(xué)、Meta AI，提出了一種前饋神經(jīng)網(wǎng)絡(luò)，能夠從場(chǎng)景的單個(gè)、少量或數(shù)百個(gè)視圖中直接推斷出其所有關(guān)鍵三維屬性，包括相機(jī)參數(shù)、點(diǎn)圖、深度圖和三維點(diǎn)軌跡。

在三維計(jì)算機(jī)視覺領(lǐng)域，模型通常僅限于并專用于單一任務(wù)，而這種方法代表了該領(lǐng)域的一大進(jìn)步。

它還兼具簡(jiǎn)潔與高效的特點(diǎn)，能在一秒內(nèi)完成圖像重建，并且其性能優(yōu)于那些需要采用視覺幾何優(yōu)化技術(shù)進(jìn)行后處理的替代方案。

該網(wǎng)絡(luò)在多項(xiàng)三維任務(wù)中均取得了當(dāng)前最佳SOTA成果，包括相機(jī)參數(shù)估計(jì)、多視圖深度估計(jì)、密集點(diǎn)云重建以及三維點(diǎn)跟蹤。

文中還證明，使用預(yù)訓(xùn)練的VGGT作為特征主干網(wǎng)絡(luò)，能顯著增強(qiáng)下游任務(wù)的性能，例如非剛性點(diǎn)跟蹤和前饋式新視角合成。

論文第一作者Jianyuan Wang為Facebook AI Research和牛津大學(xué)視覺幾何組（VGG）的聯(lián)合博士研究生。

他的博士研究專注于打造創(chuàng)新的端到端幾何推理框架，主導(dǎo)開發(fā)了PoseDiffusion、VGGSfM，以及本次提出的通用3D基礎(chǔ)模型VGGT。

同樣是Jianyuan Wang作為第一作者的VGGSfM研究被CVPR 2024接收，并入選Highlight論文。

另一位華人作者M(jìn)inghao Chen是牛津大學(xué)的博士生，導(dǎo)師是Andrea Vedaldi教授和Iro Laina博士。同時(shí)，也在Meta GenAI進(jìn)行研究科學(xué)家實(shí)習(xí)。

此前，他曾在石溪大學(xué)攻讀博士學(xué)位，師從Haibin Ling教授。期間在微軟亞洲研究院實(shí)習(xí)，合作導(dǎo)師為Houwen Peng博士。

他分別在哥倫比亞大學(xué)獲得碩士學(xué)位，在北京航空航天大學(xué)獲得學(xué)士學(xué)位。

最佳學(xué)生論文

Neural Inverse Rendering from Propagating Light

作者：Anagh Malik，Benjamin Attal，Andrew Xie，Matthew O’Toole，David B. Lindell

機(jī)構(gòu)：多倫多大學(xué)，Vector Institute，卡內(nèi)基梅隆大學(xué)

論文地址：https://arxiv.org/pdf/2506.05347

最佳學(xué)生論文來自多倫多大學(xué)、Vector Institute以及CMU，提出了基于物理的神經(jīng)逆渲染，利用多視角視頻中的光傳播進(jìn)行處理。

該方法依賴于神經(jīng)輻射緩存的時(shí)序擴(kuò)展技術(shù)——這種技術(shù)通過存儲(chǔ)從任意方向到達(dá)任意點(diǎn)的無限次反射輻射來加速逆渲染。

由此生成模型能精確模擬直接和間接光傳輸效應(yīng)，結(jié)合閃光激光雷達(dá)系統(tǒng)的捕捉數(shù)據(jù)，即使在強(qiáng)間接光環(huán)境下也能實(shí)現(xiàn)頂尖的3D重建。

此外，本文展示了光傳播的視圖合成、自動(dòng)分解捕捉數(shù)據(jù)為直接和間接分量，以及對(duì)捕獲場(chǎng)景進(jìn)行多視圖時(shí)間分辨重新照明等新功能。

本文的時(shí)間分辨渲染器結(jié)合基于物理的主射線渲染和神經(jīng)渲染的間接輻射緩存，計(jì)算傳感器像素處的入射輻射。優(yōu)化場(chǎng)景外觀和幾何形狀，確保渲染與捕獲測(cè)量一致。

與基線相比，本文中的方法能夠恢復(fù)更準(zhǔn)確的法線以及相似或更優(yōu)的強(qiáng)度圖像（見激光雷達(dá)幀插圖中的箭頭）。

榮譽(yù)提名

最佳論文提名

論文1：MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos

作者：Zhengqi Li，Richard Tucker，F(xiàn)orrester Cole，Qianqian Wang，Linyi Jin，Vickie Ye，Angjoo Kanazawa，Aleksander Holynski，Noah Snavely

機(jī)構(gòu)：Google DeepMind，加州大學(xué)伯克利分校，密歇根大學(xué)

論文地址：https://arxiv.org/abs/2412.04463

論文2：Navigation World Models

作者：Amir Bar，Gaoyue Zhou，Danny Tran，Trevor Darrell，Yann LeCun

機(jī)構(gòu)：Meta，紐約大學(xué)，伯克利AI研究院

論文地址：https://arxiv.org/abs/2412.03572

論文3：Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

作者：Matt Deitke，Christopher Clark，Sangho Lee，Rohun Tripathi，Yue Yang，Jae Sung Park，Reza Salehi，Niklas Muennighoff，Kyle Lo，Luca Soldaini，Jiasen Lu，Taira Anderson，Erin Bransom，Kiana Ehsani，Huong Ngo，Yen-Sung Chen，Ajay Patel，Mark Yatskar，Chris Callison-Burch，Andrew Head，Rose Hendrix，F(xiàn)avyen Bastani，Eli VanderBilt，Nathan Lambert，Yvonne Chou，Arnavi Chheda-Kothary，Jenna Sparks，Sam Skjonsberg，Michael Schmitz，Aaron Sarnat，Byron Bischoff，Pete Walsh，Christopher Newell，Piper Wolters，Tanmay Gupta，Kuo-Hao Zeng，Jon Borchardt，Dirk Groeneveld，Crystal Nam，Sophie Lebrecht，Caitlin Wittlif，Carissa Schoenick，Oscar Michel，Ranjay Krishna，Luca Weihs，Noah A. Smith，Hannaneh Hajishirzi，Ross Girshick，Ali Farhadi，Aniruddha Kembhavi

機(jī)構(gòu)：艾倫人工智能研究所，華盛頓大學(xué)，賓夕法尼亞大學(xué)

論文地址：https://arxiv.org/abs/2409.17146

論文4：3D Student Splatting and Scooping

作者：Jialin Zhu，Jiangbei Yue，F(xiàn)eixiang He，He Wang

機(jī)構(gòu)：倫敦大學(xué)學(xué)院

論文地址：https://arxiv.org/abs/2503.10148

最佳學(xué)生論文提名

論文：Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

作者：Kaihang Pan，Wang Lin，Zhongqi Yue，Tenglong Ao，Liyu Jia，Wei Zhao，Juncheng Li，Siliang Tang，Hanwang Zhang

機(jī)構(gòu)：浙江大學(xué)，南洋理工大學(xué)，北京大學(xué)，華為新加坡研究所

論文地址：https://arxiv.org/abs/2504.14666

最佳論文候選

國內(nèi)高校機(jī)構(gòu)云集

可以說，在整個(gè)最佳論文的候選名單中，不僅有大量的華人作者，還有很多來自國內(nèi)的高校和機(jī)構(gòu)。

比如浙江大學(xué)，西湖大學(xué)，香港中文大學(xué)，香港科技大學(xué)（廣州），湖南大學(xué)，華中科技大學(xué)，南京大學(xué)，以及商湯等等。

完整名單：https://cvpr.thecvf.com/virtual/2025/events/AwardCandidates2025

PAMI-TC獎(jiǎng)

Thomas Huang紀(jì)念獎(jiǎng)

Thomas S. Huang紀(jì)念獎(jiǎng)表彰的是在科研、教學(xué)與指導(dǎo)以及為計(jì)算機(jī)視覺學(xué)術(shù)社區(qū)服務(wù)方面堪為楷模的研究人員。每年授予一名博士畢業(yè)至少7年的研究者，處于職業(yè)生涯中期（博士畢業(yè)不超過25年）的學(xué)者將獲優(yōu)先考慮。

該獎(jiǎng)設(shè)立于CVPR 2020，自2021年起每年頒發(fā)一次，旨在紀(jì)念已故的Thomas S. Huang教授。

今年獲獎(jiǎng)的Kristen Grauman在FAIR擔(dān)任研究科學(xué)家，同時(shí)也是德克薩斯大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)系的教授。

她于2006年獲得了麻省理工學(xué)院的博士學(xué)位，是IEEE Fellow、AAAI Fellow、斯隆學(xué)者，并榮獲了「計(jì)算機(jī)與思想獎(jiǎng)」。

她的研究方向?yàn)橛?jì)算機(jī)視覺與機(jī)器學(xué)習(xí)，專注于視覺識(shí)別、視頻分析、第一人稱視角感知和具身智能。

Longuet-Higgins獎(jiǎng)

Longuet-Higgins獎(jiǎng)以理論化學(xué)家和認(rèn)知科學(xué)家H. Christopher Longuet-Higgins的名字命名，授予的是在10年前發(fā)表且對(duì)計(jì)算機(jī)視覺研究產(chǎn)生重大影響的CVPR論文。

今年獲得該獎(jiǎng)的論文共有兩篇。

論文1：Going deeper with convolutions

作者：Christian Szegedy，Wei Liu，Yangqing Jia，Pierre Sermanet，Scott Reed，Dragomir Anguelov，Dumitru Erhan，Vincent Vanhoucke，Andrew Rabinovich

機(jī)構(gòu)：谷歌，北卡羅來納大學(xué)教堂山分校，密歇根大學(xué)

論文2：Fully Convolutional Networks for Semantic Segmentation

作者：Jonathan Long，Evan Shelhamer，Trevor Darrell

機(jī)構(gòu)：加州大學(xué)伯克利分校

參考資料：

https://x.com/CVPR/status/1933525241877442670

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.