網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

謝賽寧蘇昊CVPR25獲獎(jiǎng)！華人博士王建元一作拿下最佳論文

2025-06-14 17:22:24　來源: 量子位

北京舉報(bào)

分享至

明敏克雷西發(fā)自凹非寺
量子位 | 公眾號(hào)

CVPR 2025獎(jiǎng)項(xiàng)出爐！謝賽寧蘇昊齊獲青年學(xué)者獎(jiǎng)。

該獎(jiǎng)項(xiàng)面向獲得博士學(xué)位不超過7年的早期研究工作者，表彰他們?cè)谟?jì)算機(jī)視覺領(lǐng)域的杰出研究貢獻(xiàn)

其中，蘇昊是李飛飛的博士生，他參與了對(duì)計(jì)算機(jī)視覺領(lǐng)域鼎鼎有名的ImageNet

謝賽寧以一作身份和何愷明合作完成ResNeXt，同時(shí)也參與了MAE，都是計(jì)算機(jī)視覺領(lǐng)域影響深遠(yuǎn)的工作。

最值得關(guān)注的CVPR 2025最佳論文獎(jiǎng)也新鮮出爐！

今年只有一篇論文獲獎(jiǎng)：《VGGT: Visual Geometry Grounded Transformer》，由Meta和牛津大學(xué)聯(lián)合提出，第一作者為牛津大學(xué)Meta聯(lián)培博士王建元。

VGGT是首個(gè)能在單次前饋中端到端預(yù)測(cè)完整3D場(chǎng)景信息的大型Transformer，性能超越多項(xiàng)現(xiàn)有幾何或深度學(xué)習(xí)方法，具有廣泛的應(yīng)用潛力。

Best Student Paper頒給《Neural Inverse Rendering from Propagating Light》，由多倫多大學(xué)、卡內(nèi)基梅隆大學(xué)等聯(lián)合帶來。

它首次提出針對(duì)從多視角、時(shí)間分辨的光傳播視頻進(jìn)行物理基礎(chǔ)的神經(jīng)逆向渲染（Neural Inverse Rendering）。

Best Paper Honorable Mention一共有4篇，分別是：

MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos
Navigation World Models
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
3D Student Splatting and Scooping

最佳論文

VGGT: Visual Geometry Grounded Transformer

論文鏈接：https://arxiv.org/abs/2503.11651

傳統(tǒng)的三維視覺（如Structure-from-Motion、Multi-view Stereo）方法嚴(yán)重依賴幾何優(yōu)化（如Bundle Adjustment），不僅計(jì)算復(fù)雜、時(shí)間消耗大，還難以端到端訓(xùn)練。
本研究提出的問題是：能否使用簡單的前饋神經(jīng)網(wǎng)絡(luò)（無后處理）同時(shí)預(yù)測(cè)所有核心3D屬性（相機(jī)參數(shù)、深度圖、點(diǎn)云圖、3D軌跡），并優(yōu)于傳統(tǒng)幾何優(yōu)化方案？

VGGT基于Vision Transformer，采用交替“全局-幀內(nèi)”自注意力（Alternating Attention）機(jī)制。

它不含幾何歸納偏置，僅靠大量3D標(biāo)注數(shù)據(jù)自學(xué)習(xí)。

實(shí)現(xiàn)輸入：1張到200張圖像；輸出：每張圖的相機(jī)內(nèi)外參、深度圖、點(diǎn)圖、特征圖（用于點(diǎn)追蹤）。

輸入圖像被分塊為patch tokens，每幀加入一個(gè)“相機(jī)token”和多個(gè)“寄存token”來分別學(xué)習(xí)相機(jī)參與與全局場(chǎng)景特性。

Alternating Attention中，F(xiàn)rame-wise Self-Attention處理每一幀圖像內(nèi)的patch tokens（保持局部一致性）；Global Self-Attention實(shí)現(xiàn)不同幀間的tokens交互（整合多視角信息），兩種注意力機(jī)制在24層Transformer中交替堆疊。

這種設(shè)計(jì)可以在保留單幀細(xì)節(jié)同時(shí)，整合多幀場(chǎng)景信息，同時(shí)相比直接使用Global attention更省內(nèi)存（最高40GB）。

本文一作為王建元，他是牛津大學(xué)和Meta AI研究和VGG聯(lián)合博士生。

最佳學(xué)生論文

Neural Inverse Rendering from Propagating Light

論文鏈接：http://www.arxiv.org/abs/2506.05347

這篇論文的核心內(nèi)容是提出了一種基于物理模型的神經(jīng)逆向渲染方法，用于從多視點(diǎn)、時(shí)間分辨的激光雷達(dá)（LiDAR）測(cè)量數(shù)據(jù)中重建場(chǎng)景幾何和材質(zhì)，并生成新的光傳播視頻。

簡單來說，它實(shí)現(xiàn)了讓激光雷達(dá)不僅看見直接光，還能看懂間接光，并利用這些信息來重建場(chǎng)景。

核心思路有兩步：

第一，提出時(shí)間分辨輻射緩存（time-resolved radiance cache），記錄某一時(shí)刻某個(gè)位置的光線是從哪來的、經(jīng)過了哪些反射。這個(gè)緩存可以理解為一個(gè)“光的地圖”，能告訴我們光是怎么傳播的。

第二，用神經(jīng)網(wǎng)絡(luò)加速計(jì)算。“提前學(xué)會(huì)”光的傳播規(guī)律。這樣一來，只需要簡單查詢這個(gè)“光的記憶庫”，就能快速計(jì)算出場(chǎng)景中每一點(diǎn)的光線分布。

這種技術(shù)在自動(dòng)駕駛、3D建模和虛擬現(xiàn)實(shí)等領(lǐng)域有廣泛應(yīng)用前景。

Best Paper Honorable Mention

MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

論文鏈接：https://arxiv.org/abs/2412.04463

本文提出了一種系統(tǒng)，能夠從動(dòng)態(tài)場(chǎng)景的普通單目視頻中準(zhǔn)確、快速且魯棒地估計(jì)相機(jī)參數(shù)和深度圖。傳統(tǒng)的結(jié)構(gòu)光束法（SfM）和單目SLAM方法通常依賴于具有大量視差且主要為靜態(tài)場(chǎng)景的視頻輸入，在不滿足這些條件時(shí)，容易產(chǎn)生錯(cuò)誤估計(jì)。

本項(xiàng)研究開發(fā)了一個(gè)改進(jìn)的深度視覺SLAM系統(tǒng)，通過對(duì)訓(xùn)練方式和推理過程的優(yōu)化，使得這個(gè)系統(tǒng)可以：

適應(yīng)真實(shí)世界中復(fù)雜的動(dòng)態(tài)場(chǎng)景。
處理相機(jī)運(yùn)動(dòng)軌跡不規(guī)則的視頻（甚至是相機(jī)運(yùn)動(dòng)很少的情況）。

大量在合成和真實(shí)視頻上的實(shí)驗(yàn)表明，該系統(tǒng)在相機(jī)姿態(tài)和深度估計(jì)方面的準(zhǔn)確性和魯棒性明顯優(yōu)于現(xiàn)有和同期工作，同時(shí)運(yùn)行速度更快或相當(dāng)。

Navigation World Models

論文鏈接：https://arxiv.org/abs/2412.03572

這篇研究來自LeCun團(tuán)隊(duì)。

本文提出了一種導(dǎo)航世界模型（Navigation World Model，簡稱NWM），這是一種可控的視頻生成模型，能夠基于過去的視覺觀測(cè)和導(dǎo)航動(dòng)作預(yù)測(cè)未來的視覺觀測(cè)。

NWM 采用了一種叫“條件擴(kuò)散變換器”的技術(shù)，可以根據(jù)導(dǎo)航動(dòng)作和過去的視覺信息，生成下一步可能的視覺畫面。

這個(gè)模型是用大量“第一視角”（egocentric）視頻訓(xùn)練的，包括人類和機(jī)器人在各種環(huán)境中的導(dǎo)航視頻，總參數(shù)規(guī)模達(dá)到10億。

在熟悉的環(huán)境中，NWM可以“在腦內(nèi)模擬”不同的路徑，并判斷哪條路徑能達(dá)到目標(biāo)。

不像固定規(guī)則的導(dǎo)航方法，NWM可以在規(guī)劃路徑時(shí)靈活加入新的約束（比如避開障礙物）。

即使是在陌生的環(huán)境中，NWM也能從一張圖片（比如初始場(chǎng)景）出發(fā)，想象出可能的導(dǎo)航路徑，表現(xiàn)出很強(qiáng)的適應(yīng)性。

實(shí)驗(yàn)結(jié)果顯示，NWM可以在沒有現(xiàn)成導(dǎo)航策略的情況下，直接規(guī)劃出合理的路徑。對(duì)于其他導(dǎo)航系統(tǒng)生成的路徑，NWM可以對(duì)其進(jìn)行排名，找到最優(yōu)解。

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

論文鏈接：https://arxiv.org/abs/2409.17146

本項(xiàng)研究提出了一個(gè)新的視覺-語言模型家族Molmo，是當(dāng)時(shí)最強(qiáng)開源模型之一。它有72億參數(shù)規(guī)模，不僅拿下開源SOTA，還超越了Claude 3.5 Sonnet、Gemini 1.5 Pro等（注：該論文第一版發(fā)表時(shí)間為2024年9月）

作者認(rèn)為，現(xiàn)有性能最強(qiáng)的開源權(quán)重模型在很大程度上依賴于由閉源VLM生成的合成數(shù)據(jù)來獲得良好表現(xiàn)，實(shí)質(zhì)上是將這些閉源模型“蒸餾”成開源模型。

因此，作者認(rèn)為學(xué)術(shù)界一直缺乏關(guān)于如何從零開始構(gòu)建高性能VLM的基礎(chǔ)知識(shí)，Molmo就是基于這一背景提出。

Molmo模型架構(gòu)采用標(biāo)準(zhǔn)的視覺編碼器（ViT）+語言模型設(shè)計(jì)，模型設(shè)計(jì)與優(yōu)化方面，Molmo提出了若干新策略。

例如重疊多裁剪（overlapping multi-crop）圖像處理策略、改進(jìn)了視覺-語言連接模塊、設(shè)計(jì)了支持指點(diǎn)能力的訓(xùn)練流程，這些創(chuàng)新提高了模型對(duì)復(fù)雜視覺任務(wù)（如定位、計(jì)數(shù)、自然圖像理解）的能力。

他們還創(chuàng)建了一組全新數(shù)據(jù)集PixMo，完全沒有依賴外部閉源模型生成。

其中包括用于預(yù)訓(xùn)練的高細(xì)節(jié)圖像描述數(shù)據(jù)集、用于微調(diào)的自由問答圖像數(shù)據(jù)集，以及一個(gè)創(chuàng)新的二維指點(diǎn)（pointing）數(shù)據(jù)集。

此外，PixMo還包含數(shù)個(gè)輔助的合成數(shù)據(jù)集，增強(qiáng)模型在讀表、讀圖、讀鐘表等特定技能上的能力。

3D Student Splatting and Scooping

論文鏈接：https://arxiv.org/abs/2503.10148

這項(xiàng)研究提出了一個(gè)新的3D模型——Student Splatting and Scooping，簡稱SSS，其作者全部為華人，且均來自英國高校。

隨著3DGS（3D高斯?jié)姙R）逐漸成為眾多模型的基礎(chǔ)組件，任何對(duì)3DGS本身的改進(jìn)都可能帶來巨大的收益，為此，作者致力于改進(jìn)3DGS的基本范式和公式結(jié)構(gòu)。

但3DGS本質(zhì)上是一個(gè)未歸一化的混合模型，因此不必局限于高斯分布，也不一定要采用潑濺方式。

因此，作者提出了一種由靈活的Student’s t分布（distribution）組成的新型混合模型，它具有正密度（潑濺Splatting）和負(fù)密度（挖空Scooping）兩種形式，這就是其名稱的由來。

與傳統(tǒng)高斯相比，Student’s t 分布通過可學(xué)習(xí)的尾部厚度參數(shù)實(shí)現(xiàn)了對(duì)從Cauchy到Gaussian的廣泛分布建模能力，使得 SSS 在表達(dá)能力上更為強(qiáng)大。

但在提供更強(qiáng)表達(dá)能力的同時(shí)，SSS也帶來了新的學(xué)習(xí)挑戰(zhàn)，主要是參數(shù)耦合問題和負(fù)密度引入的優(yōu)化復(fù)雜性。

為此，作者還提出了一種新的、具有理論依據(jù)的采樣優(yōu)化方法——SGHMC。

SGHMC通過在優(yōu)化過程中引入動(dòng)量變量（momentum）和受控噪聲項(xiàng)，使得參數(shù)在優(yōu)化過程中能跳出局部最優(yōu)，同時(shí)能有效緩解參數(shù)之間的耦合問題。

通過在多個(gè)數(shù)據(jù)集、設(shè)置和評(píng)測(cè)指標(biāo)上的全面評(píng)估與對(duì)比，作者證明了 SSS 在質(zhì)量和參數(shù)效率方面優(yōu)于現(xiàn)有方法。

在使用相似數(shù)量組件的情況下，SSS 可實(shí)現(xiàn)相當(dāng)甚至更高的渲染質(zhì)量，同時(shí)在某些場(chǎng)景下可將組件數(shù)量最多減少 82%，仍保持可比的結(jié)果。

最后，再次祝賀所有獲獎(jiǎng)團(tuán)隊(duì)與學(xué)者！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.