大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

謝賽寧蘇昊CVPR25獲獎(jiǎng)!華人博士王建元一作拿下最佳論文

0
分享至

明敏 克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào)

CVPR 2025獎(jiǎng)項(xiàng)出爐!謝賽寧蘇昊齊獲青年學(xué)者獎(jiǎng)。

該獎(jiǎng)項(xiàng)面向獲得博士學(xué)位不超過7年的早期研究工作者,表彰他們?cè)谟?jì)算機(jī)視覺領(lǐng)域的杰出研究貢獻(xiàn)



其中,蘇昊是李飛飛的博士生,他參與了對(duì)計(jì)算機(jī)視覺領(lǐng)域鼎鼎有名的ImageNet

謝賽寧以一作身份和何愷明合作完成ResNeXt,同時(shí)也參與了MAE,都是計(jì)算機(jī)視覺領(lǐng)域影響深遠(yuǎn)的工作。

最值得關(guān)注的CVPR 2025最佳論文獎(jiǎng)也新鮮出爐!

今年只有一篇論文獲獎(jiǎng):《VGGT: Visual Geometry Grounded Transformer》,由Meta和牛津大學(xué)聯(lián)合提出,第一作者為牛津大學(xué)Meta聯(lián)培博士王建元。

VGGT是首個(gè)能在單次前饋中端到端預(yù)測(cè)完整3D場(chǎng)景信息的大型Transformer,性能超越多項(xiàng)現(xiàn)有幾何或深度學(xué)習(xí)方法,具有廣泛的應(yīng)用潛力。



Best Student Paper頒給《Neural Inverse Rendering from Propagating Light》,由多倫多大學(xué)、卡內(nèi)基梅隆大學(xué)等聯(lián)合帶來。



它首次提出針對(duì)從多視角、時(shí)間分辨的光傳播視頻進(jìn)行物理基礎(chǔ)的神經(jīng)逆向渲染(Neural Inverse Rendering)。

Best Paper Honorable Mention一共有4篇,分別是:

  • MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos
  • Navigation World Models
  • Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
  • 3D Student Splatting and Scooping

最佳論文

VGGT: Visual Geometry Grounded Transformer

論文鏈接:https://arxiv.org/abs/2503.11651



傳統(tǒng)的三維視覺(如Structure-from-Motion、Multi-view Stereo)方法嚴(yán)重依賴幾何優(yōu)化(如Bundle Adjustment),不僅計(jì)算復(fù)雜、時(shí)間消耗大,還難以端到端訓(xùn)練。
本研究提出的問題是:能否使用簡單的前饋神經(jīng)網(wǎng)絡(luò)(無后處理)同時(shí)預(yù)測(cè)所有核心3D屬性(相機(jī)參數(shù)、深度圖、點(diǎn)云圖、3D軌跡),并優(yōu)于傳統(tǒng)幾何優(yōu)化方案?

VGGT基于Vision Transformer,采用交替“全局-幀內(nèi)”自注意力(Alternating Attention)機(jī)制。

它不含幾何歸納偏置,僅靠大量3D標(biāo)注數(shù)據(jù)自學(xué)習(xí)。

實(shí)現(xiàn)輸入:1張到200張圖像;輸出:每張圖的相機(jī)內(nèi)外參、深度圖、點(diǎn)圖、特征圖(用于點(diǎn)追蹤)。



輸入圖像被分塊為patch tokens,每幀加入一個(gè)“相機(jī)token”和多個(gè)“寄存token”來分別學(xué)習(xí)相機(jī)參與與全局場(chǎng)景特性。

Alternating Attention中,F(xiàn)rame-wise Self-Attention處理每一幀圖像內(nèi)的patch tokens(保持局部一致性);Global Self-Attention實(shí)現(xiàn)不同幀間的tokens交互(整合多視角信息),兩種注意力機(jī)制在24層Transformer中交替堆疊。

這種設(shè)計(jì)可以在保留單幀細(xì)節(jié)同時(shí),整合多幀場(chǎng)景信息,同時(shí)相比直接使用Global attention更省內(nèi)存(最高40GB)。



本文一作為王建元,他是牛津大學(xué)和Meta AI研究和VGG聯(lián)合博士生。



最佳學(xué)生論文

Neural Inverse Rendering from Propagating Light

論文鏈接:http://www.arxiv.org/abs/2506.05347



這篇論文的核心內(nèi)容是提出了一種基于物理模型的神經(jīng)逆向渲染方法,用于從多視點(diǎn)、時(shí)間分辨的激光雷達(dá)(LiDAR)測(cè)量數(shù)據(jù)中重建場(chǎng)景幾何和材質(zhì),并生成新的光傳播視頻。

簡單來說,它實(shí)現(xiàn)了讓激光雷達(dá)不僅看見直接光,還能看懂間接光,并利用這些信息來重建場(chǎng)景。

核心思路有兩步:

第一,提出時(shí)間分辨輻射緩存(time-resolved radiance cache),記錄某一時(shí)刻某個(gè)位置的光線是從哪來的、經(jīng)過了哪些反射。這個(gè)緩存可以理解為一個(gè)“光的地圖”,能告訴我們光是怎么傳播的。

第二,用神經(jīng)網(wǎng)絡(luò)加速計(jì)算。“提前學(xué)會(huì)”光的傳播規(guī)律。這樣一來,只需要簡單查詢這個(gè)“光的記憶庫”,就能快速計(jì)算出場(chǎng)景中每一點(diǎn)的光線分布。



這種技術(shù)在自動(dòng)駕駛、3D建模和虛擬現(xiàn)實(shí)等領(lǐng)域有廣泛應(yīng)用前景。

Best Paper Honorable Mention

MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

論文鏈接:https://arxiv.org/abs/2412.04463



本文提出了一種系統(tǒng),能夠從動(dòng)態(tài)場(chǎng)景的普通單目視頻中準(zhǔn)確、快速且魯棒地估計(jì)相機(jī)參數(shù)和深度圖。傳統(tǒng)的結(jié)構(gòu)光束法(SfM)和單目SLAM方法通常依賴于具有大量視差且主要為靜態(tài)場(chǎng)景的視頻輸入,在不滿足這些條件時(shí),容易產(chǎn)生錯(cuò)誤估計(jì)。

本項(xiàng)研究開發(fā)了一個(gè)改進(jìn)的深度視覺SLAM系統(tǒng),通過對(duì)訓(xùn)練方式和推理過程的優(yōu)化,使得這個(gè)系統(tǒng)可以:

  • 適應(yīng)真實(shí)世界中復(fù)雜的動(dòng)態(tài)場(chǎng)景。
  • 處理相機(jī)運(yùn)動(dòng)軌跡不規(guī)則的視頻(甚至是相機(jī)運(yùn)動(dòng)很少的情況)。



大量在合成和真實(shí)視頻上的實(shí)驗(yàn)表明,該系統(tǒng)在相機(jī)姿態(tài)和深度估計(jì)方面的準(zhǔn)確性和魯棒性明顯優(yōu)于現(xiàn)有和同期工作,同時(shí)運(yùn)行速度更快或相當(dāng)。

Navigation World Models

論文鏈接:https://arxiv.org/abs/2412.03572



這篇研究來自LeCun團(tuán)隊(duì)。

本文提出了一種導(dǎo)航世界模型(Navigation World Model,簡稱NWM),這是一種可控的視頻生成模型,能夠基于過去的視覺觀測(cè)和導(dǎo)航動(dòng)作預(yù)測(cè)未來的視覺觀測(cè)。

NWM 采用了一種叫“條件擴(kuò)散變換器”的技術(shù),可以根據(jù)導(dǎo)航動(dòng)作和過去的視覺信息,生成下一步可能的視覺畫面。

這個(gè)模型是用大量“第一視角”(egocentric)視頻訓(xùn)練的,包括人類和機(jī)器人在各種環(huán)境中的導(dǎo)航視頻,總參數(shù)規(guī)模達(dá)到10億。



在熟悉的環(huán)境中,NWM可以“在腦內(nèi)模擬”不同的路徑,并判斷哪條路徑能達(dá)到目標(biāo)。

不像固定規(guī)則的導(dǎo)航方法,NWM可以在規(guī)劃路徑時(shí)靈活加入新的約束(比如避開障礙物)。

即使是在陌生的環(huán)境中,NWM也能從一張圖片(比如初始場(chǎng)景)出發(fā),想象出可能的導(dǎo)航路徑,表現(xiàn)出很強(qiáng)的適應(yīng)性。

實(shí)驗(yàn)結(jié)果顯示,NWM可以在沒有現(xiàn)成導(dǎo)航策略的情況下,直接規(guī)劃出合理的路徑。對(duì)于其他導(dǎo)航系統(tǒng)生成的路徑,NWM可以對(duì)其進(jìn)行排名,找到最優(yōu)解。

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

論文鏈接:https://arxiv.org/abs/2409.17146



本項(xiàng)研究提出了一個(gè)新的視覺-語言模型家族Molmo,是當(dāng)時(shí)最強(qiáng)開源模型之一。它有72億參數(shù)規(guī)模,不僅拿下開源SOTA,還超越了Claude 3.5 Sonnet、Gemini 1.5 Pro等(注:該論文第一版發(fā)表時(shí)間為2024年9月)

作者認(rèn)為,現(xiàn)有性能最強(qiáng)的開源權(quán)重模型在很大程度上依賴于由閉源VLM生成的合成數(shù)據(jù)來獲得良好表現(xiàn),實(shí)質(zhì)上是將這些閉源模型“蒸餾”成開源模型。

因此,作者認(rèn)為學(xué)術(shù)界一直缺乏關(guān)于如何從零開始構(gòu)建高性能VLM的基礎(chǔ)知識(shí),Molmo就是基于這一背景提出。

Molmo模型架構(gòu)采用標(biāo)準(zhǔn)的視覺編碼器(ViT)+語言模型設(shè)計(jì),模型設(shè)計(jì)與優(yōu)化方面,Molmo提出了若干新策略。

例如重疊多裁剪(overlapping multi-crop)圖像處理策略、改進(jìn)了視覺-語言連接模塊、設(shè)計(jì)了支持指點(diǎn)能力的訓(xùn)練流程,這些創(chuàng)新提高了模型對(duì)復(fù)雜視覺任務(wù)(如定位、計(jì)數(shù)、自然圖像理解)的能力。

他們還創(chuàng)建了一組全新數(shù)據(jù)集PixMo,完全沒有依賴外部閉源模型生成。

其中包括用于預(yù)訓(xùn)練的高細(xì)節(jié)圖像描述數(shù)據(jù)集、用于微調(diào)的自由問答圖像數(shù)據(jù)集,以及一個(gè)創(chuàng)新的二維指點(diǎn)(pointing)數(shù)據(jù)集。

此外,PixMo還包含數(shù)個(gè)輔助的合成數(shù)據(jù)集,增強(qiáng)模型在讀表、讀圖、讀鐘表等特定技能上的能力。



3D Student Splatting and Scooping

論文鏈接:https://arxiv.org/abs/2503.10148



這項(xiàng)研究提出了一個(gè)新的3D模型——Student Splatting and Scooping,簡稱SSS,其作者全部為華人,且均來自英國高校。

隨著3DGS(3D高斯?jié)姙R)逐漸成為眾多模型的基礎(chǔ)組件,任何對(duì)3DGS本身的改進(jìn)都可能帶來巨大的收益,為此,作者致力于改進(jìn)3DGS的基本范式和公式結(jié)構(gòu)。

但3DGS本質(zhì)上是一個(gè)未歸一化的混合模型,因此不必局限于高斯分布,也不一定要采用潑濺方式。

因此,作者提出了一種由靈活的Student’s t分布(distribution)組成的新型混合模型,它具有正密度(潑濺Splatting)和負(fù)密度(挖空Scooping)兩種形式,這就是其名稱的由來。

與傳統(tǒng)高斯相比,Student’s t 分布通過可學(xué)習(xí)的尾部厚度參數(shù)實(shí)現(xiàn)了對(duì)從Cauchy到Gaussian的廣泛分布建模能力,使得 SSS 在表達(dá)能力上更為強(qiáng)大。

但在提供更強(qiáng)表達(dá)能力的同時(shí),SSS也帶來了新的學(xué)習(xí)挑戰(zhàn),主要是參數(shù)耦合問題和負(fù)密度引入的優(yōu)化復(fù)雜性。

為此,作者還提出了一種新的、具有理論依據(jù)的采樣優(yōu)化方法——SGHMC。

SGHMC通過在優(yōu)化過程中引入動(dòng)量變量(momentum)和受控噪聲項(xiàng),使得參數(shù)在優(yōu)化過程中能跳出局部最優(yōu),同時(shí)能有效緩解參數(shù)之間的耦合問題。

通過在多個(gè)數(shù)據(jù)集、設(shè)置和評(píng)測(cè)指標(biāo)上的全面評(píng)估與對(duì)比,作者證明了 SSS 在質(zhì)量和參數(shù)效率方面優(yōu)于現(xiàn)有方法。

在使用相似數(shù)量組件的情況下,SSS 可實(shí)現(xiàn)相當(dāng)甚至更高的渲染質(zhì)量,同時(shí)在某些場(chǎng)景下可將組件數(shù)量最多減少 82%,仍保持可比的結(jié)果。

最后,再次祝賀所有獲獎(jiǎng)團(tuán)隊(duì)與學(xué)者!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗稱若再受到襲擊將會(huì)封鎖霍爾木茲海峽 外交部回應(yīng)

伊朗稱若再受到襲擊將會(huì)封鎖霍爾木茲海峽 外交部回應(yīng)

新京報(bào)
2025-06-13 16:30:27
48小時(shí)封殺令!知名女星高考特權(quán)頂包,牽連大佬集體落馬倒計(jì)時(shí)!

48小時(shí)封殺令!知名女星高考特權(quán)頂包,牽連大佬集體落馬倒計(jì)時(shí)!

新語愛八卦
2025-06-13 16:30:57
俄軍再次擊落自己戰(zhàn)機(jī),伊朗只是俄烏戰(zhàn)爭(zhēng)一枚棋子

俄軍再次擊落自己戰(zhàn)機(jī),伊朗只是俄烏戰(zhàn)爭(zhēng)一枚棋子

史政先鋒
2025-06-14 19:32:21
印尼媒體:中國足協(xié)在接觸申臺(tái)龍,希望他能接替伊萬科維奇

印尼媒體:中國足協(xié)在接觸申臺(tái)龍,希望他能接替伊萬科維奇

雷速體育
2025-06-15 01:21:30
高圓圓雖然很漂亮,但到這個(gè)年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個(gè)年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
挖2棵以上就定罪!2024年廣東男子挖13萬斤,每斤賣8毛

挖2棵以上就定罪!2024年廣東男子挖13萬斤,每斤賣8毛

萬象硬核本尊
2025-06-13 11:37:17
印度毀約暫停向日本出口稀土,日本徹底慌了

印度毀約暫停向日本出口稀土,日本徹底慌了

朗威談星座
2025-06-14 21:50:06
下一個(gè)鄭欽文!10后中國小花崛起,連贏7場(chǎng)進(jìn)決賽創(chuàng)造歷史

下一個(gè)鄭欽文!10后中國小花崛起,連贏7場(chǎng)進(jìn)決賽創(chuàng)造歷史

全景體育V
2025-06-14 19:41:12
趙麗穎20小時(shí)冷對(duì)章子怡!內(nèi)娛體面規(guī)矩被當(dāng)場(chǎng)掀翻

趙麗穎20小時(shí)冷對(duì)章子怡!內(nèi)娛體面規(guī)矩被當(dāng)場(chǎng)掀翻

心誠則靈了
2025-06-14 21:26:48
78歲大媽3分鐘簽完安樂死文件,醫(yī)生突然遞來手機(jī):"您該先聽這個(gè)"

78歲大媽3分鐘簽完安樂死文件,醫(yī)生突然遞來手機(jī):"您該先聽這個(gè)"

雨仔講故事
2025-06-13 18:47:33
甘偉突發(fā)意外,不幸去世,終年59歲

甘偉突發(fā)意外,不幸去世,終年59歲

浙江之聲
2025-06-14 16:46:47
連撞15輛女司機(jī)賬號(hào)被扒!寬肩窄腰大長腿,警方定性,評(píng)論區(qū)辣眼

連撞15輛女司機(jī)賬號(hào)被扒!寬肩窄腰大長腿,警方定性,評(píng)論區(qū)辣眼

史行途
2025-06-13 11:42:35
網(wǎng)傳“女生萬象城遭挾持”,杭州上城警方通報(bào)

網(wǎng)傳“女生萬象城遭挾持”,杭州上城警方通報(bào)

環(huán)球網(wǎng)資訊
2025-06-14 18:57:23
17歲森碟獨(dú)自在機(jī)場(chǎng)被偶遇,又寬又壯一身肌肉,駝背玩手機(jī)長高了

17歲森碟獨(dú)自在機(jī)場(chǎng)被偶遇,又寬又壯一身肌肉,駝背玩手機(jī)長高了

聯(lián)友說娛
2025-06-14 17:11:22
為何越南女嫁到中國后全跑光了,越南女說出了真相

為何越南女嫁到中國后全跑光了,越南女說出了真相

二月侃事
2025-06-14 10:26:42
這誰頂?shù)米÷铮P莉·詹娜,這身材著實(shí)飽滿啊!

這誰頂?shù)米÷铮P莉·詹娜,這身材著實(shí)飽滿啊!

漫婷侃娛樂
2025-06-15 00:13:30
風(fēng)仍在吹:內(nèi)伊說要終結(jié)以色列政權(quán),但結(jié)果即便神權(quán)保住也···

風(fēng)仍在吹:內(nèi)伊說要終結(jié)以色列政權(quán),但結(jié)果即便神權(quán)保住也···

邵旭峰域
2025-06-14 12:12:16
37歲無臂網(wǎng)紅楊佩產(chǎn)子,雙腿累到虛脫,丈夫卻只顧著玩手機(jī)引熱議

37歲無臂網(wǎng)紅楊佩產(chǎn)子,雙腿累到虛脫,丈夫卻只顧著玩手機(jī)引熱議

楊哥歷史
2025-06-14 10:03:45
無錫后天出梅!35℃高溫接棒,水蜜桃采摘節(jié)能順利嗎?

無錫后天出梅!35℃高溫接棒,水蜜桃采摘節(jié)能順利嗎?

塵也封
2025-06-15 06:35:07
大媽跳廣場(chǎng)舞擾民,高考前夕也不收斂,學(xué)生家長:那讓你們跳個(gè)夠

大媽跳廣場(chǎng)舞擾民,高考前夕也不收斂,學(xué)生家長:那讓你們跳個(gè)夠

五元講堂
2025-06-10 15:04:57
2025-06-15 11:16:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10666文章數(shù) 176167關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴(yán)重缺貨

頭條要聞

印度空難幸存者:機(jī)身撞出巨大裂口 爬出去后發(fā)生爆炸

頭條要聞

印度空難幸存者:機(jī)身撞出巨大裂口 爬出去后發(fā)生爆炸

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財(cái)經(jīng)要聞

以伊沖突持續(xù)升級(jí),對(duì)全球市場(chǎng)影響多大

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

教育
房產(chǎn)
親子
公開課
軍事航空

教育要聞

一張圖掌握五年級(jí)下的數(shù)學(xué)知識(shí)

房產(chǎn)要聞

又一城購房補(bǔ)貼!買房就發(fā)錢,正在海南樓市瘋狂擴(kuò)散!

親子要聞

父親節(jié)快樂!海渡陽翔越來越棒啦,亞亞非常欣慰

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒:以色列國防部大樓被伊朗導(dǎo)彈擊中

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 老熟妇仑乱视频一区二区| 国产不卡视频一区二区三区| 亚洲日本va午夜在线影院| 国产熟妇另类久久久久久| 国产麻豆亚洲精品一区二区| 99精品久久99久久久久胖女人| 国产人妻人伦精品1国产盗摄| 护士张开腿被奷日出白浆| 亚洲精品图片区小说区| 韩国三级在线观看久| 久草热8精品视频在线观看| 国产精品高清一区二区不卡| 欧美videos另类粗暴| 人与人性恔配视频免费| 狠狠久久久久综合成人影院| 亚洲高潮喷水无码av电影| 日韩丰满少妇无吗视频激情内射| 无码精品久久久久久人妻中字| 狠狠色噜噜狠狠狠狠7777米奇| 亚洲线精品一区二区三区影音先锋| 中文无码乱人伦中文视频播放| 香蕉在线 亚洲 欧美 专区| 精品国产99高清一区二区三区| 内射少妇一区27p| 国产精品亚洲一区二区无码| av天堂中av世界中文在线播放| 日本黄网站免费| 狠狠综合久久久久尤物| 无码国产偷倩在线播放老年人| 日本无遮挡吸乳呻吟视频| 亚洲精品久久久www小说| 一品二品三品中文字幕| 久99久热只有精品国产女同| 国产av激情久久无码天堂| 日产欧美国产日韩精品| 国产国产人免费视频成69| 色 综合 欧美 亚洲 国产| а天堂中文最新一区二区三区| 丰满的少妇愉情hd高清果冻传媒| 100禁毛片免费40分钟视频| 精品乱码久久久久久中文字幕|