Scene Splatter團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
三維場(chǎng)景是構(gòu)建世界模型、具身智能等前沿科技的關(guān)鍵環(huán)節(jié)之一。
盡管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等生成模型已在三維生成領(lǐng)域取得顯著進(jìn)展,但其往往聚焦在物體級(jí)別內(nèi)容生成,難以實(shí)現(xiàn)復(fù)雜三維場(chǎng)景的構(gòu)建。
清華大學(xué)聯(lián)合騰訊提出Scene Splatter——從一張圖像出發(fā),基于自定義的相機(jī)軌跡探索三維場(chǎng)景。
基于視頻擴(kuò)散模型,創(chuàng)新性地從動(dòng)量的視角出發(fā),引導(dǎo)視頻擴(kuò)散模型生成滿(mǎn)足三維一致性的視頻片段,大幅提升三維場(chǎng)景生成效果。
視頻生成模型的困境
基于單張圖片恢復(fù)三維場(chǎng)景是一個(gè)病態(tài)(ill-posed)問(wèn)題。
傳統(tǒng)三維重建方法依賴(lài)多視角圖像的匹配與計(jì)算,而在單張圖片的條件下,缺少幾何約束,使得重建的場(chǎng)景存在結(jié)構(gòu)扭曲、缺失和飄浮等問(wèn)題。
為了解決這一問(wèn)題,引入視頻擴(kuò)散模型強(qiáng)大的生成先驗(yàn)為場(chǎng)景補(bǔ)充多視角的信息,再利用成熟的多視角重建技術(shù)恢復(fù)三維場(chǎng)景,成為一條前景可觀的道路。
然而,受到視頻生成模型能力的制約,其生成內(nèi)容難以保持充分的三維一致性。
Flash3D為重建方法,未引入生成信息,存在失真和遮擋的問(wèn)題。
而CogVideo和ViewCrafter雖然具備生成能力,但會(huì)改變場(chǎng)景的顏色風(fēng)格和內(nèi)容。
動(dòng)量引導(dǎo)的視頻生成
由于現(xiàn)有方法普遍存在視頻長(zhǎng)度受限和場(chǎng)景一致性差的問(wèn)題,后續(xù)重建的過(guò)程中容易出現(xiàn)偽影與失真。
Scene Splatter受到動(dòng)量算法的啟發(fā),構(gòu)建了級(jí)聯(lián)式的動(dòng)量引導(dǎo)視頻生成:
第一級(jí)是從原始特征中構(gòu)建噪聲樣本,作為動(dòng)量添加到去噪得到的特征中,通過(guò)自適應(yīng)的參數(shù)來(lái)控制動(dòng)量強(qiáng)度,以增強(qiáng)視頻細(xì)節(jié)并保持場(chǎng)景的一致性。
然而,再感知范圍覆蓋已知與未知區(qū)域的潛在特征中,這種基于潛空間的動(dòng)量會(huì)限制擴(kuò)散模型再未知區(qū)域的生成能力。
因此,第二級(jí)進(jìn)一步引入上述一致性強(qiáng)的視頻作為像素級(jí)動(dòng)量,將其與不含動(dòng)量直接生成的視頻融合,以更好地恢復(fù)未知區(qū)域信息。
通過(guò)這種級(jí)聯(lián)式動(dòng)量機(jī)制,Scene Splatter能夠引導(dǎo)視頻擴(kuò)散模型生成具有高保真度和一致性的多視角新視頻。
△Scene Splatter流程圖。
Scene Splatter首先利用高斯預(yù)測(cè)模型進(jìn)行場(chǎng)景初始化,隨后根據(jù)自定義的相機(jī)軌跡進(jìn)行渲染,并使用動(dòng)量引導(dǎo)的視頻模型生成高質(zhì)量視頻,基于視頻的多視角信息進(jìn)行重建。
得到多視角新視頻后,對(duì)全局高斯表示進(jìn)行微調(diào),利用增強(qiáng)的視頻幀來(lái)優(yōu)化高斯表示,并在新視角進(jìn)行渲染,以支持后續(xù)的動(dòng)量更新。
通過(guò)逐步迭代,Scene Splatter可以實(shí)現(xiàn)對(duì)三維場(chǎng)景的逐步恢復(fù),突破視頻生成模型再長(zhǎng)度上的限制。
性能展示
△Scene Splatter在補(bǔ)全場(chǎng)景的同時(shí)保持三維一致性。
通過(guò)在不同圖像風(fēng)格和相機(jī)軌跡上的實(shí)驗(yàn),可以發(fā)現(xiàn)。Flash3D從單輸入中無(wú)法獲得明確的幾何線(xiàn)索,導(dǎo)致第1行第2列中的桌子和椅子出現(xiàn)變形。此外,它也無(wú)法恢復(fù)未見(jiàn)區(qū)域,這在第4行第2列的縮放設(shè)置中很明顯。
ViewCrafte和CogVideoX可以增強(qiáng)輸入幀,但存在場(chǎng)景不一致的問(wèn)題,這導(dǎo)致進(jìn)一步重建時(shí)出現(xiàn)沖突。例如,第1行中CogVideoX生成的椅子與輸入圖像不同,第3行中ViewCrafter改變了場(chǎng)景的顏色風(fēng)格。
而Scene Splatter可以在保持場(chǎng)景一致性的同時(shí)提供高質(zhì)量的觀察結(jié)果。從卡通到真實(shí)圖像,從室內(nèi)到室外場(chǎng)景的各種輸入風(fēng)格,均可以很好地平衡模型的生成能力與一致性。
△Scene Splatter支持任意相機(jī)軌跡的場(chǎng)景探索。
此外,模型能夠很好地泛化到不同的相機(jī)軌跡中,支持任意視角軌跡的三維探索。
△Scene Splatter消融研究的可視化結(jié)果。
通過(guò)消融實(shí)驗(yàn),可以看出,在沒(méi)有任何生成先驗(yàn)知識(shí)的情況下,Scene Splatter會(huì)退化為Flash3D,其中第5列的渲染結(jié)果在幾何形狀上存在扭曲,因?yàn)樵趩文吭O(shè)置下深度估計(jì)并非完全監(jiān)督。這個(gè)問(wèn)題導(dǎo)致PSNR降低了3.67dB,SSIM降低了0.126。
第3列顯示,缺乏潛在層動(dòng)量會(huì)導(dǎo)致現(xiàn)有組件發(fā)生變化,表明潛在層動(dòng)量能夠保持場(chǎng)景一致性。
移除Scene Splatter的像素級(jí)動(dòng)量,發(fā)現(xiàn)缺乏像素級(jí)動(dòng)量限制了擴(kuò)散模型的生成能力,導(dǎo)致PSNR降低了3.5dB,SSIM降低了0.111。
論文:https://arxiv.org/abs/2504.02764
代碼:https://github.com/shengjun-zhang/Scene-Splatter
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.