AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文一作陳汐,現(xiàn)為香港大學(xué)三年級(jí)博士生,在此之前本科碩士畢業(yè)于浙江大學(xué),同時(shí)獲得法國(guó)馬賽中央理工雙碩士學(xué)位。主要研究方向?yàn)閳D像視頻生成與理解,在領(lǐng)域內(nèi)頂級(jí)期刊會(huì)議上發(fā)表論文十余篇,并且 GitHub 開源項(xiàng)目獲得超過 5K star.
本文中,香港大學(xué)與 Adobe 聯(lián)合提出名為 UniReal 的全新圖像編輯與生成范式。該方法將多種圖像任務(wù)統(tǒng)一到視頻生成框架中,通過將不同類別和數(shù)量的輸入/輸出圖像建模為視頻幀,從大規(guī)模真實(shí)視頻數(shù)據(jù)中學(xué)習(xí)屬性、姿態(tài)、光照等多種變化規(guī)律,從而實(shí)現(xiàn)高保真的生成效果。
- 論文標(biāo)題:UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
- 項(xiàng)目主頁(yè):https://xavierchen34.github.io/UniReal-Page/
- 論文鏈接:https://arxiv.org/abs/2412.07774
效果展示
我們重點(diǎn)展示了圖像生成與編輯中最具挑戰(zhàn)性的三個(gè)任務(wù)的效果:圖像定制化生成、指令編輯和物體插入。
此外,UniReal 還支持多種圖像生成、編輯及感知任務(wù),例如文本生成圖像、可控圖像生成、圖像修復(fù)、深度估計(jì)和目標(biāo)分割等。
在單目標(biāo)定制化生成任務(wù)中,UniReal 能夠在準(zhǔn)確保留目標(biāo)細(xì)節(jié)(如 logo)的同時(shí),生成具有較大姿態(tài)和場(chǎng)景變化的圖像,并自然地模擬物體在不同環(huán)境下的狀態(tài),從而實(shí)現(xiàn)高質(zhì)量的生成效果。
與此同時(shí),UniReal 展現(xiàn)了強(qiáng)大的多目標(biāo)組合能力,能夠精確建模不同物體之間的交互關(guān)系,生成高度協(xié)調(diào)且逼真的圖像效果。
值得注意的是,我們并未專門收集人像數(shù)據(jù)進(jìn)行訓(xùn)練,UniReal 仍能夠生成自然且真實(shí)的全身像定制化效果,展現(xiàn)了其出色的泛化能力。
在指令編輯方面,UniReal 支持用戶通過自由輸入文本對(duì)圖像進(jìn)行靈活編輯,例如添加或刪除物體、修改屬性等。實(shí)驗(yàn)結(jié)果表明,UniReal 展現(xiàn)出了卓越的場(chǎng)景理解能力,能夠真實(shí)地模擬物體的陰影、反射以及前后遮擋關(guān)系,生成高度逼真的編輯效果。
UniReal 支持從圖像中提取特定目標(biāo)作為前景,插入到背景圖像中,天然適用于虛擬試衣、Logo 遷移、物體傳送等任務(wù)。實(shí)驗(yàn)表明,UniReal 插入的目標(biāo)能夠非常自然地融入背景圖像,呈現(xiàn)出與背景一致的和諧角度、倒影效果及環(huán)境匹配度,顯著提升了任務(wù)的生成質(zhì)量。
除了上述任務(wù)外,UniReal 還支持文本生成圖像、可控圖像生成、參考式圖像補(bǔ)全、目標(biāo)分割、深度估計(jì)等多種任務(wù),并能夠同時(shí)生成多張圖像。此外,UniReal 支持各類任務(wù)的相互組合,從而展現(xiàn)出許多未經(jīng)過專門訓(xùn)練的強(qiáng)大能力,進(jìn)一步證明其通用性和擴(kuò)展性。
方法介紹
UniReal 的目標(biāo)是為圖像生成與編輯任務(wù)構(gòu)建一個(gè)統(tǒng)一框架。我們觀察到,不同任務(wù)通常存在多樣化的輸入輸出圖像種類與數(shù)量,以及各自獨(dú)特的具體要求。然而,這些任務(wù)之間共享一個(gè)核心需求:在保持輸入輸出圖像一致性的同時(shí),根據(jù)控制信號(hào)建模圖像的變化。
這一需求與視頻生成任務(wù)有天然的契合性。視頻生成需要同時(shí)滿足幀間內(nèi)容的一致性與運(yùn)動(dòng)變化,并能夠支持不同的幀數(shù)輸出。受到近期類似 Sora 的視頻生成模型所取得優(yōu)異效果的啟發(fā),我們提出將不同的圖像生成與編輯任務(wù)統(tǒng)一到視頻生成架構(gòu)中。
此外,考慮到視頻中自然包含真實(shí)世界中多樣化的動(dòng)態(tài)變化,我們直接從原始視頻出發(fā),構(gòu)建大規(guī)模訓(xùn)練數(shù)據(jù),使模型能夠?qū)W習(xí)和模擬真實(shí)世界的變化規(guī)律,從而實(shí)現(xiàn)高保真的生成與編輯效果。
模型結(jié)構(gòu):我們借鑒了與Sora類似的視頻生成架構(gòu),將不同的輸入輸出圖像統(tǒng)一視作視頻幀處理。具體來(lái)說(shuō),圖像通過 VAE 編碼后被轉(zhuǎn)換為視覺 token,接著輸入 Transformer 進(jìn)行處理。與此同時(shí),我們引入了T5 text encoder對(duì)輸入指令進(jìn)行編碼,將生成的文本 token 與視覺 token 一同輸入 Transformer。通過使用full attention機(jī)制,模型能夠充分建模視覺和文本之間的關(guān)系,實(shí)現(xiàn)跨模態(tài)信息的高效融合和綜合理解。這種設(shè)計(jì)確保了模型在處理多樣化任務(wù)時(shí)的靈活性和生成效果的一致性。
層級(jí)化提示:為了解決不同任務(wù)和數(shù)據(jù)之間的沖突問題,同時(shí)支持多樣化的任務(wù)與數(shù)據(jù),我們提出了一種Hierarchical Prompt(層級(jí)化提示)設(shè)計(jì)。在傳統(tǒng)提示詞(Prompt)的基礎(chǔ)上,引入了Context Prompt和Image Prompt兩個(gè)新組件。
- Context Prompt:用于補(bǔ)充描述不同任務(wù)和數(shù)據(jù)集的特性,包括任務(wù)目標(biāo)、數(shù)據(jù)分特點(diǎn)等背景信息,從而為模型提供更豐富的上下文理解。
- Image Prompt:對(duì)輸入圖像進(jìn)行層次化劃分,將其分為三類:
- Asset(前景):需要重點(diǎn)操作或變更的目標(biāo)區(qū)域;
- Canvas(畫布):作為生成或編輯的背景場(chǎng)景;
- Control(控制):提供約束或引導(dǎo)的輸入信號(hào),如參考圖像或控制參數(shù)。
為每種類別的輸入圖像單獨(dú)訓(xùn)練不同的 embedding,從而幫助模型在聯(lián)合訓(xùn)練中區(qū)分輸入圖像的作用和語(yǔ)義,避免不同任務(wù)和數(shù)據(jù)引發(fā)的沖突與歧義。
通過這種層級(jí)化提示設(shè)計(jì),模型能夠更高效地整合多樣化的任務(wù)和數(shù)據(jù),顯著提升聯(lián)合訓(xùn)練的效果,進(jìn)一步增強(qiáng)其生成和編輯能力。
數(shù)據(jù)構(gòu)造:我們基于原始視頻數(shù)據(jù)構(gòu)建了大規(guī)模訓(xùn)練數(shù)據(jù)集,以支持多樣化的任務(wù)需求。具體步驟如下:
1. 編輯數(shù)據(jù)生成
從視頻中隨機(jī)抽取前后兩幀,分別作為編輯前和編輯后的圖像結(jié)果,并借助視覺語(yǔ)言模型(VLM)生成對(duì)應(yīng)的編輯指令,以模擬多樣化的圖像編輯任務(wù)。
2. 多目標(biāo)定制化生成
我們結(jié)合 VLM 與 SAM2,在視頻首幀中分割出不同的目標(biāo)區(qū)域,并利用這些目標(biāo)區(qū)域重建后續(xù)幀,構(gòu)造多目標(biāo)定制化生成的數(shù)據(jù)。這種方式能夠模擬目標(biāo)在復(fù)雜場(chǎng)景中的動(dòng)態(tài)變化,并為多目標(biāo)生成任務(wù)提供高質(zhì)量的數(shù)據(jù)支持。
3. 可控生成與圖像理解標(biāo)注
利用一系列圖像理解模型(如深度估計(jì)模型)對(duì)視頻和圖像進(jìn)行自動(dòng)打標(biāo)。這些標(biāo)簽不僅為可控生成任務(wù)(如深度控制生成)提供了豐富的條件信息,還為圖像理解任務(wù)(如深度估計(jì)、目標(biāo)分割)提供了標(biāo)準(zhǔn)參考。
通過這種基于原始視頻的多層次數(shù)據(jù)構(gòu)造策略,我們的模型能夠?qū)W習(xí)真實(shí)世界中的動(dòng)態(tài)變化規(guī)律,同時(shí)支持多種復(fù)雜的圖像生成與理解任務(wù),顯著提升了數(shù)據(jù)集的多樣性和模型的泛化能力。
效果對(duì)比
在指令編輯任務(wù)中,UniReal 能夠更好地保持背景像素的一致性,同時(shí)完成更具挑戰(zhàn)性的編輯任務(wù)。例如,它可以根據(jù)用戶指令生成 “螞蟻抬起轎車” 的畫面,并在轎車被抬起后動(dòng)態(tài)調(diào)整冰面上的反射,使其與場(chǎng)景的物理變化相一致。這種能力充分展現(xiàn)了 UniReal 在場(chǎng)景理解和細(xì)節(jié)生成上的強(qiáng)大性能。
在定制化生成任務(wù)中,無(wú)論是細(xì)節(jié)的精確保留還是對(duì)指令的準(zhǔn)確執(zhí)行,UniReal 都展現(xiàn)出了顯著的優(yōu)勢(shì)。其生成結(jié)果不僅能夠忠實(shí)還原目標(biāo)細(xì)節(jié),還能靈活響應(yīng)多樣化的指令需求,體現(xiàn)出卓越的生成能力和任務(wù)適應(yīng)性。
在物體插入任務(wù)中,我們與此前的代表性方法 AnyDoor 進(jìn)行了對(duì)比,UniReal 展現(xiàn)出了更強(qiáng)的環(huán)境理解能力。例如,它能夠正確模擬狗在水中的姿態(tài),自動(dòng)調(diào)整易拉罐在桌子上的視角,以及精確建模衣服在模特身上的狀態(tài),同時(shí)保留模特的頭發(fā)細(xì)節(jié)。這種對(duì)場(chǎng)景和物體關(guān)系的高度理解,使 UniReal 在生成真實(shí)感和一致性上遠(yuǎn)超現(xiàn)有方法。
未來(lái)展望
UniReal 在多個(gè)任務(wù)中展現(xiàn)了強(qiáng)大的潛力。然而,隨著輸入和輸出圖像數(shù)量的進(jìn)一步擴(kuò)大,訓(xùn)練與推理效率問題成為需要解決的關(guān)鍵挑戰(zhàn)。為此,我們計(jì)劃探索設(shè)計(jì)更高效的注意力結(jié)構(gòu),以降低計(jì)算成本并提高處理速度。同時(shí),我們還將這一方案進(jìn)一步擴(kuò)展到視頻生成與編輯任務(wù)中,利用高效的結(jié)構(gòu)應(yīng)對(duì)更復(fù)雜的數(shù)據(jù)規(guī)模和動(dòng)態(tài)場(chǎng)景需求,推動(dòng)模型性能與實(shí)用性的全面提升。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.