網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

UniReal登場(chǎng)：統(tǒng)一圖像生成與編輯，還學(xué)到真實(shí)世界動(dòng)態(tài)變化規(guī)律

2024-12-20 15:14:55　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

論文一作陳汐，現(xiàn)為香港大學(xué)三年級(jí)博士生，在此之前本科碩士畢業(yè)于浙江大學(xué)，同時(shí)獲得法國(guó)馬賽中央理工雙碩士學(xué)位。主要研究方向?yàn)閳D像視頻生成與理解，在領(lǐng)域內(nèi)頂級(jí)期刊會(huì)議上發(fā)表論文十余篇，并且 GitHub 開源項(xiàng)目獲得超過 5K star.

本文中，香港大學(xué)與 Adobe 聯(lián)合提出名為 UniReal 的全新圖像編輯與生成范式。該方法將多種圖像任務(wù)統(tǒng)一到視頻生成框架中，通過將不同類別和數(shù)量的輸入/輸出圖像建模為視頻幀，從大規(guī)模真實(shí)視頻數(shù)據(jù)中學(xué)習(xí)屬性、姿態(tài)、光照等多種變化規(guī)律，從而實(shí)現(xiàn)高保真的生成效果。

論文標(biāo)題：UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
項(xiàng)目主頁(yè)：https://xavierchen34.github.io/UniReal-Page/
論文鏈接：https://arxiv.org/abs/2412.07774

效果展示

我們重點(diǎn)展示了圖像生成與編輯中最具挑戰(zhàn)性的三個(gè)任務(wù)的效果：圖像定制化生成、指令編輯和物體插入。

此外，UniReal 還支持多種圖像生成、編輯及感知任務(wù)，例如文本生成圖像、可控圖像生成、圖像修復(fù)、深度估計(jì)和目標(biāo)分割等。

在單目標(biāo)定制化生成任務(wù)中，UniReal 能夠在準(zhǔn)確保留目標(biāo)細(xì)節(jié)（如 logo）的同時(shí)，生成具有較大姿態(tài)和場(chǎng)景變化的圖像，并自然地模擬物體在不同環(huán)境下的狀態(tài)，從而實(shí)現(xiàn)高質(zhì)量的生成效果。

與此同時(shí)，UniReal 展現(xiàn)了強(qiáng)大的多目標(biāo)組合能力，能夠精確建模不同物體之間的交互關(guān)系，生成高度協(xié)調(diào)且逼真的圖像效果。

值得注意的是，我們并未專門收集人像數(shù)據(jù)進(jìn)行訓(xùn)練，UniReal 仍能夠生成自然且真實(shí)的全身像定制化效果，展現(xiàn)了其出色的泛化能力。

在指令編輯方面，UniReal 支持用戶通過自由輸入文本對(duì)圖像進(jìn)行靈活編輯，例如添加或刪除物體、修改屬性等。實(shí)驗(yàn)結(jié)果表明，UniReal 展現(xiàn)出了卓越的場(chǎng)景理解能力，能夠真實(shí)地模擬物體的陰影、反射以及前后遮擋關(guān)系，生成高度逼真的編輯效果。

UniReal 支持從圖像中提取特定目標(biāo)作為前景，插入到背景圖像中，天然適用于虛擬試衣、Logo 遷移、物體傳送等任務(wù)。實(shí)驗(yàn)表明，UniReal 插入的目標(biāo)能夠非常自然地融入背景圖像，呈現(xiàn)出與背景一致的和諧角度、倒影效果及環(huán)境匹配度，顯著提升了任務(wù)的生成質(zhì)量。

除了上述任務(wù)外，UniReal 還支持文本生成圖像、可控圖像生成、參考式圖像補(bǔ)全、目標(biāo)分割、深度估計(jì)等多種任務(wù)，并能夠同時(shí)生成多張圖像。此外，UniReal 支持各類任務(wù)的相互組合，從而展現(xiàn)出許多未經(jīng)過專門訓(xùn)練的強(qiáng)大能力，進(jìn)一步證明其通用性和擴(kuò)展性。

方法介紹

UniReal 的目標(biāo)是為圖像生成與編輯任務(wù)構(gòu)建一個(gè)統(tǒng)一框架。我們觀察到，不同任務(wù)通常存在多樣化的輸入輸出圖像種類與數(shù)量，以及各自獨(dú)特的具體要求。然而，這些任務(wù)之間共享一個(gè)核心需求：在保持輸入輸出圖像一致性的同時(shí)，根據(jù)控制信號(hào)建模圖像的變化。

這一需求與視頻生成任務(wù)有天然的契合性。視頻生成需要同時(shí)滿足幀間內(nèi)容的一致性與運(yùn)動(dòng)變化，并能夠支持不同的幀數(shù)輸出。受到近期類似 Sora 的視頻生成模型所取得優(yōu)異效果的啟發(fā)，我們提出將不同的圖像生成與編輯任務(wù)統(tǒng)一到視頻生成架構(gòu)中。

此外，考慮到視頻中自然包含真實(shí)世界中多樣化的動(dòng)態(tài)變化，我們直接從原始視頻出發(fā)，構(gòu)建大規(guī)模訓(xùn)練數(shù)據(jù)，使模型能夠?qū)W習(xí)和模擬真實(shí)世界的變化規(guī)律，從而實(shí)現(xiàn)高保真的生成與編輯效果。

模型結(jié)構(gòu)：我們借鑒了與Sora類似的視頻生成架構(gòu)，將不同的輸入輸出圖像統(tǒng)一視作視頻幀處理。具體來(lái)說(shuō)，圖像通過 VAE 編碼后被轉(zhuǎn)換為視覺 token，接著輸入 Transformer 進(jìn)行處理。與此同時(shí)，我們引入了T5 text encoder對(duì)輸入指令進(jìn)行編碼，將生成的文本 token 與視覺 token 一同輸入 Transformer。通過使用full attention機(jī)制，模型能夠充分建模視覺和文本之間的關(guān)系，實(shí)現(xiàn)跨模態(tài)信息的高效融合和綜合理解。這種設(shè)計(jì)確保了模型在處理多樣化任務(wù)時(shí)的靈活性和生成效果的一致性。

層級(jí)化提示：為了解決不同任務(wù)和數(shù)據(jù)之間的沖突問題，同時(shí)支持多樣化的任務(wù)與數(shù)據(jù)，我們提出了一種Hierarchical Prompt（層級(jí)化提示）設(shè)計(jì)。在傳統(tǒng)提示詞（Prompt）的基礎(chǔ)上，引入了Context Prompt和Image Prompt兩個(gè)新組件。

Context Prompt：用于補(bǔ)充描述不同任務(wù)和數(shù)據(jù)集的特性，包括任務(wù)目標(biāo)、數(shù)據(jù)分特點(diǎn)等背景信息，從而為模型提供更豐富的上下文理解。
Image Prompt：對(duì)輸入圖像進(jìn)行層次化劃分，將其分為三類：
Asset（前景）：需要重點(diǎn)操作或變更的目標(biāo)區(qū)域；
Canvas（畫布）：作為生成或編輯的背景場(chǎng)景；
Control（控制）：提供約束或引導(dǎo)的輸入信號(hào)，如參考圖像或控制參數(shù)。

為每種類別的輸入圖像單獨(dú)訓(xùn)練不同的 embedding，從而幫助模型在聯(lián)合訓(xùn)練中區(qū)分輸入圖像的作用和語(yǔ)義，避免不同任務(wù)和數(shù)據(jù)引發(fā)的沖突與歧義。

通過這種層級(jí)化提示設(shè)計(jì)，模型能夠更高效地整合多樣化的任務(wù)和數(shù)據(jù)，顯著提升聯(lián)合訓(xùn)練的效果，進(jìn)一步增強(qiáng)其生成和編輯能力。

數(shù)據(jù)構(gòu)造：我們基于原始視頻數(shù)據(jù)構(gòu)建了大規(guī)模訓(xùn)練數(shù)據(jù)集，以支持多樣化的任務(wù)需求。具體步驟如下：

1. 編輯數(shù)據(jù)生成

從視頻中隨機(jī)抽取前后兩幀，分別作為編輯前和編輯后的圖像結(jié)果，并借助視覺語(yǔ)言模型（VLM）生成對(duì)應(yīng)的編輯指令，以模擬多樣化的圖像編輯任務(wù)。

2. 多目標(biāo)定制化生成

我們結(jié)合 VLM 與 SAM2，在視頻首幀中分割出不同的目標(biāo)區(qū)域，并利用這些目標(biāo)區(qū)域重建后續(xù)幀，構(gòu)造多目標(biāo)定制化生成的數(shù)據(jù)。這種方式能夠模擬目標(biāo)在復(fù)雜場(chǎng)景中的動(dòng)態(tài)變化，并為多目標(biāo)生成任務(wù)提供高質(zhì)量的數(shù)據(jù)支持。

3. 可控生成與圖像理解標(biāo)注

利用一系列圖像理解模型（如深度估計(jì)模型）對(duì)視頻和圖像進(jìn)行自動(dòng)打標(biāo)。這些標(biāo)簽不僅為可控生成任務(wù)（如深度控制生成）提供了豐富的條件信息，還為圖像理解任務(wù)（如深度估計(jì)、目標(biāo)分割）提供了標(biāo)準(zhǔn)參考。

通過這種基于原始視頻的多層次數(shù)據(jù)構(gòu)造策略，我們的模型能夠?qū)W習(xí)真實(shí)世界中的動(dòng)態(tài)變化規(guī)律，同時(shí)支持多種復(fù)雜的圖像生成與理解任務(wù)，顯著提升了數(shù)據(jù)集的多樣性和模型的泛化能力。

效果對(duì)比

在指令編輯任務(wù)中，UniReal 能夠更好地保持背景像素的一致性，同時(shí)完成更具挑戰(zhàn)性的編輯任務(wù)。例如，它可以根據(jù)用戶指令生成 “螞蟻抬起轎車” 的畫面，并在轎車被抬起后動(dòng)態(tài)調(diào)整冰面上的反射，使其與場(chǎng)景的物理變化相一致。這種能力充分展現(xiàn)了 UniReal 在場(chǎng)景理解和細(xì)節(jié)生成上的強(qiáng)大性能。

在定制化生成任務(wù)中，無(wú)論是細(xì)節(jié)的精確保留還是對(duì)指令的準(zhǔn)確執(zhí)行，UniReal 都展現(xiàn)出了顯著的優(yōu)勢(shì)。其生成結(jié)果不僅能夠忠實(shí)還原目標(biāo)細(xì)節(jié)，還能靈活響應(yīng)多樣化的指令需求，體現(xiàn)出卓越的生成能力和任務(wù)適應(yīng)性。

在物體插入任務(wù)中，我們與此前的代表性方法 AnyDoor 進(jìn)行了對(duì)比，UniReal 展現(xiàn)出了更強(qiáng)的環(huán)境理解能力。例如，它能夠正確模擬狗在水中的姿態(tài)，自動(dòng)調(diào)整易拉罐在桌子上的視角，以及精確建模衣服在模特身上的狀態(tài)，同時(shí)保留模特的頭發(fā)細(xì)節(jié)。這種對(duì)場(chǎng)景和物體關(guān)系的高度理解，使 UniReal 在生成真實(shí)感和一致性上遠(yuǎn)超現(xiàn)有方法。

未來(lái)展望

UniReal 在多個(gè)任務(wù)中展現(xiàn)了強(qiáng)大的潛力。然而，隨著輸入和輸出圖像數(shù)量的進(jìn)一步擴(kuò)大，訓(xùn)練與推理效率問題成為需要解決的關(guān)鍵挑戰(zhàn)。為此，我們計(jì)劃探索設(shè)計(jì)更高效的注意力結(jié)構(gòu)，以降低計(jì)算成本并提高處理速度。同時(shí)，我們還將這一方案進(jìn)一步擴(kuò)展到視頻生成與編輯任務(wù)中，利用高效的結(jié)構(gòu)應(yīng)對(duì)更復(fù)雜的數(shù)據(jù)規(guī)模和動(dòng)態(tài)場(chǎng)景需求，推動(dòng)模型性能與實(shí)用性的全面提升。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.