大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

UniReal登場(chǎng):統(tǒng)一圖像生成與編輯,還學(xué)到真實(shí)世界動(dòng)態(tài)變化規(guī)律

0
分享至

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

論文一作陳汐,現(xiàn)為香港大學(xué)三年級(jí)博士生,在此之前本科碩士畢業(yè)于浙江大學(xué),同時(shí)獲得法國(guó)馬賽中央理工雙碩士學(xué)位。主要研究方向?yàn)閳D像視頻生成與理解,在領(lǐng)域內(nèi)頂級(jí)期刊會(huì)議上發(fā)表論文十余篇,并且 GitHub 開源項(xiàng)目獲得超過 5K star.

本文中,香港大學(xué)與 Adobe 聯(lián)合提出名為 UniReal 的全新圖像編輯與生成范式。該方法將多種圖像任務(wù)統(tǒng)一到視頻生成框架中,通過將不同類別和數(shù)量的輸入/輸出圖像建模為視頻幀,從大規(guī)模真實(shí)視頻數(shù)據(jù)中學(xué)習(xí)屬性、姿態(tài)、光照等多種變化規(guī)律,從而實(shí)現(xiàn)高保真的生成效果。

  • 論文標(biāo)題:UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
  • 項(xiàng)目主頁(yè):https://xavierchen34.github.io/UniReal-Page/
  • 論文鏈接:https://arxiv.org/abs/2412.07774



效果展示

我們重點(diǎn)展示了圖像生成與編輯中最具挑戰(zhàn)性的三個(gè)任務(wù)的效果:圖像定制化生成、指令編輯和物體插入。

此外,UniReal 還支持多種圖像生成、編輯及感知任務(wù),例如文本生成圖像、可控圖像生成、圖像修復(fù)、深度估計(jì)和目標(biāo)分割等。



在單目標(biāo)定制化生成任務(wù)中,UniReal 能夠在準(zhǔn)確保留目標(biāo)細(xì)節(jié)(如 logo)的同時(shí),生成具有較大姿態(tài)和場(chǎng)景變化的圖像,并自然地模擬物體在不同環(huán)境下的狀態(tài),從而實(shí)現(xiàn)高質(zhì)量的生成效果。



與此同時(shí),UniReal 展現(xiàn)了強(qiáng)大的多目標(biāo)組合能力,能夠精確建模不同物體之間的交互關(guān)系,生成高度協(xié)調(diào)且逼真的圖像效果。



值得注意的是,我們并未專門收集人像數(shù)據(jù)進(jìn)行訓(xùn)練,UniReal 仍能夠生成自然且真實(shí)的全身像定制化效果,展現(xiàn)了其出色的泛化能力。



在指令編輯方面,UniReal 支持用戶通過自由輸入文本對(duì)圖像進(jìn)行靈活編輯,例如添加或刪除物體、修改屬性等。實(shí)驗(yàn)結(jié)果表明,UniReal 展現(xiàn)出了卓越的場(chǎng)景理解能力,能夠真實(shí)地模擬物體的陰影、反射以及前后遮擋關(guān)系,生成高度逼真的編輯效果。



UniReal 支持從圖像中提取特定目標(biāo)作為前景,插入到背景圖像中,天然適用于虛擬試衣、Logo 遷移、物體傳送等任務(wù)。實(shí)驗(yàn)表明,UniReal 插入的目標(biāo)能夠非常自然地融入背景圖像,呈現(xiàn)出與背景一致的和諧角度、倒影效果及環(huán)境匹配度,顯著提升了任務(wù)的生成質(zhì)量。



除了上述任務(wù)外,UniReal 還支持文本生成圖像、可控圖像生成、參考式圖像補(bǔ)全、目標(biāo)分割、深度估計(jì)等多種任務(wù),并能夠同時(shí)生成多張圖像。此外,UniReal 支持各類任務(wù)的相互組合,從而展現(xiàn)出許多未經(jīng)過專門訓(xùn)練的強(qiáng)大能力,進(jìn)一步證明其通用性和擴(kuò)展性。

方法介紹

UniReal 的目標(biāo)是為圖像生成與編輯任務(wù)構(gòu)建一個(gè)統(tǒng)一框架。我們觀察到,不同任務(wù)通常存在多樣化的輸入輸出圖像種類與數(shù)量,以及各自獨(dú)特的具體要求。然而,這些任務(wù)之間共享一個(gè)核心需求:在保持輸入輸出圖像一致性的同時(shí),根據(jù)控制信號(hào)建模圖像的變化。

這一需求與視頻生成任務(wù)有天然的契合性。視頻生成需要同時(shí)滿足幀間內(nèi)容的一致性與運(yùn)動(dòng)變化,并能夠支持不同的幀數(shù)輸出。受到近期類似 Sora 的視頻生成模型所取得優(yōu)異效果的啟發(fā),我們提出將不同的圖像生成與編輯任務(wù)統(tǒng)一到視頻生成架構(gòu)中。

此外,考慮到視頻中自然包含真實(shí)世界中多樣化的動(dòng)態(tài)變化,我們直接從原始視頻出發(fā),構(gòu)建大規(guī)模訓(xùn)練數(shù)據(jù),使模型能夠?qū)W習(xí)和模擬真實(shí)世界的變化規(guī)律,從而實(shí)現(xiàn)高保真的生成與編輯效果。



模型結(jié)構(gòu):我們借鑒了與Sora類似的視頻生成架構(gòu),將不同的輸入輸出圖像統(tǒng)一視作視頻幀處理。具體來(lái)說(shuō),圖像通過 VAE 編碼后被轉(zhuǎn)換為視覺 token,接著輸入 Transformer 進(jìn)行處理。與此同時(shí),我們引入了T5 text encoder對(duì)輸入指令進(jìn)行編碼,將生成的文本 token 與視覺 token 一同輸入 Transformer。通過使用full attention機(jī)制,模型能夠充分建模視覺和文本之間的關(guān)系,實(shí)現(xiàn)跨模態(tài)信息的高效融合和綜合理解。這種設(shè)計(jì)確保了模型在處理多樣化任務(wù)時(shí)的靈活性和生成效果的一致性。

層級(jí)化提示:為了解決不同任務(wù)和數(shù)據(jù)之間的沖突問題,同時(shí)支持多樣化的任務(wù)與數(shù)據(jù),我們提出了一種Hierarchical Prompt(層級(jí)化提示)設(shè)計(jì)。在傳統(tǒng)提示詞(Prompt)的基礎(chǔ)上,引入了Context PromptImage Prompt兩個(gè)新組件。

  • Context Prompt:用于補(bǔ)充描述不同任務(wù)和數(shù)據(jù)集的特性,包括任務(wù)目標(biāo)、數(shù)據(jù)分特點(diǎn)等背景信息,從而為模型提供更豐富的上下文理解。
  • Image Prompt:對(duì)輸入圖像進(jìn)行層次化劃分,將其分為三類:
  • Asset(前景):需要重點(diǎn)操作或變更的目標(biāo)區(qū)域;
  • Canvas(畫布):作為生成或編輯的背景場(chǎng)景;
  • Control(控制):提供約束或引導(dǎo)的輸入信號(hào),如參考圖像或控制參數(shù)。

為每種類別的輸入圖像單獨(dú)訓(xùn)練不同的 embedding,從而幫助模型在聯(lián)合訓(xùn)練中區(qū)分輸入圖像的作用和語(yǔ)義,避免不同任務(wù)和數(shù)據(jù)引發(fā)的沖突與歧義。

通過這種層級(jí)化提示設(shè)計(jì),模型能夠更高效地整合多樣化的任務(wù)和數(shù)據(jù),顯著提升聯(lián)合訓(xùn)練的效果,進(jìn)一步增強(qiáng)其生成和編輯能力。



數(shù)據(jù)構(gòu)造:我們基于原始視頻數(shù)據(jù)構(gòu)建了大規(guī)模訓(xùn)練數(shù)據(jù)集,以支持多樣化的任務(wù)需求。具體步驟如下:

1. 編輯數(shù)據(jù)生成

從視頻中隨機(jī)抽取前后兩幀,分別作為編輯前和編輯后的圖像結(jié)果,并借助視覺語(yǔ)言模型(VLM)生成對(duì)應(yīng)的編輯指令,以模擬多樣化的圖像編輯任務(wù)。

2. 多目標(biāo)定制化生成

我們結(jié)合 VLM 與 SAM2,在視頻首幀中分割出不同的目標(biāo)區(qū)域,并利用這些目標(biāo)區(qū)域重建后續(xù)幀,構(gòu)造多目標(biāo)定制化生成的數(shù)據(jù)。這種方式能夠模擬目標(biāo)在復(fù)雜場(chǎng)景中的動(dòng)態(tài)變化,并為多目標(biāo)生成任務(wù)提供高質(zhì)量的數(shù)據(jù)支持。

3. 可控生成與圖像理解標(biāo)注

利用一系列圖像理解模型(如深度估計(jì)模型)對(duì)視頻和圖像進(jìn)行自動(dòng)打標(biāo)。這些標(biāo)簽不僅為可控生成任務(wù)(如深度控制生成)提供了豐富的條件信息,還為圖像理解任務(wù)(如深度估計(jì)、目標(biāo)分割)提供了標(biāo)準(zhǔn)參考。

通過這種基于原始視頻的多層次數(shù)據(jù)構(gòu)造策略,我們的模型能夠?qū)W習(xí)真實(shí)世界中的動(dòng)態(tài)變化規(guī)律,同時(shí)支持多種復(fù)雜的圖像生成與理解任務(wù),顯著提升了數(shù)據(jù)集的多樣性和模型的泛化能力。

效果對(duì)比

指令編輯任務(wù)中,UniReal 能夠更好地保持背景像素的一致性,同時(shí)完成更具挑戰(zhàn)性的編輯任務(wù)。例如,它可以根據(jù)用戶指令生成 “螞蟻抬起轎車” 的畫面,并在轎車被抬起后動(dòng)態(tài)調(diào)整冰面上的反射,使其與場(chǎng)景的物理變化相一致。這種能力充分展現(xiàn)了 UniReal 在場(chǎng)景理解和細(xì)節(jié)生成上的強(qiáng)大性能。



定制化生成任務(wù)中,無(wú)論是細(xì)節(jié)的精確保留還是對(duì)指令的準(zhǔn)確執(zhí)行,UniReal 都展現(xiàn)出了顯著的優(yōu)勢(shì)。其生成結(jié)果不僅能夠忠實(shí)還原目標(biāo)細(xì)節(jié),還能靈活響應(yīng)多樣化的指令需求,體現(xiàn)出卓越的生成能力和任務(wù)適應(yīng)性。



物體插入任務(wù)中,我們與此前的代表性方法 AnyDoor 進(jìn)行了對(duì)比,UniReal 展現(xiàn)出了更強(qiáng)的環(huán)境理解能力。例如,它能夠正確模擬狗在水中的姿態(tài),自動(dòng)調(diào)整易拉罐在桌子上的視角,以及精確建模衣服在模特身上的狀態(tài),同時(shí)保留模特的頭發(fā)細(xì)節(jié)。這種對(duì)場(chǎng)景和物體關(guān)系的高度理解,使 UniReal 在生成真實(shí)感和一致性上遠(yuǎn)超現(xiàn)有方法。



未來(lái)展望

UniReal 在多個(gè)任務(wù)中展現(xiàn)了強(qiáng)大的潛力。然而,隨著輸入和輸出圖像數(shù)量的進(jìn)一步擴(kuò)大,訓(xùn)練與推理效率問題成為需要解決的關(guān)鍵挑戰(zhàn)。為此,我們計(jì)劃探索設(shè)計(jì)更高效的注意力結(jié)構(gòu),以降低計(jì)算成本并提高處理速度。同時(shí),我們還將這一方案進(jìn)一步擴(kuò)展到視頻生成與編輯任務(wù)中,利用高效的結(jié)構(gòu)應(yīng)對(duì)更復(fù)雜的數(shù)據(jù)規(guī)模和動(dòng)態(tài)場(chǎng)景需求,推動(dòng)模型性能與實(shí)用性的全面提升。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
英國(guó)也直接下場(chǎng)中東!英國(guó)向中東增派戰(zhàn)斗機(jī)以應(yīng)對(duì)地區(qū)局勢(shì)惡化

英國(guó)也直接下場(chǎng)中東!英國(guó)向中東增派戰(zhàn)斗機(jī)以應(yīng)對(duì)地區(qū)局勢(shì)惡化

軍迷戰(zhàn)情室
2025-06-15 11:33:42
帕米爾高原被我國(guó)收回,一經(jīng)勘探后悔不已:撿了芝麻,丟了西瓜?

帕米爾高原被我國(guó)收回,一經(jīng)勘探后悔不已:撿了芝麻,丟了西瓜?

欽點(diǎn)歷史
2025-06-14 17:00:07
大比分2-2后!美媒預(yù)測(cè)最新奪冠概率:80%比20%,完全成了一邊倒

大比分2-2后!美媒預(yù)測(cè)最新奪冠概率:80%比20%,完全成了一邊倒

你的籃球頻道
2025-06-14 14:22:40
美刊猜測(cè):殲-36可能有第三名機(jī)組成員

美刊猜測(cè):殲-36可能有第三名機(jī)組成員

陶慕劍地球觀察
2025-06-14 05:33:40
韋世豪轟世界波!長(zhǎng)途奔襲單刀1挑2,媒體人:伊萬(wàn)只會(huì)讓他傳中

韋世豪轟世界波!長(zhǎng)途奔襲單刀1挑2,媒體人:伊萬(wàn)只會(huì)讓他傳中

奧拜爾
2025-06-14 19:56:28
相互不接壤,以色列為什么一定要揍伊朗?中國(guó)有句老話說(shuō)得好

相互不接壤,以色列為什么一定要揍伊朗?中國(guó)有句老話說(shuō)得好

博覽歷史
2025-06-14 08:45:05
高考后旗袍迎來(lái)“退貨潮”,汗臭難聞吊牌沒摘,網(wǎng)友:犯了大忌!

高考后旗袍迎來(lái)“退貨潮”,汗臭難聞吊牌沒摘,網(wǎng)友:犯了大忌!

涵豆說(shuō)娛
2025-06-14 09:06:48
雷霆2-2扳平!一場(chǎng)丑陋的勝利,誰(shuí)是贏球最大功臣?數(shù)據(jù)不會(huì)說(shuō)謊

雷霆2-2扳平!一場(chǎng)丑陋的勝利,誰(shuí)是贏球最大功臣?數(shù)據(jù)不會(huì)說(shuō)謊

籃球掃地僧
2025-06-14 11:31:19
哈爾科夫升起蘑菇云,北約軍事訓(xùn)練場(chǎng)被炸,大批德國(guó)法國(guó)教官身亡

哈爾科夫升起蘑菇云,北約軍事訓(xùn)練場(chǎng)被炸,大批德國(guó)法國(guó)教官身亡

龍炎校尉
2025-06-10 09:32:19
斯帥一成不變,浪費(fèi)換人名額,申花3將斷崖下滑 米內(nèi)羅德比難出戰(zhàn)

斯帥一成不變,浪費(fèi)換人名額,申花3將斷崖下滑 米內(nèi)羅德比難出戰(zhàn)

替補(bǔ)席看球
2025-06-15 10:53:02
美記:杜蘭特正在幕后參與交易 他不確定自己是否適合森林狼

美記:杜蘭特正在幕后參與交易 他不確定自己是否適合森林狼

直播吧
2025-06-15 08:29:56
男子撿走大量鈔票后續(xù):10萬(wàn)一捆至少8捆,警方介入,失主已找到

男子撿走大量鈔票后續(xù):10萬(wàn)一捆至少8捆,警方介入,失主已找到

振華觀史
2025-06-13 22:37:15
“刺痛”哈里王子!威廉查爾斯亮相盡顯父子情深,無(wú)視其和解請(qǐng)求

“刺痛”哈里王子!威廉查爾斯亮相盡顯父子情深,無(wú)視其和解請(qǐng)求

小嵩
2025-06-15 10:00:29
天呢!網(wǎng)友透露東莞當(dāng)年有多么瘋狂,“一天28萬(wàn)”…

天呢!網(wǎng)友透露東莞當(dāng)年有多么瘋狂,“一天28萬(wàn)”…

慧翔百科
2025-06-10 12:28:30
鳳凰傳奇曾毅塌房?公開佩戴不雅手表,黑歷史曝光......本人回應(yīng)被嘲“災(zāi)難”

鳳凰傳奇曾毅塌房?公開佩戴不雅手表,黑歷史曝光......本人回應(yīng)被嘲“災(zāi)難”

新民周刊
2025-06-14 18:24:15
《長(zhǎng)安的荔枝》劇版VS電影版真人,是否會(huì)打破丑的魔咒?

《長(zhǎng)安的荔枝》劇版VS電影版真人,是否會(huì)打破丑的魔咒?

奴染
2025-06-14 23:03:10
血型決定壽命長(zhǎng)短?美國(guó)60萬(wàn)人研究發(fā)現(xiàn):A型血60歲前或更易中風(fēng)

血型決定壽命長(zhǎng)短?美國(guó)60萬(wàn)人研究發(fā)現(xiàn):A型血60歲前或更易中風(fēng)

資說(shuō)
2025-06-05 14:06:05
上海申花1-3新鵬城,產(chǎn)生3大不可思議+2個(gè)不爭(zhēng)事實(shí),揪出全場(chǎng)最差

上海申花1-3新鵬城,產(chǎn)生3大不可思議+2個(gè)不爭(zhēng)事實(shí),揪出全場(chǎng)最差

球場(chǎng)新視角1號(hào)
2025-06-14 21:45:33
世界發(fā)生了3件大事,全世界意識(shí)到:必須重新評(píng)估中國(guó)的實(shí)力

世界發(fā)生了3件大事,全世界意識(shí)到:必須重新評(píng)估中國(guó)的實(shí)力

獵火照狼山
2025-06-09 19:47:06
550萬(wàn)在美華人數(shù)據(jù)全公開,88%中國(guó)籍博士留在美國(guó)!

550萬(wàn)在美華人數(shù)據(jù)全公開,88%中國(guó)籍博士留在美國(guó)!

霹靂炮
2025-05-29 23:14:55
2025-06-15 12:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴(yán)重缺貨

頭條要聞

清華高顏值美女學(xué)霸走紅 本人最新發(fā)聲

頭條要聞

清華高顏值美女學(xué)霸走紅 本人最新發(fā)聲

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財(cái)經(jīng)要聞

以伊沖突持續(xù)升級(jí),對(duì)全球市場(chǎng)影響多大

汽車要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

教育
親子
健康
數(shù)碼
公開課

教育要聞

今日上午8點(diǎn)半開始,成都百余所高中在王府井科華店等你來(lái)咨詢

親子要聞

幼兒園取消寒暑假?多地教育局回應(yīng)

呼吸科專家破解呼吸道九大謠言!

數(shù)碼要聞

AMD 銳龍7 9700F曝光:無(wú)核顯加持,主流游戲玩家的新希望?

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品ⅴ无码大片在线看| 色一情一乱一伦一区二区三欧美| 欧美一区二区| 欧美日韩无套内射另类| 一二三四免费观看在线视频中文版| 欧美怡红院免费全部视频| 日本最新免费二区| 夜夜爽夜夜叫夜夜高潮| 精品国内自产拍在线观看视频| 综合 欧美 亚洲日本| 日韩乱码人妻无码中文视频| 2018天天拍拍天天爽视频| 国产精品自在线拍亚洲另类| 久久婷婷人人澡人人爽人人爱| 苍井空浴缸大战猛男120分钟| 久久人人爽人人爽人人片av高请| 美国人性欧美xxxx| 67194熟妇在线永久免费观看| 亚洲成aⅴ人片在线观看无app| 国产人妻人伦精品1国产丝袜| 亚洲伊人久久综合影院| 亚洲色成人www永久在线观看| 国产亚洲精品资源在线26u| 色综合久久久无码中文字幕波多| 免费无遮挡无码h肉动漫在线观看| 激情国产一区二区三区四区小说| 精品无码人妻夜人多侵犯18| 亚洲日本va一区二区sa| 亚洲制服丝袜一区二区三区| 亚洲乱码一区二区三区在线观看| 亚洲欧洲日产国码韩国| 无码av免费精品一区二区三区| 日韩欧无码一二三区免费不卡| 亚洲 欧美 中文 日韩aⅴ| 中文字幕乱码亚洲精品一区| 午夜寂寞少妇aaa片毛片| 人人爽人人爽人人片av亚洲| 亚洲国产精品13p| 人妻熟妇乱又伦精品hd| 国产又色又爽又刺激在线观看| 亚洲日本精品国产第一区二区|