大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

0
分享至



本文的主要作者來自北京航空航天大學、清華大學和中國人民大學。本文的第一作者為清華大學碩士生封皓然,共同第一作者暨項目負責人為北京航空航天大學碩士生黃澤桓,團隊主要研究方向為計算機視覺與生成式人工智能。本文的通訊作者為北京航空航天大學副教授盛律。



個性化圖像生成是圖像生成領域的一項重要技術(shù),正以前所未有的速度吸引著廣泛關(guān)注。它能夠根據(jù)用戶提供的獨特概念,精準合成定制化的視覺內(nèi)容,滿足日益增長的個性化需求,并同時支持對生成結(jié)果進行細粒度的語義控制與編輯,使其能夠精確實現(xiàn)心中的創(chuàng)意愿景。隨著圖像生成模型的持續(xù)突破,這項技術(shù)已在廣告營銷、角色設計、虛擬時尚等多個領域展現(xiàn)出巨大的應用潛力和商業(yè)價值,正在深刻地改變著我們創(chuàng)造和消費視覺內(nèi)容的方式。

然而當人們對個性化圖像生成的期望不斷上升時,傳統(tǒng)的個性化圖像生成方法面臨著以下幾個挑戰(zhàn):①細節(jié)還原瓶頸(如何更精準地還原物體細節(jié),尤其是在多物體的情況下)② 交互控制難題(如何在進行個性化生成的同時,支持對物體位置等空間因素的精準控制)③ 應用拓展受限(如何將個性化和編輯統(tǒng)一在同一框架,以滿足更多應用需求)。這些挑戰(zhàn)嚴重制約著個性化圖像生成技術(shù)的進一步突破,亟需構(gòu)建更高效的生成框架。

因此,清華大學、北京航空航天大學團隊推出了全新的架構(gòu)設計 ——Personalize Anything,它能夠在無需訓練的情況下,完成概念主體的高度細節(jié)還原,支持用戶對物體進行細粒度的位置操控,并能夠擴展至多個應用中,為個性化圖像生成引入了一個新范式。

總結(jié)而言,Personalize Anything 的特點如下:

  • 高效的免訓練框架:無需訓練,具備較高的計算效率,僅需一次反演(inversion)和一次推理過程
  • 高保真度與可控性:在保持高精度細節(jié)的同時兼顧了物體姿態(tài)的多樣性,并支持位置控制
  • 高擴展性:同時支持多種任務,包括多物體處理、物體與場景的整合、inpainting 和 outpainting 等



  • 論文標題:Personalize Anything for Free with Diffusion Transformer
  • 論文鏈接:https://arxiv.org/abs/2503.12590
  • 項目主頁:https://fenghora.github.io/Personalize-Anything-Page/
  • 代碼倉庫:https://github.com/fenghora/personalize-anything

效果展示:無需訓練,支持個性化、多物體組合、編輯

Personalize Anything 能夠在多種任務上表現(xiàn)出色,可以對多組物體與場景進行組合,并同時自由控制主體位置,這是以往個性化圖像生成模型難以做到的。



下面圖像中依次展示了 Personalize Anything 在布局引導生成、inpainting、outpainting 三種任務上的表現(xiàn)。可以看到,Personalize Anything 在多種任務上都能夠生成貼合文本的高質(zhì)量圖像。



技術(shù)突破:從 DiT 架構(gòu)的新發(fā)現(xiàn)到個性化任意內(nèi)容

個性化圖像生成的傳統(tǒng)方法通常需要對定制概念進行微調(diào),或者在大規(guī)模數(shù)據(jù)集上進行預訓練,這不僅消耗大量計算資源,還影響模型的泛化能力。最近,無需訓練的方法嘗試通過注意力共享機制來避免這些問題,但這些方法難以保持概念的一致性。此外,由于這些方法主要針對傳統(tǒng)的 UNet 架構(gòu)設計,無法應用于最新的 DiT 架構(gòu)模型,導致它們無法應用在更大規(guī)模和更好效果的圖像生成模型上。

注意力共享機制不適用于 DiT 架構(gòu)

在了解 Personalize Anything 技術(shù)細節(jié)前,先來看看為什么傳統(tǒng)無需訓練的方法不能夠應用在 DiT 架構(gòu)的圖像生成模型上。



如上文所述,傳統(tǒng)無需訓練的方法多通過注意力共享機制,也就是在運算自注意力時,將概念圖像特征直接與生成圖像特征進行拼接,但是經(jīng)由團隊實驗發(fā)現(xiàn),對于 DiT 架構(gòu)而言,由于位置編碼的影響,當去噪圖像和參考圖像共用同一套位置編碼時,會導致過度關(guān)注,從而在生成的圖像中產(chǎn)生重影(圖 a);當調(diào)整參考圖像的位置編碼避免沖突時,生成圖像的注意力幾乎不出現(xiàn)在參考圖像中,導致主體一致性較弱(如圖 b 和圖 c),這限制了傳統(tǒng)方法在 DiT 架構(gòu)上的應用。

通過上述實驗發(fā)現(xiàn),DiT 中顯式編碼的位置信息對其注意力機制具有強烈影響 —— 這與 U-Net 隱式處理位置的方式存在根本差異。這使得生成的圖像難以在傳統(tǒng)的注意力共享中正確地關(guān)注參考對象的標記。

DiT 架構(gòu)的新啟發(fā):標記替換引發(fā)主體重建



基于對 DiT 架構(gòu)顯式位置編碼的認識,團隊繼續(xù)對 DiT 的特征表示進行了探索。團隊發(fā)現(xiàn),將參考圖像未帶位置編碼的標記替換進去噪圖像的指定位置,能夠重建出良好的主體圖像。而傳統(tǒng) Unet 架構(gòu)所具有的卷積操作會導致位置編碼與圖像特征混雜在一起,導致在進行特征替換時影響最后的圖像質(zhì)量。

這一發(fā)現(xiàn)使團隊意識到,簡單但有效的特征替換,對于 DiT 架構(gòu)而言是一個可行的個性化圖像生成方法。

定制任意內(nèi)容:時間步適應替換策略與特征擾動



基于上述發(fā)現(xiàn),團隊將特征替換引入個性化圖像生成方法中,并創(chuàng)新地提出了時間步適應標記替換機制(Timestep-adaptive Token Replacement) 。

在整個流程中,首先對參考圖像進行反演,并通過 mask 獲取參考圖像未帶位置編碼的標記。在去噪過程的早期階段,為了保留物體特征細節(jié),將參考圖像主體的標記直接替換進生成圖像中。而在后期,則轉(zhuǎn)為傳統(tǒng)的注意力共享機制。這種時間適應特征替換機制能夠增圖像生成后概念主體的多樣性,同時減少生成圖像的割裂感。

為了進一步保證概念主體姿態(tài)的多樣性,團隊又額外提出了特征擾動,旨在通過對概念圖像特征進行重排,或者調(diào)整 mask,來控制特征替換時的概念圖像特征代表的物體姿態(tài)等,從而為生成的圖像引入多樣性。

更多應用:無縫擴展至布局引導、多物體組合、編輯等



Personalize Anything 除了在核心任務上表現(xiàn)出色,還具有強大的擴展能力,可以應用于更復雜的實際場景。首先,可以通過自由選擇特征注入的位置,來實現(xiàn)位置引導的生成;其次,框架支持對多物體進行自由組合,采取順序注入的方式,支持物體間層級關(guān)系的控制;并且 Personalize Anything 支持用戶將將圖像視為整體,允許用戶保留部分圖像內(nèi)容,同時對另一部分進行可控編輯。這種靈活的可擴展性為未來的研究和應用開辟了更為廣闊的前景。

卓越性能:在保真度和多功能性等多個維度上表現(xiàn)突出

團隊從單物體定制,多物體組合,物體 - 場景組合這三個任務入手,與眾多優(yōu)秀的開源模型進行定性定量的對比。可以看到 Personalize Anything 的結(jié)果基本都優(yōu)于現(xiàn)有方法,并在后續(xù)的人類偏好測試中取得了顯著優(yōu)勢。

單物體個性化生成







多物體組合生成







物體 - 場景組合





未來展望

Personalize Anything 研究團隊揭示了 DiT 中位置解耦表示的性質(zhì),為免訓練的圖像空間操縱、個性化生成奠定基礎。團隊期待 DiT 的幾何編程原理能夠進一步拓展到視頻、3D 生成等領域,實現(xiàn)更復雜、更精細的場景構(gòu)建與編輯。希望通過深入研究和廣泛應用,讓這一思路激發(fā)更多可控生成的研究,推動 AI 在創(chuàng)意內(nèi)容生成、虛擬現(xiàn)實、數(shù)字孿生等領域的廣泛應用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日本為什么能在中國辦學校?是誰點的頭?這背后到底有啥隱情?

日本為什么能在中國辦學校?是誰點的頭?這背后到底有啥隱情?

小談食刻美食
2025-06-12 16:46:19
ICE出現(xiàn)在爾灣逮捕非法移民!爾灣市議員:快躲起來

ICE出現(xiàn)在爾灣逮捕非法移民!爾灣市議員:快躲起來

大洛杉磯LA
2025-06-14 06:47:07
從小被允許吃冷飲和不允許吃的孩子,長大后真的不一樣,要注意!

從小被允許吃冷飲和不允許吃的孩子,長大后真的不一樣,要注意!

特約前排觀眾
2025-06-02 00:10:05
最高法:被執(zhí)行人無可供執(zhí)行財產(chǎn)時,法院有權(quán)查控其配偶名下財產(chǎn)

最高法:被執(zhí)行人無可供執(zhí)行財產(chǎn)時,法院有權(quán)查控其配偶名下財產(chǎn)

上海公鼎律師事務所
2025-06-13 18:34:04
內(nèi)塔尼亞胡發(fā)聲:以色列飛行員正在對伊朗境內(nèi)大量目標發(fā)動打擊

內(nèi)塔尼亞胡發(fā)聲:以色列飛行員正在對伊朗境內(nèi)大量目標發(fā)動打擊

環(huán)球網(wǎng)資訊
2025-06-13 09:12:12
皇馬付了6320萬!河床俱樂部凈得4500萬歐 西班牙稅務局收1180萬

皇馬付了6320萬!河床俱樂部凈得4500萬歐 西班牙稅務局收1180萬

直播吧
2025-06-13 21:36:16
烏克蘭防線告急!扎哈羅娃“誅心”嘲諷

烏克蘭防線告急!扎哈羅娃“誅心”嘲諷

看看說說
2025-06-13 19:40:52
央視曝驚天騙局!成本1元賣800,無數(shù)女孩受害,下場凄慘仍有人吃

央視曝驚天騙局!成本1元賣800,無數(shù)女孩受害,下場凄慘仍有人吃

阿纂看事
2025-06-13 16:44:28
公安部的禁酒令及宴請規(guī)定:公職人員下班聚餐和飲酒也算違規(guī)?

公安部的禁酒令及宴請規(guī)定:公職人員下班聚餐和飲酒也算違規(guī)?

二月侃事
2025-05-28 08:18:10
《醬園弄》劇組亮相上海電影節(jié),章子怡穩(wěn)居c位,梅婷楊冪靠邊站

《醬園弄》劇組亮相上海電影節(jié),章子怡穩(wěn)居c位,梅婷楊冪靠邊站

牡丹講娛
2025-06-14 19:46:14
楊冪私下穿的吊帶也太大膽了吧!瞬間覺得趙麗穎那個沒眼看了

楊冪私下穿的吊帶也太大膽了吧!瞬間覺得趙麗穎那個沒眼看了

娛樂小丸子
2025-06-04 10:07:57
腐爛的尸體異常難聞,外國教堂是如何鎖住尸臭,讓圣地保持神圣?

腐爛的尸體異常難聞,外國教堂是如何鎖住尸臭,讓圣地保持神圣?

詩意世界
2025-06-13 23:57:48
對于器官移植老百姓最關(guān)注的是器官是從誰身上移植下來的!

對于器官移植老百姓最關(guān)注的是器官是從誰身上移植下來的!

逍遙論經(jīng)
2025-06-09 10:15:47
43歲的蔣欣醫(yī)美了?和以前相比判若兩人,一臉苦相

43歲的蔣欣醫(yī)美了?和以前相比判若兩人,一臉苦相

楊哥歷史
2025-06-09 09:23:18
【文體市場面面觀】農(nóng)文旅融合如何“四季紅”

【文體市場面面觀】農(nóng)文旅融合如何“四季紅”

經(jīng)濟日報
2025-06-14 05:04:15
剛加盟5個月!利雅得勝利前鋒身價6400萬,因水土不服萌生去意?

剛加盟5個月!利雅得勝利前鋒身價6400萬,因水土不服萌生去意?

星耀國際足壇
2025-06-14 23:23:30
上海金融精英淪為階下囚!他毀掉了很多家庭,被判無期徒刑...“這種痛,永遠讓我窒息”

上海金融精英淪為階下囚!他毀掉了很多家庭,被判無期徒刑...“這種痛,永遠讓我窒息”

上觀新聞
2025-06-14 22:33:49
絲路古道煥新機

絲路古道煥新機

新華社
2025-06-13 13:31:36
3-0,47歲李金羽神了:率隊狂攬29分,反超重慶銅梁龍升至第一

3-0,47歲李金羽神了:率隊狂攬29分,反超重慶銅梁龍升至第一

側(cè)身凌空斬
2025-06-14 20:57:14
以媒披露:摩薩德在伊朗境內(nèi)建立無人機基地,部署了精確制導武器

以媒披露:摩薩德在伊朗境內(nèi)建立無人機基地,部署了精確制導武器

齊魯壹點
2025-06-13 17:35:21
2025-06-15 01:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

時尚
房產(chǎn)
藝術(shù)
數(shù)碼
親子

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

房產(chǎn)要聞

又一城購房補貼!買房就發(fā)錢,正在海南樓市瘋狂擴散!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

親子要聞

給18個月幼兒灌酒,無論出于什么心態(tài)都不該寬恕|新京報快評

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 日韩毛片无码永久免费看| 精品亚洲一区二区三区在线观看| 欧美v国产v亚洲v日韩九九| 免费人成黄页在线观看国产| 亚洲人成网站在线播放无码| 国产精品美女久久久9999| 国产精品美女久久久9999| 亚洲成av人片天堂网无码| 97se亚洲精品一区二区| 国产特黄级aaaaa片免| 色综合久久88色综合天天| 蜜桃av亚洲精品一区二区| 无码专区永久免费av网站| 麻豆国产av丝袜白领传媒| 国产精品女同久久久久电影院| 手机无码人妻一区二区三区免费| 亚洲中文 字幕 国产 综合| 成人毛片一区二区| 日本伊人色综合网| 无码综合天天久久综合网色吧影院| 狠狠色噜噜狠狠狠狠777米奇| 久久久国产乱子伦精品作者| 亚洲乱码日产精品bd在| 亚洲欧美牲交| 久久国产福利国产秒拍飘飘网| 熟妇高潮一区二区三区| 国产精品极品在线视频| 狠狠人妻久久久久久综合| 免费网站看v片在线18禁无码| 少妇高潮惨叫喷水在线观看| 波多野结av在线无码中文免费| 激情 小说 亚洲 图片 伦| 亚洲色av性色在线观无码| 用舌头去添高潮无码av在线观看| 中文在线а√天堂官网| 中文字幕欧洲有码无码| 神马影院午夜dy888| 无码国产精品一区二区免费式芒果| 国产成人精选视频在线观看不卡| 一二三四观看视频社区在线| 人妻少妇精品无码专区漫画|