大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Meta新突破!跨模態(tài)生成告別噪聲:流匹配實現(xiàn)任意模態(tài)無縫流轉(zhuǎn)

0
分享至



本文第一作者為劉啟昊,約翰霍普金斯大學(xué)計算機科學(xué)博士四年級學(xué)生,師從 Alan Yuille 教授,研究方向涉及模型魯棒性、生成模型與 3D 視覺。通訊作者為 Mannat Singh,Meta GenAI 研究員,近期的研究主要涉及視頻生成領(lǐng)域創(chuàng)新工作,包括 Emu Video、MovieGen 等項目。

在人工智能領(lǐng)域,跨模態(tài)生成(如文本到圖像、圖像到文本)一直是技術(shù)發(fā)展的前沿方向。現(xiàn)有方法如擴散模型(Diffusion Models)和流匹配(Flow Matching)雖取得了顯著進展,但仍面臨依賴噪聲分布、復(fù)雜條件機制等挑戰(zhàn)。

近期,Meta 與約翰霍普金斯大學(xué)聯(lián)合推出的CrossFlow框架,以全新的技術(shù)路徑實現(xiàn)了跨模態(tài)生成的突破性進展,為生成式 AI 開辟了更高效、更通用的可能性。該文章已經(jīng)被 CVPR 2025 收錄為 Highlight。



  • 論文標(biāo)題:Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution
  • 論文地址:https://arxiv.org/pdf/2412.15213
  • 項目主頁:https://cross-flow.github.io/
  • 代碼地址:https://github.com/qihao067/CrossFlow
  • Demo地址:https://huggingface.co/spaces/QHL067/CrossFlow

核心創(chuàng)新:從 “噪聲到數(shù)據(jù)” 到 “模態(tài)到模態(tài)”

基于 Diffusion 或者流匹配的生成模型通常從高斯噪聲出發(fā),通過逐步去噪或優(yōu)化路徑生成目標(biāo)數(shù)據(jù)。然而,對于噪聲的依賴限制了這類算法的靈活性和潛能。

近期,不少工作在探索如何擺脫對噪聲的依賴,比如使用基于薛定諤橋的生成模型。然而這些算法往往很復(fù)雜,并且依舊局限于相似模態(tài)之間的生成(比如人類轉(zhuǎn)貓臉等)。

而 CrossFlow 則深入分析了流匹配,并基于流匹配提出了一種非常簡單跨模態(tài)生成新范式,可以直接在模態(tài)間進行映射,無需依賴噪聲分布或額外條件機制。例如,在文本到圖像生成中,模型直接使用流匹配學(xué)習(xí)從文本語義空間到圖像空間的映射,省去了復(fù)雜的跨注意力機制(Cross-Attention),僅通過自注意力即可實現(xiàn)高效的文本到圖像生成。



通過直接使用流匹配做模態(tài)間的映射,本文提出的模型在僅使用由自注意力和前向?qū)咏M成的 transformer的情況下,不需要基于任務(wù)的特定設(shè)計,便在多個任務(wù)(圖像生成、字幕生成、深度估計、超分辨率)上實現(xiàn)了媲美乃至超過最優(yōu)算法的性能。



作者發(fā)現(xiàn),使用流匹配做模態(tài)間映射的核心在于如何形成 regularized 的分布。

為了實現(xiàn)這一點,作者提出使用變分編碼器(Variational Encoder):將輸入模態(tài)(如文本)編碼為與目標(biāo)模態(tài)(如圖像)同維度的正則化潛在空間,確保跨模態(tài)路徑的平滑性和語義連貫性。然后,作者發(fā)現(xiàn):僅需要訓(xùn)練一個最簡單的流匹配模型,就可以實現(xiàn)這兩個空間的映射。



同時,現(xiàn)在的圖片生成模型往往依賴無分類器引導(dǎo)(Classifier-free guidance)。這種引導(dǎo)通過改變額外輸入的 condition 來實現(xiàn)。為了在無額外條件機制的情況下實現(xiàn)無分類器引導(dǎo),作者通過引入二元指示符,在單模型中實現(xiàn)條件與非條件生成的靈活切換,顯著提升生成質(zhì)量。

實驗表現(xiàn)

作者通過大量實驗證明了新范式的優(yōu)勢:

1. 在文本到圖像生成任務(wù)上,相比于主流的使用跨注意力增加 text condition 的方法,CrossFlow 取得了更好的生成效果,并且有更好的 scaling 特性。







2.latent space 的差值算術(shù)操作:支持語義層面的加減運算(如 “戴帽子的狗”+“墨鏡”-“帽子”=“戴墨鏡的狗”),為生成內(nèi)容提供前所未有的可控性,同時為圖像編輯、平滑的視頻生成等任務(wù)提供了新思路。









3.源分布可定制,讓圖像生成更靈活,同時顯著降低訓(xùn)練成本,提高生成速度:原本的圖像生成始終學(xué)習(xí)從噪聲到圖像的映射,因此流匹配所需要學(xué)到的 path 的復(fù)雜度是確定的。而 CrossFlow 則建立了一個可學(xué)習(xí)的源分布到圖像的映射,通過不同的方法來學(xué)習(xí)源分布,可以改變兩個分布之間的差異以及 path 的復(fù)雜度,實現(xiàn)更靈活、快速的生成。

具體來說,相比 DALL-E 2 等模型,CrossFlow 訓(xùn)練資源需求大幅減少(630 A100 GPU 天 vs. 數(shù)千天),而后續(xù)的研究工作也表明,通過對源分布的設(shè)計,可以進一步將訓(xùn)練時間縮短至 208 A100 GPU 天,并提高 6.62 倍的采樣速度。

4. 由于流匹配的 “雙向映射” 的特性(bi-directional flow property),可以直接將文本到圖像生成模型反過來使用,成為一個圖像描述(image captioning)模型——該模型在 COCO 上取得了SOTA水平。



5. 無需基于任務(wù)的特定設(shè)計,即可以在多個任務(wù)上(圖像生成、圖像描述、深度估計、超分辨率)的多個數(shù)據(jù)集上取得 SOTA 的水平,推動模型使用統(tǒng)一、單一框架適配多任務(wù)。





結(jié)語

CrossFlow 的誕生標(biāo)志著生成式 AI 從 “噪聲中創(chuàng)造” 邁向 “語義間流轉(zhuǎn)” 的新階段。其簡潔的設(shè)計、卓越的性能與靈活的擴展性,為跨模態(tài)生成提供了更多的可能性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王雙全,已任浙江省領(lǐng)導(dǎo)

王雙全,已任浙江省領(lǐng)導(dǎo)

新京報政事兒
2025-06-14 16:56:44
華裔女子用20張圖片表達中西差異!

華裔女子用20張圖片表達中西差異!

霹靂炮
2025-06-09 22:12:29
18月大嬰兒被灌50毫升啤酒!涉事者:想逗逗孩子,以為是啤酒應(yīng)該沒問題

18月大嬰兒被灌50毫升啤酒!涉事者:想逗逗孩子,以為是啤酒應(yīng)該沒問題

瀟湘晨報
2025-06-14 21:37:10
7歲路易小王子陽臺揮手,逗笑全家,和喬治的聊天曝光“很英國”

7歲路易小王子陽臺揮手,逗笑全家,和喬治的聊天曝光“很英國”

譯言
2025-06-15 10:10:58
記者:羅伯遜接近以800萬英鎊的總價轉(zhuǎn)會馬競

記者:羅伯遜接近以800萬英鎊的總價轉(zhuǎn)會馬競

懂球帝
2025-06-15 02:28:08
超級模特何穗大膽泳裝身材真好,個子太高

超級模特何穗大膽泳裝身材真好,個子太高

鄉(xiāng)野小珥
2025-06-04 03:42:44
前田浩二:1-2的比分是無法接受的,對方很難打穿我們的防守

前田浩二:1-2的比分是無法接受的,對方很難打穿我們的防守

懂球帝
2025-06-15 00:34:43
抽到下下簽!鄭欽文可能首輪出局,拿冠軍也難了,鮑里妮天堂好簽

抽到下下簽!鄭欽文可能首輪出局,拿冠軍也難了,鮑里妮天堂好簽

侃球熊弟
2025-06-15 00:01:50
中紀(jì)委怒批公務(wù)員也是人!正常生活不應(yīng)問責(zé)處!

中紀(jì)委怒批公務(wù)員也是人!正常生活不應(yīng)問責(zé)處!

霹靂炮
2025-06-13 23:49:27
48小時封殺令!知名女星高考特權(quán)頂包,牽連大佬集體落馬倒計時!

48小時封殺令!知名女星高考特權(quán)頂包,牽連大佬集體落馬倒計時!

新語愛八卦
2025-06-13 16:30:57
李莉說伊朗半小時滅掉以色列?哈梅內(nèi)伊:將徹底摧毀以色列政權(quán)!

李莉說伊朗半小時滅掉以色列?哈梅內(nèi)伊:將徹底摧毀以色列政權(quán)!

剛哥說法365
2025-06-14 11:47:06
以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

TVB的四小花
2025-06-14 00:38:15
重大財務(wù)造假,頂格處罰!

重大財務(wù)造假,頂格處罰!

魯中晨報
2025-06-14 18:30:14
人口僅900多萬的以色列,為何會成為中東第一強國,世界排名第三

人口僅900多萬的以色列,為何會成為中東第一強國,世界排名第三

文史道
2024-11-04 12:21:21
62歲李連杰做夢也沒想到,自己4個女兒,已經(jīng)都開始為他爭光了!

62歲李連杰做夢也沒想到,自己4個女兒,已經(jīng)都開始為他爭光了!

小椰的奶奶
2025-06-15 09:24:26
鄭新宇,央視新主播

鄭新宇,央視新主播

新京報政事兒
2025-06-14 17:45:01
頂尖女洞穴潛水員金雪峰失聯(lián)20多天后,遺體已找到

頂尖女洞穴潛水員金雪峰失聯(lián)20多天后,遺體已找到

上觀新聞
2025-06-15 07:18:08
央視首次曝光!每臺4億美元重180噸,全世界最先進光刻機揭開面紗

央視首次曝光!每臺4億美元重180噸,全世界最先進光刻機揭開面紗

史紀(jì)文譚
2025-06-14 13:23:51
設(shè)計院被舉報使用盜版CAD,被一鍋端!

設(shè)計院被舉報使用盜版CAD,被一鍋端!

黯泉
2025-06-14 22:10:35
以色列箭3太空打爆伊朗導(dǎo)彈,卻被這一幕破防:以軍不敗神話破滅

以色列箭3太空打爆伊朗導(dǎo)彈,卻被這一幕破防:以軍不敗神話破滅

科羅廖夫
2025-06-14 19:00:19
2025-06-15 12:43:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴(yán)重缺貨

頭條要聞

義烏商家賣娃衣:做的非LABUBU娃衣 只適用于15cm玩偶

頭條要聞

義烏商家賣娃衣:做的非LABUBU娃衣 只適用于15cm玩偶

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財經(jīng)要聞

以伊沖突持續(xù)升級,對全球市場影響多大

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

教育
時尚
家居
游戲
軍事航空

教育要聞

黑龍江頂尖高分考生想報哈工大,哪些專業(yè)值得推薦?省排名多少?

夏天最值得入手的6件單品,全在這了

家居要聞

森林幾何 極簡灰調(diào)原木風(fēng)

《馬里奧賽車世界》大金剛服裝太少 玩家猜測會有DLC

軍事要聞

伊朗最高領(lǐng)袖高級顧問沙姆哈尼 因傷勢過重離世

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 亚洲a片国产av一区无码| 欧美毛片无码又大又粗黑寡妇| 国产在线精品99一区不卡| 国产成人亚洲综合网色欲网久下载| 亚洲综合图色40p| 亚洲中文字幕av在天堂| 中文无码高潮到痉挛在线视频| 国产精品露脸视频观看| 午夜天堂av久久久噜噜噜| 精品无码人妻一区二区三区品| 无码人妻精品中文字幕| 高潮喷水的毛片| 亚洲国产av无码精品无广告| 亚洲线精品一区二区三区影音先锋| 麻豆视传媒官网免费观看| 精品少妇人妻av免费久久洗澡| 精品国产一二三产品区别在哪| 国产偷窥真人视频在线观看| 最新网站亚洲人成无码| 一区二区三区高清视频3| 国产a v高清一区二区三区| 午夜私人成年影院| 人人妻人人澡人人爽人人精品浪潮| 国产专业剧情av在线| 无码人妻精品中文字幕免费东京热| 久在线观看福利视频| 色成人精品免费视频| 国产又爽又黄又刺激的视频| 超碰人人模人人爽人人喊手机版| 极品 在线 视频 大陆 国产| 国产人成无码视频在线| 在教室伦流澡到高潮hnp视频| 久久青青草免费线频观| 日韩好片一区二区在线看| 亚洲精品nv久久久久久久久久| 日韩精品射精管理在线观看| 国产成人无码一区二区在线播放| 午夜精品久久久久久久久| 中文字幕乱码无码人妻系列蜜桃| 亚洲男人av香蕉爽爽爽爽| 内射中出日韩无国产剧情|