Meta新突破！跨模態(tài)生成告別噪聲：流匹配實現(xiàn)任意模態(tài)無縫流轉(zhuǎn)

2025-06-04 18:59:08　來源: 機器之心Pro

天津舉報

分享至

本文第一作者為劉啟昊，約翰霍普金斯大學(xué)計算機科學(xué)博士四年級學(xué)生，師從 Alan Yuille 教授，研究方向涉及模型魯棒性、生成模型與 3D 視覺。通訊作者為 Mannat Singh，Meta GenAI 研究員，近期的研究主要涉及視頻生成領(lǐng)域創(chuàng)新工作，包括 Emu Video、MovieGen 等項目。

在人工智能領(lǐng)域，跨模態(tài)生成（如文本到圖像、圖像到文本）一直是技術(shù)發(fā)展的前沿方向。現(xiàn)有方法如擴散模型（Diffusion Models）和流匹配（Flow Matching）雖取得了顯著進展，但仍面臨依賴噪聲分布、復(fù)雜條件機制等挑戰(zhàn)。

近期，Meta 與約翰霍普金斯大學(xué)聯(lián)合推出的CrossFlow框架，以全新的技術(shù)路徑實現(xiàn)了跨模態(tài)生成的突破性進展，為生成式 AI 開辟了更高效、更通用的可能性。該文章已經(jīng)被 CVPR 2025 收錄為 Highlight。

論文標(biāo)題：Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution
論文地址：https://arxiv.org/pdf/2412.15213
項目主頁：https://cross-flow.github.io/
代碼地址：https://github.com/qihao067/CrossFlow
Demo地址：https://huggingface.co/spaces/QHL067/CrossFlow

核心創(chuàng)新：從 “噪聲到數(shù)據(jù)” 到 “模態(tài)到模態(tài)”

基于 Diffusion 或者流匹配的生成模型通常從高斯噪聲出發(fā)，通過逐步去噪或優(yōu)化路徑生成目標(biāo)數(shù)據(jù)。然而，對于噪聲的依賴限制了這類算法的靈活性和潛能。

近期，不少工作在探索如何擺脫對噪聲的依賴，比如使用基于薛定諤橋的生成模型。然而這些算法往往很復(fù)雜，并且依舊局限于相似模態(tài)之間的生成（比如人類轉(zhuǎn)貓臉等）。

而 CrossFlow 則深入分析了流匹配，并基于流匹配提出了一種非常簡單跨模態(tài)生成新范式，可以直接在模態(tài)間進行映射，無需依賴噪聲分布或額外條件機制。例如，在文本到圖像生成中，模型直接使用流匹配學(xué)習(xí)從文本語義空間到圖像空間的映射，省去了復(fù)雜的跨注意力機制（Cross-Attention），僅通過自注意力即可實現(xiàn)高效的文本到圖像生成。

通過直接使用流匹配做模態(tài)間的映射，本文提出的模型在僅使用由自注意力和前向?qū)咏M成的 transformer的情況下，不需要基于任務(wù)的特定設(shè)計，便在多個任務(wù)（圖像生成、字幕生成、深度估計、超分辨率）上實現(xiàn)了媲美乃至超過最優(yōu)算法的性能。

作者發(fā)現(xiàn)，使用流匹配做模態(tài)間映射的核心在于如何形成 regularized 的分布。

為了實現(xiàn)這一點，作者提出使用變分編碼器（Variational Encoder）：將輸入模態(tài)（如文本）編碼為與目標(biāo)模態(tài)（如圖像）同維度的正則化潛在空間，確保跨模態(tài)路徑的平滑性和語義連貫性。然后，作者發(fā)現(xiàn)：僅需要訓(xùn)練一個最簡單的流匹配模型，就可以實現(xiàn)這兩個空間的映射。

同時，現(xiàn)在的圖片生成模型往往依賴無分類器引導(dǎo)（Classifier-free guidance）。這種引導(dǎo)通過改變額外輸入的 condition 來實現(xiàn)。為了在無額外條件機制的情況下實現(xiàn)無分類器引導(dǎo)，作者通過引入二元指示符，在單模型中實現(xiàn)條件與非條件生成的靈活切換，顯著提升生成質(zhì)量。

實驗表現(xiàn)

作者通過大量實驗證明了新范式的優(yōu)勢：

1. 在文本到圖像生成任務(wù)上，相比于主流的使用跨注意力增加 text condition 的方法，CrossFlow 取得了更好的生成效果，并且有更好的 scaling 特性。

2.latent space 的差值算術(shù)操作：支持語義層面的加減運算（如 “戴帽子的狗”+“墨鏡”-“帽子”=“戴墨鏡的狗”），為生成內(nèi)容提供前所未有的可控性，同時為圖像編輯、平滑的視頻生成等任務(wù)提供了新思路。

3.源分布可定制，讓圖像生成更靈活，同時顯著降低訓(xùn)練成本，提高生成速度：原本的圖像生成始終學(xué)習(xí)從噪聲到圖像的映射，因此流匹配所需要學(xué)到的 path 的復(fù)雜度是確定的。而 CrossFlow 則建立了一個可學(xué)習(xí)的源分布到圖像的映射，通過不同的方法來學(xué)習(xí)源分布，可以改變兩個分布之間的差異以及 path 的復(fù)雜度，實現(xiàn)更靈活、快速的生成。

具體來說，相比 DALL-E 2 等模型，CrossFlow 訓(xùn)練資源需求大幅減少（630 A100 GPU 天 vs. 數(shù)千天），而后續(xù)的研究工作也表明，通過對源分布的設(shè)計，可以進一步將訓(xùn)練時間縮短至 208 A100 GPU 天，并提高 6.62 倍的采樣速度。

4. 由于流匹配的 “雙向映射” 的特性（bi-directional flow property），可以直接將文本到圖像生成模型反過來使用，成為一個圖像描述（image captioning）模型——該模型在 COCO 上取得了SOTA水平。

5. 無需基于任務(wù)的特定設(shè)計，即可以在多個任務(wù)上（圖像生成、圖像描述、深度估計、超分辨率）的多個數(shù)據(jù)集上取得 SOTA 的水平，推動模型使用統(tǒng)一、單一框架適配多任務(wù)。

結(jié)語

CrossFlow 的誕生標(biāo)志著生成式 AI 從 “噪聲中創(chuàng)造” 邁向 “語義間流轉(zhuǎn)” 的新階段。其簡潔的設(shè)計、卓越的性能與靈活的擴展性，為跨模態(tài)生成提供了更多的可能性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.