王勁,香港大學(xué)計(jì)算機(jī)系二年級(jí)博士生,導(dǎo)師為羅平老師。研究興趣包括多模態(tài)大模型訓(xùn)練與評(píng)測(cè)、偽造檢測(cè)等,有多項(xiàng)工作發(fā)表于 ICML、CVPR、ICCV、ECCV 等國(guó)際學(xué)術(shù)會(huì)議。
近年來,大型語言模型(LLMs)在多模態(tài)任務(wù)中取得了顯著進(jìn)展,在人工通用智能(AGI)的兩大核心支柱(即理解與生成)方面展現(xiàn)出強(qiáng)大潛力。然而,目前大多數(shù)多模態(tài)大模型仍采用自回歸(Autoregressive, AR)架構(gòu),通過從左到右逐步處理多模態(tài) token 來完成任務(wù),推理缺乏靈活性。
與此同時(shí),基于掩碼的離散擴(kuò)散模型憑借雙向建模能力也逐漸興起,該架構(gòu)通過雙向信息建模顯著提升了模型的建模能力。例如,DeepMind 的 Gemini Diffusion 驗(yàn)證了離散擴(kuò)散在文本建模領(lǐng)域的潛力;在開源社區(qū),LLaDA、Dream 等擴(kuò)散式大語言模型(dLLM)也催生了如 MMaDA、LaViDA、Dimple 和 LLaDA-V 等多模態(tài)模型。基于掩碼(mask)離散擴(kuò)散為多模態(tài)任務(wù)提供了一種重要的建模范式。
然而,生成模型的實(shí)現(xiàn)方式并不局限于上述兩類架構(gòu),探索新的生成建模范式對(duì)于推動(dòng)多模態(tài)模型的發(fā)展同樣具有重要意義。
基于這一理念,來自香港大學(xué)和華為諾亞方舟實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了FUDOKI,一個(gè)基于全新非掩碼(mask-free)離散流匹配(Discrete Flow Matching)架構(gòu)的通用多模態(tài)模型。
與傳統(tǒng)的自回歸方法不同,F(xiàn)UDOKI 通過并行去噪機(jī)制實(shí)現(xiàn)了高效的雙向信息整合,顯著提升了模型的復(fù)雜推理和生成能力。與離散擴(kuò)散架構(gòu)相比,F(xiàn)UDOKI 采用更加通用的概率路徑建模框架,從均勻分布出發(fā),允許模型在推理過程中不斷更新和修正生成結(jié)果,為多模態(tài)模型打開了一條嶄新的技術(shù)路徑。
- 論文標(biāo)題:FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities
- 論文鏈接:https://arxiv.org/abs/2505.20147
- 項(xiàng)目主頁(yè):https://fudoki-hku.github.io/
FUDOKI 的核心亮點(diǎn)包括如下:
- 統(tǒng)一架構(gòu):一套簡(jiǎn)單直觀的框架搞定圖像生成與文本理解
- 徹底去掩碼:無需掩碼(mask)策略,與 mask-based discrete diffusion 相比更通用
- 支持動(dòng)態(tài)修正:生成過程可實(shí)時(shí)調(diào)整,更接近人類推理方式
- 性能對(duì)標(biāo) / 超越同參數(shù) AR 模型(在 GenEval & 多模態(tài) QA 上有實(shí)測(cè))
我們先來看以下兩個(gè)效果展示:
圖片生成
圖片理解
在社媒上,F(xiàn)UDOKI 獲得了Meta Research Scientist/ Discrete Flow Matching 系列作者推薦:
統(tǒng)一的多模態(tài)能力
FUDOKI 對(duì)文本模態(tài)和圖像模態(tài)均采用通過統(tǒng)一的離散流匹配框架,實(shí)現(xiàn)了理解與生成任務(wù)的統(tǒng)一建模。
- 圖像生成:文本到圖像生成任務(wù)上在 GenEval 基準(zhǔn)上達(dá)到 0.76,超過現(xiàn)有同尺寸 AR 模型的性能,展現(xiàn)出色的生成質(zhì)量和語義準(zhǔn)確性
文生圖樣例
GenEval 基準(zhǔn)評(píng)測(cè)結(jié)果
離散流生成過程
- 視覺理解:在多模理解任務(wù)上接近同參數(shù)量 AR 模型的性能水平,并允許模型在推理過程不斷修復(fù)回答。
視覺理解樣例
視覺理解基準(zhǔn)評(píng)測(cè)
視覺理解案例的過程對(duì)比,F(xiàn)UDOKI 允許對(duì)已生成的回答進(jìn)行修正
架構(gòu)特色
FUDOKI 的核心創(chuàng)新在于將多模態(tài)建模統(tǒng)一到離散流匹配框架中。具體而言,F(xiàn)UDOKI 采用度量誘導(dǎo)的概率路徑(metric-induced probability paths)和動(dòng)力學(xué)最優(yōu)速度(kinetic optimal velocities),完成從源分布到目標(biāo)分布的離散流匹配。
結(jié)語
FUDOKI 的提出不僅挑戰(zhàn)了現(xiàn)有自回歸和掩碼擴(kuò)散范式,也為多模態(tài)生成與理解的統(tǒng)一架構(gòu)帶來了新的思路。通過離散流匹配的方法,它為通用人工智能的發(fā)展提供了更加靈活和高效的技術(shù)基礎(chǔ)。我們期待未來會(huì)有更多的探索和進(jìn)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.