新智元報道
編輯:定慧
【新智元導(dǎo)讀】FLUX.1 Kontext是一款融合即時文本圖像編輯與文本到圖像生成的新一代模型,支持文本與圖像提示,角色一致性強,速度快達(dá)GPT-Image-1的8倍。
用AI生成&編輯圖片時,想生成一套完整故事模板,結(jié)果主角「變臉」比翻書還快,這可怎么辦?
別慌,全新圖像模型FLUX.1 Kontext來了!支持上下文內(nèi)圖像生成,可以同時使用文本和圖像進(jìn)行提示,并能夠無縫提取和修改視覺概念,從而生成新的、連貫的圖像。
論文地址:https://bfl.ai/announcements/flux-1-kontext
FLUX.1 Kontext是一系列生成式流匹配模型,可生成和編輯圖像。與現(xiàn)有的文本到圖像模型不同,F(xiàn)LUX.1 Kontext系列支持上下文內(nèi)圖像生成。
一致且上下文感知的圖文生成與編輯
你的圖像,你的文字,你的世界
FLUX.1 Kontext通過融合即時文本圖像編輯與文本到圖像生成,標(biāo)志著經(jīng)典文本到圖像模型的重要擴展。
作為多模態(tài)流模型,它結(jié)合了最先進(jìn)的角色一致性、上下文理解能力和局部編輯功能,同時具備強大的文本到圖像合成能力。
基于指令的迭代式圖像編輯。從一張參考照片(a)開始,模型依次應(yīng)用了三條自然語言編輯指令——首先去除遮擋物(b),然后將人物移動到弗賴堡(c),最后將場景轉(zhuǎn)換為雪天(d)。
在整個編輯過程中,角色的外貌、姿勢、服裝以及整體攝影風(fēng)格始終保持一致。
FLUX.1 Kontext具備以下優(yōu)勢:
統(tǒng)一能力:一個模型同時支持傳統(tǒng)的局部編輯與基于上下文的生成式圖像生成任務(wù)。
角色一致性:FLUX.1 Kontext在角色保留方面表現(xiàn)出色,即使在多輪迭代編輯中也能保持角色的一致性。
交互速度:FLUX.1 Kontext運行迅速,無論是文本生成圖像還是圖像到圖像的轉(zhuǎn)換,在1024×1024分辨率下,圖像生成時間僅需3到5秒。
可迭代操作:推理速度快且一致性強,使用戶可以連續(xù)多次編輯圖像,幾乎不會出現(xiàn)明顯的視覺偏移。
FLUX.1 Kontext技術(shù)路線
FLUX.1是一種校正型流變換器(rectified flow transformer),在圖像自編碼器的潛空間中進(jìn)行訓(xùn)練。
從零開始訓(xùn)練了一個帶有對抗目標(biāo)的卷積自編碼器。通過擴大訓(xùn)練計算量并采用16個潛在通道,在圖像重建能力方面優(yōu)于相關(guān)模型。
FLUX.1的結(jié)構(gòu)由雙流(double stream)和單流(single stream)模塊混合構(gòu)成。
雙流模塊為圖像和文本Token分別使用不同的權(quán)重,通過將兩種Token拼接后執(zhí)行注意力機制來進(jìn)行信息融合。
在序列通過雙流模塊處理后,舍棄文本Token,僅保留圖像Token,并對其應(yīng)用38個單流模塊。
使用了因式分解的三維旋轉(zhuǎn)位置編碼(3D RoPE),其中每個潛在Token都根據(jù)其時空坐標(biāo) (t, h, w) 進(jìn)行定位。
研究團隊的目標(biāo)是訓(xùn)練一個模型,能夠在同時給定文本提示和參考圖像的條件下生成圖像。
更正式地說,希望近似地學(xué)習(xí)一個條件概率分布:能夠在文本提示(c)和參考圖像(y)共同作用下生成目標(biāo)圖像(x)。
與傳統(tǒng)的文本生成圖像(text-to-image)不同,這一任務(wù)需要模型學(xué)習(xí)圖像之間的關(guān)系——由文本指令c進(jìn)行引導(dǎo)——從而使同一個網(wǎng)絡(luò)能夠:
1. 在存在參考圖像y≠?時,執(zhí)行基于圖像的編輯;
2. 在y=?時,從零生成全新圖像。
Token序列構(gòu)建
圖像首先由凍結(jié)的FLUX自編碼器編碼為潛在Token。上下文圖像的Token y會被追加在目標(biāo)圖像Token x之后,作為視覺輸入流的一部分輸入到模型中。
這種簡單的「序列拼接」方式具備以下優(yōu)點:
1. 支持不同的輸入/輸出分辨率和寬高比;
2. 能夠自然擴展到多個上下文圖像 y?, y?, …, y?。
通過三維旋轉(zhuǎn)位置編碼(3D RoPE)來編碼位置信息。
其中上下文圖像的所有Token會被賦予一個常數(shù)偏移量,作為虛擬時間步(virtual time step),從而將上下文塊和目標(biāo)塊在時間維度上清晰區(qū)分,同時保持各自的空間結(jié)構(gòu)不變。
目標(biāo)圖像的Token位置為:u? = (0, h, w);第i張上下文圖像的Token位置為:u?? = (i, h, w),其中 i = 1, …, N。
校正流目標(biāo)函數(shù)(Rectified-flow Objective)
使用如下的校正流匹配損失函數(shù)進(jìn)行訓(xùn)練:
其中:
ε是從標(biāo)準(zhǔn)高斯分布N(0,1)中采樣的噪聲;
z?是x和ε之間的線性插值,即
vθ是研究人員要訓(xùn)練的速度預(yù)測網(wǎng)絡(luò);
p(t;μ,σ=1.0)是logit-normal分布的時間采樣策略,其中μ會根據(jù)訓(xùn)練數(shù)據(jù)的分辨率進(jìn)行調(diào)整。
在純文本生成圖像的場景下(y=?),會省略所有y的Token,以保持模型的文本到圖像生成能力。
對抗式擴散蒸餾采樣
對獲得的流匹配模型進(jìn)行采樣,通常需要求解一個常微分方程或隨機微分方程,過程一般需要進(jìn)行50到250次帶引導(dǎo)的網(wǎng)絡(luò)評估。
雖然對于訓(xùn)練良好的模型來說,這種方式生成的樣本質(zhì)量較高,但也存在一些潛在問題。
首先,多步采樣過程較慢,使得大規(guī)模部署成本較高,不利于實現(xiàn)低延遲的交互式應(yīng)用。
其次,引導(dǎo)過程有時會帶來視覺偽影,比如過度飽和的圖像。
FLUX.1 Kontext采用潛空間對抗擴散蒸餾方法來應(yīng)對上述挑戰(zhàn)。該方法通過對抗訓(xùn)練在提升圖像質(zhì)量的同時,顯著減少了采樣所需的步驟數(shù)。
實現(xiàn)細(xì)節(jié)
從一個純文本生成圖像的模型檢查點出發(fā),將模型聯(lián)合微調(diào)用于圖像生成圖像和文本生成圖像這兩個任務(wù)。
雖然該方法天然支持多個輸入圖像,但目前只聚焦于使用單張圖像作為條件輸入。
FLUX.1 Kontext[pro]先通過flow目標(biāo)訓(xùn)練,然后再進(jìn)行LADD的訓(xùn)練。使用Meng等人提出的技術(shù),將指導(dǎo)蒸餾方法應(yīng)用于一個參數(shù)量為120億的擴散Transformer模型,從而得到FLUX.1 Kontext[dev]。
為了提升FLUX.1 Kontext [dev]在編輯任務(wù)中的表現(xiàn),專注于圖像生成圖像的訓(xùn)練,不進(jìn)行純文本生成圖像的訓(xùn)練。
為了防止生成非自愿的私密圖像(NCII)和兒童性剝削內(nèi)容(CSEM),引入了安全訓(xùn)練機制,包括基于分類器的篩查和對抗訓(xùn)練。
研究人員采用FSDP2并結(jié)合混合精度訓(xùn)練:all-gather操作使用bfloat16,而梯度的reduce-scatter操作使用float32,以提升數(shù)值穩(wěn)定性。
還使用選擇性激活檢查點機制來降低最大顯存占用。
為提升吞吐量,采用Flash Attention,并對各個Transformer模塊進(jìn)行局部編譯優(yōu)化。
以上為產(chǎn)品在攝影作品上效果。(a) 輸入圖像,展示了完整的穿搭造型。(b) 提取出的裙子,置于白色背景下,呈現(xiàn)產(chǎn)品攝影風(fēng)格。(c) 裙子面料的特寫鏡頭,突出顯示其紋理和圖案細(xì)節(jié)。
結(jié)果評測分析
首先介紹KontextBench,這是一個全新的基準(zhǔn)測試集,涵蓋了從用戶群體中收集的真實圖像編輯挑戰(zhàn)。
然后系統(tǒng)性地將FLUX.1 Kontext與當(dāng)前最先進(jìn)的文本生成圖像和圖像生成圖像方法進(jìn)行對比,展示其在各種編輯任務(wù)中的優(yōu)異表現(xiàn)。
面向上下文任務(wù)的真實世界眾包基準(zhǔn)測試
現(xiàn)有的圖像編輯模型基準(zhǔn)測試在反映真實使用情況方面往往存在局限。
KontextBench的內(nèi)容來自真實世界的用戶使用場景。該基準(zhǔn)集包含1026對獨特的圖像與提示詞組合,源自108張基礎(chǔ)圖像,包括個人照片、CC授權(quán)藝術(shù)作品、公共領(lǐng)域圖像以及AI生成內(nèi)容。
KontextBench涵蓋五類核心任務(wù):局部指令編輯(416個示例)、全局指令編輯(262個)、文本編輯(92個)、風(fēng)格參考(63個)和角色參考(193個)。
各模型在生成1024 × 1024圖像時的中位推理延遲。FLUX.1 Kontext在文本生成圖像和圖像生成圖像兩種任務(wù)中均展現(xiàn)出較有競爭力的速度表現(xiàn)。
與當(dāng)前最先進(jìn)方法的對比
FLUX.1 Kontext旨在同時支持文本生成圖像(T2I)和圖像生成圖像(I2I)任務(wù)。
將該方法與目前領(lǐng)域中最強的商業(yè)模型和開源模型進(jìn)行了對比評估,分別測試了 FLUX.1 Kontext 的 [pro] 和 [dev] 版本。[dev] 版本專注于圖像生成圖像任務(wù)。
此外,還引入了 FLUX.1 Kontext[max],其使用更高計算資源,以實現(xiàn)更強的生成效果。
文本生成圖像(T2I)結(jié)果
當(dāng)前的T2I評估基準(zhǔn)主要基于用戶偏好,一般會問:「你更喜歡哪張圖片?」
觀察到這種寬泛的評估標(biāo)準(zhǔn)常常偏向具有典型「AI美學(xué)」的圖像,比如顏色過于鮮艷、主體居中突出、背景模糊(景深)明顯,以及風(fēng)格趨同等。
研究人員將這種現(xiàn)象稱為「bakeyness」(過度精修感)。
為更全面地評估生成質(zhì)量,更深入理解用戶偏好影響,研究人員將T2I任務(wù)拆分為五個維度進(jìn)行分析:
1. 指令遵循程度(prompt following)
2. 審美性(你覺得哪張圖片更好看)
3. 真實感(哪張圖看起來更像真實照片)
4. 字體排版準(zhǔn)確性(typography accuracy)
5. 推理速度
研究人員在1000條多樣化的測試提示語上進(jìn)行評估,這些提示語來源于學(xué)術(shù)基準(zhǔn)以及真實用戶查詢。研究人員將這一測試集稱為Internal-T2I-Bench。
結(jié)果顯示,F(xiàn)LUX.1 Kontext在各個維度上表現(xiàn)非常均衡。
盡管在某些單項指標(biāo)上其他模型表現(xiàn)更好,但往往是以犧牲其他維度性能為代價。
研究人員還看到,從FLUX1.1[pro]到FLUX.1 Kontext[pro],再到FLUX.1 Kontext[max],性能逐步提升,驗證了研究人員訓(xùn)練迭代的成效。
圖像生成圖像(I2I)結(jié)果
在I2I評估中,研究人員針對多個編輯任務(wù)評估模型表現(xiàn),包括:
圖像質(zhì)量
局部編輯能力
角色保持(C-Ref)
風(fēng)格遷移(S-Ref)
文本編輯
計算效率
從人工評估結(jié)果來看,F(xiàn)LUX.1 Kontext的[max]和[pro]版本在局部編輯、文本編輯以及角色保持方面表現(xiàn)最優(yōu)。
為了量化角色保持(C-Ref)性能,研究人員使用AuraFace提取編輯前后的面部嵌入特征,并進(jìn)行對比。
結(jié)果與人工評估一致:FLUX.1 Kontext在保持人物特征方面優(yōu)于其他模型。
在全局編輯和風(fēng)格遷移任務(wù)上,F(xiàn)LUX.1 Kontext分別僅次于gpt-image-1和Gen-4References。
最后,在推理速度方面,研究人員的模型也表現(xiàn)出最優(yōu)的響應(yīng)延遲。
FLUX.1 Kontext專用應(yīng)用場景
FLUX.1 Kontext不僅支持常規(guī)圖像生成任務(wù),還可以應(yīng)用于多種特定場景。
其中之一是風(fēng)格參考(Style Reference,S-Ref),這一功能由Midjourney推廣開來,可在保持語義內(nèi)容不變的前提下,將參考圖像中的風(fēng)格遷移到目標(biāo)圖像中。
風(fēng)格參照,即給定一張輸入圖像,模型會提取其藝術(shù)風(fēng)格,并在保持原有風(fēng)格特征的前提下,生成多樣化的新場景。
此外,該模型還可以識別和響應(yīng)圖像中的視覺提示,比如紅色橢圓或幾何圖形,這些元素可以引導(dǎo)模型進(jìn)行特定區(qū)域的編輯。
在文本編輯方面,F(xiàn)LUX.1 Kontext支持對圖像中的文字進(jìn)行微調(diào),包括修正拼寫錯誤、調(diào)整字體風(fēng)格,并在此過程中保持周圍圖像內(nèi)容的連貫性。
總結(jié)
FLUX.1 Kontext 實現(xiàn)了當(dāng)前SOTA性能,并有效應(yīng)對了多輪編輯過程中的角色漂移、推理速度慢和輸出質(zhì)量低等關(guān)鍵問題。
FLUX.1 Kontext的主要貢獻(xiàn)包括:
一種統(tǒng)一架構(gòu),能夠同時處理多種圖像任務(wù)
在多輪編輯中保持出色的角色一致性
具備交互式響應(yīng)速度
發(fā)布了KontextBench:一個包含1026對圖像-提示詞的真實世界基準(zhǔn)測試集
廣泛的評估結(jié)果表明,F(xiàn)LUX.1 Kontext的性能可與商業(yè)系統(tǒng)相媲美,并支持快速、多輪的創(chuàng)意工作流程。
目前的FLUX.1 Kontext在實際應(yīng)用中仍存在一些局限,比如多輪編輯過多時,可能會引入視覺偽影,導(dǎo)致圖像質(zhì)量下降。
但是基于同一張起始圖像和相同的編輯提示,使用不同模型進(jìn)行的迭代編輯示例(頂部:FLUX.1 Kontext,中部:gpt-image-1,底部:Runway Gen4)。FLUX.1 Kontext在面部特征保持方面優(yōu)于其他模型。
FLUX.1 Kontext與KontextBench的發(fā)布為圖像生成與編輯的統(tǒng)一研究提供了堅實基礎(chǔ)和完整的評估框架,有望推動該領(lǐng)域持續(xù)進(jìn)步。
參考資料:
https://bfl.ai/announcements/flux-1-kontext
https://cdn.sanity.io/files/gsvmb6gz/production/880b072208997108f87e5d2729d8a8be481310b5.pdf
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.