- 夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
AI生圖新突破!一個(gè)模型同時(shí)接受文本和圖像輸入。
新模型FLUX.1 Kontext使用流匹配架構(gòu)(Flow Matching),不再是文本編碼器和擴(kuò)散模型各干各的,與此前技術(shù)都不同。
最來(lái)自之前很火的Black Forest Labs,官方表示這一次能做到真正的上下文生成和編輯。
在編輯能力上,有人在著名的奧特曼尷尬照上P了一個(gè)小綠龍。
在生成能力上,有網(wǎng)友測(cè)試的猩猩打羽毛球細(xì)節(jié)也很豐富。
具體來(lái)說(shuō)FLUX.1 Kontext有4個(gè)特性:
- 角色一致性:可跨場(chǎng)景保留元素
- 局部編輯:只針對(duì)特定部分而不影響其余部分
- 風(fēng)格參考:以現(xiàn)有風(fēng)格生成新場(chǎng)景
- 交互速度:以最小延遲進(jìn)行迭代
這次提供兩種模型,專業(yè)版FLUX.1 Kontext [pro]更適合快速迭代,可基于之前的編輯
最高配版FLUX.1 Kontext [max],在遵循提示、文字排版和一致性有所提高。
同時(shí)推出官方試玩平臺(tái)Flux Playground,兩種型號(hào)都可以選用
此外開放權(quán)重版FLUX.1 Kontext [dev]提供內(nèi)測(cè)。
提示詞技巧
第三方平臺(tái)Replicate對(duì)FLUX.1 Kontext做了詳細(xì)測(cè)試,結(jié)論是比OpenAI的4o效果更好,還更便宜,圖像也不會(huì)偏黃。
測(cè)試報(bào)告中還針對(duì)不同功能給了提示詞技巧。
圖像編輯
當(dāng)編輯人物時(shí),無(wú)論改動(dòng)大小,人物的身份特征都會(huì)保留。
對(duì)于風(fēng)格遷移任務(wù),也能保留人物的基本特征。
對(duì)于更復(fù)雜的更改,例如添加人物或更改背景,需要分幾步描述每項(xiàng)修改,只要每次改動(dòng)不太復(fù)雜就可以獲得好的效果。
風(fēng)格遷移
風(fēng)格遷移任務(wù)至少具體到“印象派繪畫”或“水彩素描”,帶上具體的流派藝術(shù)家效果更好,如“文藝復(fù)興”或“20 世紀(jì) 60 年代的波普藝術(shù)”。
如果風(fēng)格標(biāo)簽不夠精準(zhǔn),那就描述一下關(guān)鍵特征,例如“清晰的筆觸、厚重的顏料質(zhì)感和豐富的色彩深度”。如果想保留某些元素,也需要明確說(shuō)明,如“保持原始構(gòu)圖”。
總之,描述的越具體效果越好。
文本編輯
支持往圖上新增文本、刪除文本,甚至定位到已有文本修改。
處理文本時(shí)的一些技巧:
- 使用易讀的字體,過(guò)于藝術(shù)化的字體表現(xiàn)不佳
- 明確說(shuō)明要保留哪些內(nèi)容。如果保留字體樣式很重要,請(qǐng)務(wù)必提及
- 盡可能匹配編輯前后的文本長(zhǎng)度。長(zhǎng)度的大幅變化可能會(huì)改變布局
此外根據(jù)網(wǎng)友測(cè)試,F(xiàn)LUX.1 Kontext還可以刪除文本,如把電影海報(bào)上的字全去掉。
角色一致性
在連續(xù)編輯時(shí),首先要明確人物,然后說(shuō)明哪些方面發(fā)生了變化,無(wú)論是場(chǎng)景、活動(dòng)還是風(fēng)格。
如果想讓同一個(gè)人物繼續(xù)存在,需要說(shuō)明哪些方面需要保留:面部、表情、服飾或其他任何重要方面。
在編輯背景和場(chǎng)景的同時(shí)保持角色的一致性需要詳細(xì)描述,以保持人物處于相同的位置、比例或姿勢(shì)。
簡(jiǎn)短的提示有時(shí)會(huì)留下太多模糊的地方,如“把他挪到沙灘上”,就不如:
- 將背景換成海灘,同時(shí)保持人物位置不變,保持相同的主體位置、拍攝角度、取景和視角。只需替換人物周圍的環(huán)境即可。
其他技巧
最后,Repilicate還對(duì)使用FLUX.1 Kontext的提示詞技巧做了一個(gè)總結(jié):
- 使用清晰、詳細(xì)的語(yǔ)言。準(zhǔn)確命名顏色,精準(zhǔn)描述視覺(jué)元素,并選擇直接的動(dòng)作動(dòng)詞。避免使用“使其更好”之類的模糊詞語(yǔ)。
- 將復(fù)雜的編輯分解成更小的步驟。按順序進(jìn)行操作,更容易管理較大的變更。
- 明確哪些部分應(yīng)該保留。使用“同時(shí)保持相同的面部特征”或“維持原始構(gòu)圖”等短語(yǔ)來(lái)保護(hù)關(guān)鍵元素。
- 使用描述性短語(yǔ),例如“留著黑色短發(fā)的女人”或“紅色汽車”。避免使用代詞。
- 編輯文本時(shí)使用引號(hào),例如,“將‘x’替換為‘y’”
- 明確控制構(gòu)圖 :編輯場(chǎng)景時(shí),明確說(shuō)明是否要保留攝像機(jī)角度或取景框等內(nèi)容。
- 謹(jǐn)慎選擇動(dòng)詞 :“改造”之類的詞語(yǔ)暗示著徹底的改造。如果想要更精準(zhǔn)的控制,可以使用更具體的操作,例如“換衣服”或“替換背景”。
One More Thing
最后再來(lái)看一下文生圖領(lǐng)域的格局,在AritificialAnalysis的排行榜上,GPT-4o、字節(jié)的Seedream 3.0和Recraft V3排名前三。
Black Forest Labs的上一代爆款產(chǎn)品FLUX.1已經(jīng)相對(duì)靠后。
可以期待一下FLUX.1 Kontex的投票結(jié)果。
在線試玩
https://playground.bfl.ai/image/generate
[1]https://x.com/bfl_ml/status/1928143010811748863
[2]https://replicate.com/blog/flux-kontext
[3]https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.