新智元報(bào)道
編輯:編輯部 XZH
【新智元導(dǎo)讀】豆包的一句話P圖功能,又進(jìn)化了!各種高考祝福、網(wǎng)絡(luò)梗圖、大片級(jí)精修、設(shè)計(jì)師草稿,無不是信手拈來。此刻,AI P圖再次迎來降維打擊,只要用自然語言,就能實(shí)現(xiàn)精準(zhǔn)的圖片編輯。可以說,AI修圖終于來到了3.0時(shí)代!
高考第一天就這么來了!莘莘學(xué)子們離解放的日子,也只剩不到三天。
祝廣大考生文曲星附體,逢考必過,心想事成!
如今,回憶起當(dāng)年的場(chǎng)景,有沒有想過直接穿越到霍格沃茨的魔法世界?
還是未來的賽博朋克世界?
話說,現(xiàn)在P圖已經(jīng)進(jìn)化成這樣了嗎?
說句話,圖就自己變了!
輕描淡寫一句「天空換成夕陽」,早晨的城市公園瞬間鋪滿溫柔的晚霞
雖說用AI來P圖已經(jīng)是稀松平常,但在這次用過豆包AI最新版本智能修圖后,真的有被征服,只剩下一個(gè)感受——穩(wěn)!太穩(wěn)了!
不論是精準(zhǔn)的在圖像上編輯文字。
張伯倫拿著100分照片的梗圖,秒變高考祝福
還是局部圖像任意修改細(xì)節(jié)。
豆包在精細(xì)且自然地處理編輯區(qū)域的同時(shí),都能高保真地維持其他信息。
這次豆包的能力提升主要得益于圖像編輯模型SeedEdit 3.0全量上線。
經(jīng)過兩個(gè)版本的迭代,豆包AI智能生圖直接化身你個(gè)人專屬的P圖專家。
愛因斯坦在上海
一秒入古畫,人在畫中游
將衣服和發(fā)型換成大人模樣
而且,操作起來既然不用糾結(jié)細(xì)節(jié),也無需學(xué)習(xí)復(fù)雜的軟件界面。
你只需要一句簡單的指令,便能看到想象力如何被一鍵點(diǎn)亮。
圖片文字編輯:超準(zhǔn)超實(shí)用
一直以來,AI在圖像編輯領(lǐng)域都有個(gè)很難過去的坎——在圖片中「準(zhǔn)確地」添加文字。
舉個(gè)例子,比如我們想在眼鏡左鏡片上添加文字「暴」,右鏡片上添加文字「富」。
這時(shí),模型不僅需要完全理解圖片(找到墨鏡),并且還要理解要添加的文字(別認(rèn)錯(cuò)字)。
對(duì)于這項(xiàng)任務(wù),即使是國外的扛把子ChatGPT,翻車也是常態(tài)。尤其,是在處理中文時(shí)。
比如將圖中的「暴富」換成「發(fā)財(cái)」,ChatGPT兩個(gè)字都打錯(cuò)了。
相比之下,豆包就能完美達(dá)成。
改文案、做海報(bào),簡直是打工人神器,以后編輯圖片不用再求人了。
將界面改為手機(jī)點(diǎn)餐app的UI,移除人像,將「Shop」「Spring Sale Up to 50% Off」「Clothing」「Shoes」「Accessories」「Home」「Wireless Eardus」「Woman Hat」「Brejan Sweater」「Sneakers」「-20% On select items」「New Arrivals」等文字改成餐飲相關(guān)的
圖像局部修改:化身PS達(dá)人
這次帶來的另一個(gè)「神器」功能,就是局部修改PS。
比如,我們可以把喬幫主抱著的蘋果電腦換成最新版的MacBook。
或者把手里的iPhone換成字面意思上的蘋果。
如此沒有違和感的成片,說聲「PS大神」不為過吧!
圖像風(fēng)格遷移:秒變攝影大師
豆包這次升級(jí)另外一個(gè)看點(diǎn)就是可以進(jìn)行圖片整體風(fēng)格遷移,比如將人物直接放入拍立得相框。
這下,再也不擔(dān)心女朋友的要求了。
AI修圖,正當(dāng)時(shí)
豆包上的AI生圖,為何進(jìn)化到了如此強(qiáng)大的地步?
這就不得不提它背后的模型——SeedEdit 3.0了。
要知道,之前的圖像編輯模型,往往存在這樣一個(gè)令人頭疼的通病——
在保留圖像主體和背景、精準(zhǔn)執(zhí)行編輯指令方面表現(xiàn)不佳,導(dǎo)致生成結(jié)果可控性差、成品率低,難以滿足真實(shí)應(yīng)用需求。
而SeedEdit 3.0通過引入多源數(shù)據(jù)融合策略與定制化獎(jiǎng)勵(lì)機(jī)制,成功突破了這一瓶頸。
無論是主體還原、背景一致性,還是細(xì)節(jié)保真度,SeedEdit 3.0均實(shí)現(xiàn)大幅提升。
尤其在人像美化、場(chǎng)景替換、視角調(diào)整與光影變化等復(fù)雜編輯任務(wù)中,展現(xiàn)出了讓人印象極其深刻的穩(wěn)定性與真實(shí)感。
可以看到,如今在SeedEdit 3.0加持下的豆包已經(jīng)不單單局限于日常P圖,更是變成了設(shè)計(jì)師們的工作利器。
圖像編輯一騎絕塵
比如,在花瓶的瓶身上畫上花紋,將花瓶上色成青花瓷,并變成真實(shí)花瓶。
再比如,將圖片里的四種花上色,并擺放在同一個(gè)精美的玻璃瓶里,玻璃瓶置于客廳的窗臺(tái)上,去掉標(biāo)注的文字,變?yōu)閷憣?shí)攝影圖片。
之所以能有如此表現(xiàn),正是因?yàn)閳F(tuán)隊(duì)在 SeedEdit 3.0的研發(fā)工作中提出了一種高效的數(shù)據(jù)融合策略,并構(gòu)建了多種專用獎(jiǎng)勵(lì)模型。
通過將這些獎(jiǎng)勵(lì)模型與擴(kuò)散模型聯(lián)合訓(xùn)練,團(tuán)隊(duì)針對(duì)性地改善了關(guān)鍵任務(wù)的編輯質(zhì)量(如人臉對(duì)齊、文本渲染等)。在落地時(shí)也對(duì)推理加速進(jìn)行了同步優(yōu)化。
從上面這些實(shí)測(cè)中不難看出,SeedEdit 3.0對(duì)非編輯區(qū)域的保持能力很強(qiáng)——既能留住細(xì)節(jié),又能兼顧美感。
P圖中的「變」與「不變」
在實(shí)測(cè)過程中,豆包的另一個(gè)令人印象深刻之處就是:P起圖來,它怎么那么會(huì)!
讓照片中的人物頭戴簪花,衣服換成惠安民族服裝,背景替換為福建海邊。
這是三個(gè)要求,不僅要找到人物,還要定位服裝,最后還要識(shí)別背景。
而豆包都完美做到了。
這當(dāng)然也要?dú)w功于SeedEdit 3.0。
要知道,圖像編輯任務(wù)訓(xùn)練的另一大關(guān)鍵,就是讓模型聽懂指令,區(qū)分出哪里需要變,哪里需要不變。
為此,團(tuán)隊(duì)專門開發(fā)了一套增強(qiáng)型數(shù)據(jù)融合策略,構(gòu)建了合成數(shù)據(jù)集、編輯專家數(shù)據(jù)、傳統(tǒng)人工編輯操作、視頻幀與多鏡頭幾個(gè)類別的數(shù)據(jù)。
基于上述數(shù)據(jù),研究者促使擴(kuò)散模型在真實(shí)數(shù)據(jù)與合成的「輸入-輸出編輯空間」進(jìn)行交錯(cuò)學(xué)習(xí),提高對(duì)真實(shí)圖片的編輯效果。
就這樣,對(duì)于編輯圖像時(shí)的難題——「哪里改,哪里不改」,SeedEdit 3.0都表現(xiàn)出了更佳的理解力和權(quán)衡力。
再加上豆包APP的超強(qiáng)圖片編輯能力,用AI來P圖真正做到了「言出法隨」。
還有比如這張,原圖是哪吒和敖丙在實(shí)驗(yàn)室里做果汁。我們要求p成背景在高考考場(chǎng),豆包就很好地領(lǐng)會(huì)到了。
就算是細(xì)節(jié)拉滿的promt,豆包也能輕松get。
把照片改成插畫風(fēng)格,女生騎坐在一條可愛的卡通紅金魚身上,金魚眼睛大且靈動(dòng),魚鰭、魚尾色彩鮮艷,背景是橙紅色放射狀漸變并帶白色線條裝飾,上方有黃橙漸變卡通字「一定高中」,底部是藍(lán)白色海浪圖案。
對(duì)齊不同模態(tài)信息
值得一提的是,這次豆包P圖保留的人臉細(xì)膩質(zhì)感,實(shí)在令人贊嘆不已。
這就要?dú)w功于,SeedEdit 3.0團(tuán)隊(duì)對(duì)于模型細(xì)節(jié)上的提升。
他們還沿用了此前驗(yàn)證過的框架:底層使用視覺理解模型,頂層采用因果擴(kuò)散網(wǎng)絡(luò),并在擴(kuò)散過程中重新引入圖像編碼器。然后在視覺理解模型與擴(kuò)散模型之間,加入一條連接,用于將前者獲取的編輯推理信息與后者對(duì)齊。
改造完成后的SeedEdit 3.0結(jié)構(gòu)
由此,人臉與物體特征這類細(xì)節(jié)保留顯著提升。
最后,在訓(xùn)練和推理加速上,SeedEdit 3.0還融合了蒸餾模型方法、CFG蒸餾、統(tǒng)一噪聲參照、自適應(yīng)時(shí)間步采樣等多個(gè)加速方法,實(shí)現(xiàn)了10秒級(jí)的推理。
在未來,團(tuán)隊(duì)還將探索更豐富的編輯操作,讓大家創(chuàng)意爆棚,靈感爆棚。
現(xiàn)已加入生產(chǎn)力豪華套餐
隨著圖像生成的質(zhì)量越來越高,AI生圖也開始從「玩具」逐漸進(jìn)化成真正的生產(chǎn)力工具。
與此同時(shí),用戶的需求也早已不局限在生圖這個(gè)單一的場(chǎng)景中。這一點(diǎn),從GPT-4o「魔改吉卜力風(fēng)」一夜火爆全網(wǎng),便不難看出。
現(xiàn)在,在AI修圖邁入3.0時(shí)代的今天,豆包SeedEdit 3.0不僅打破了傳統(tǒng)P圖工具的門檻,更真正將「所見即所得」升級(jí)為「所想即所得」。
不論是圖中文字編輯、局部精修、風(fēng)格遷移,還是超寫實(shí)建模與視覺美學(xué)體驗(yàn),它都做到了「穩(wěn)準(zhǔn)狠」——穩(wěn)在每一次操作都可復(fù)現(xiàn),準(zhǔn)在每一句指令都能精準(zhǔn)理解,狠在生成效果足以媲美專業(yè)級(jí)修圖師。
在這個(gè)大家都希望AI「言出法隨」的時(shí)代,你只需動(dòng)動(dòng)嘴,剩下的交給AI。
現(xiàn)在,是時(shí)候告別繁瑣,擁抱想象力的無限可能了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.