大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中國團(tuán)隊讓AI擁有「視覺想象力」,像人類一樣腦補(bǔ)畫面來思考

0
分享至




在人類的認(rèn)知過程中,視覺思維(Visual Thinking)扮演著不可替代的核心角色,這一現(xiàn)象貫穿于各個專業(yè)領(lǐng)域和日常生活的方方面面。



圖 1:需要借助「腦補(bǔ)」圖像進(jìn)行思考的真實(shí)世界任務(wù)。這些任務(wù)通常需要視覺預(yù)見性和想象力,僅憑基于文本的思考無法完全實(shí)現(xiàn)。

生物化學(xué)家在探索新的治療途徑時,會在腦海中構(gòu)建蛋白質(zhì)的三維立體結(jié)構(gòu),通過視覺化的分子間相互作用來理解復(fù)雜的生化過程;法醫(yī)分析師在破解疑難案件時,需要在心中重建犯罪現(xiàn)場的空間布局,通過視覺推理來驗證證據(jù)之間的邏輯連接;建筑師在設(shè)計創(chuàng)新建筑時,會在腦海中不斷勾勒和修正建筑草圖,通過視覺想象來優(yōu)化空間配置和光照效果;籃球運(yùn)動員在制定戰(zhàn)術(shù)策略時,需要在腦海中構(gòu)想隊友的跑位路線、防守陣型的變化以及關(guān)鍵時刻的戰(zhàn)術(shù)配合,通過視覺化的場景想象來設(shè)計最佳的進(jìn)攻方案;在日常決策中,一般人也會通過「腦補(bǔ)」各種可能的場景圖像來輔助判斷和選擇,用腦海中自發(fā)生成的圖像作為認(rèn)知媒介。

這種視覺思維能力的獨(dú)特之處在于,它能夠創(chuàng)造概念間的獨(dú)特組合和新穎連接,幫助我們發(fā)現(xiàn)僅通過純文本推理無法獲得的洞察和創(chuàng)意。而在現(xiàn)代認(rèn)知科學(xué)中,這種「深思熟慮」往往需要多模態(tài)的思維過程來支撐。

如今,AI 也邁出了這一步:上海交通大學(xué)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)和 Generative AI Research Lab(GAIR)的團(tuán)隊提出Thinking with Generated Images,讓大模型能夠自發(fā)生成視覺中間步驟,像人類一樣用「腦內(nèi)圖像」進(jìn)行跨模態(tài)推理。



  • 論文鏈接:https://arxiv.org/abs/2505.22525
  • 代碼鏈接:https://github.com/GAIR-NLP/thinking-with-generated-images
  • 模型鏈接 1:https://huggingface.co/GAIR/twgi-critique-anole-7b
  • 模型鏈接 2:https://huggingface.co/GAIR/twgi-subgoal-anole-7b

突破性理念:

從「看圖像」到「腦補(bǔ)圖像」— 視覺思維的遞進(jìn)進(jìn)化

如何讓模型自發(fā)性地通過視覺進(jìn)行「思考」仍屬于早期探索階段。此前的一些工作嘗試通過空間搜索任務(wù)(如迷宮導(dǎo)航)進(jìn)行早期探索,但這些任務(wù)的局限性在于它們往往可以直接通過文本思考或「對著」圖像思考(Thinking with Images)來解決,而不需要真正的「腦補(bǔ)」圖像思考(Thinking with Generated Images)。

Thinking with Generated Images 系統(tǒng)性地整理并比較了三個核心概念的本質(zhì)區(qū)別及其適用任務(wù)的差異:

  • 「看」圖像(Seeing with Images):模型僅在單次前向傳播中處理用戶提供的固定圖像,主要適用于基礎(chǔ)的視覺識別任務(wù),如物體檢測、圖像分類等。這種模式下,模型只是被動地「觀察」圖像內(nèi)容。在這個過程中,整個 AI 的思維過程完全發(fā)生在文本模態(tài)中,圖像僅僅作為一個固定的先驗條件,無法參與到動態(tài)的推理過程中。這也是大多數(shù)現(xiàn)有的大型多模態(tài)模型(Large Multimodal Models, LMMs)或視覺語言模型(Vision-Language Models, VLMs)的預(yù)設(shè)模式。
  • 「對著」圖像思考(Thinking with Images):模型能夠多次訪問或?qū)ΜF(xiàn)有圖像進(jìn)行有限變換(如裁剪、旋轉(zhuǎn)、代碼執(zhí)行器、OCR、圖像處理工具),適用于需要多步視覺推理的任務(wù),如視覺問答、圖表解讀、空間推理等?!笇χ箞D像思考雖然在一定程度上改善了模型的視覺推理能力,但仍然受到一個核心約束:它們只能處理用戶預(yù)先提供的固定圖像或?qū)@些圖像進(jìn)行簡單變換,被動處理用戶提供的圖像,無法真正做到從零開始構(gòu)建新的視覺概念。
  • 「腦補(bǔ)」圖像思考(Thinking with Generated Images):模型能夠主動生成中間視覺步驟作為推理過程的一部分,適用于需要視覺想象、創(chuàng)造性設(shè)計、空間規(guī)劃、以及與物理世界環(huán)境交互感知的復(fù)雜任務(wù)。這種模式在需要視覺預(yù)見性(visual foresight)和創(chuàng)造性想象的任務(wù)上具有最大優(yōu)勢,因為純文本推理無法充分表達(dá)這些任務(wù)所需的空間和視覺信息。

研究團(tuán)隊特別強(qiáng)調(diào),「腦補(bǔ)」圖像思考在需要空間想象、動態(tài)規(guī)劃和創(chuàng)造性視覺構(gòu)建的任務(wù)上相比于純文本推理具有根本性優(yōu)勢,這正是人類視覺思維的核心價值所在。



圖 2:區(qū)分「看」圖像、「對著」圖像思考、「腦補(bǔ)」圖像思考的例子。

技術(shù)實(shí)現(xiàn)方案:

自發(fā)原生多模態(tài)長思維鏈

研究團(tuán)隊創(chuàng)新性地提出了「原生多模態(tài)長思維過程」(the native long-multimodal thought process)這一核心技術(shù)框架實(shí)現(xiàn)「腦補(bǔ)」圖像思考。原生多模態(tài)長思維過程由交錯的多模態(tài) token 組成:包括文本的詞匯或子詞(words/subwords)、視覺的圖像塊(patches)等。

未來有更通用的基座模型后也能推廣到音頻的幀(frames),以及其他模態(tài)領(lǐng)域特定的表示形式(domain-specific representations)。原生多模態(tài)長思維過程不僅能夠讓模型在思維過程中自然地自發(fā)生成圖像,還能夠原生地執(zhí)行測試時擴(kuò)展(test-time scaling)以獲得更好的模型能力。透過原生多模態(tài)長思維過程實(shí)現(xiàn) Thinking with Generated Images 有四大主要優(yōu)勢:

  • 跨模態(tài)原生思維能力:通過單次推理過程即可「原生」地生成多模態(tài)的 tokens,使模型能夠自然無縫地跨模態(tài)進(jìn)行「思考」。
  • 統(tǒng)一生成式任務(wù)執(zhí)行:通過生成式范式原生地執(zhí)行多樣化的多模態(tài)任務(wù)。
  • 自然測試時擴(kuò)展機(jī)制:通過生成的「長」思維過程提供自然跨模態(tài)的測試時擴(kuò)展,使模型能夠通過生成更長、更詳細(xì)的多模態(tài)長思維過程,在推理時投入更多計算來提升性能質(zhì)量。
  • 未來技術(shù)集成兼容性和可擴(kuò)展性:單一模型集成的架構(gòu)便于未來與強(qiáng)化學(xué)習(xí)等訓(xùn)練后擴(kuò)展技術(shù)的集成,簡化了訓(xùn)練和推理持續(xù)擴(kuò)展的復(fù)雜度。

兩種自發(fā)原生多模態(tài)長思維鏈模式

研究團(tuán)隊深入分析人類多模態(tài)長思維的認(rèn)知模式,據(jù)此設(shè)計并提出了兩種原生多模態(tài)長思維鏈模式,應(yīng)用于視覺生成任務(wù)上,最大的體現(xiàn) Thinking with Generated Images 的優(yōu)勢:

  • 視覺子目標(biāo)分解(Vision Generation with Intermediate Visual Subgoals):視覺子目標(biāo)分解模擬了人類在處理復(fù)雜視覺任務(wù)時的分而治之策略。面對較為復(fù)雜或多物體的視覺生成任務(wù)(如「一張沙發(fā)和一個酒杯」),模型首先進(jìn)行整體性的分析,將大的視覺任務(wù)拆解成小的目標(biāo),分步生成沙發(fā)和酒杯的獨(dú)立圖像,再組合成最終結(jié)果。每個中間圖像都承載了特定的子目標(biāo)語義,不僅是視覺內(nèi)容的載體,更是推理過程中的「思維節(jié)點(diǎn)」。視覺子目標(biāo)分解允許模型在處理復(fù)雜視覺生成任務(wù)時保持對細(xì)節(jié)的精確控制,避免了直接生成復(fù)雜圖像時可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問題。





圖 3:原生多模態(tài)長思維鏈在GenEval上的例子。

  • 提出視覺假設(shè)并自我反思迭代(Vision Generation with Self-Critique):提出視覺假設(shè)并自我反思迭代體現(xiàn)了人類創(chuàng)作過程中的「草稿-修改-完善」循環(huán)機(jī)制。模型首先基于輸入提示生成一個初始的視覺假設(shè)圖像,這個假設(shè)通常包含了對任務(wù)的基本理解但可能存在各種不完善之處。模型隨后以文本反思形式對自己生成的圖像進(jìn)行深入的多角度分析,包括內(nèi)容完整性檢查(如「圖像缺乏雨傘」)、視覺質(zhì)量評估(如「更清晰的海景化」)、語義一致性驗證(如「更清楚的展示冰淇淋的融化」)、構(gòu)圖合理性判斷(如「增強(qiáng)圖像對比度」)等等。模型通過建立視覺假設(shè)、批判性分析、策略性改進(jìn)的迭代過程來逐步優(yōu)化生成結(jié)果,實(shí)現(xiàn)了視覺和文本模態(tài)之間的深度協(xié)同,形成了一個有效的自我改進(jìn)反饋循環(huán),顯著提升了生成圖像的質(zhì)量和準(zhǔn)確性。





圖 4:原生多模態(tài)長思維鏈在DPG-Bench上的例子。

自發(fā)原生多模態(tài)長思維鏈在多模態(tài)統(tǒng)一理解生成模型的實(shí)現(xiàn)

研究團(tuán)隊選擇在自回歸 next-token-prediction 的多模態(tài)統(tǒng)一理解生成模型上開發(fā)原生多模態(tài)長思維鏈,這一決策基于幾個層次的技術(shù)考慮:

  • 自回歸架構(gòu)與人類思維過程的天然契合性。人類的思維過程本質(zhì)上是序列化的——我們在思考復(fù)雜問題時,會逐步構(gòu)建想法,從一個概念過渡到另一個概念,在文本思考和視覺想象之間自然切換。自回歸模型通過逐 token 生成的方式,能夠最自然地模擬這種漸進(jìn)式、序列化的思維展開過程。
  • 統(tǒng)一架構(gòu)的簡潔性和可擴(kuò)展性優(yōu)勢。相比于需要協(xié)調(diào)多個獨(dú)立組件的復(fù)雜系統(tǒng)架構(gòu),自回歸統(tǒng)一模型提供了一個優(yōu)雅的解決方案。在這種架構(gòu)下,文本推理、視覺生成、自我批判等所有能力都統(tǒng)一在同一個模型中,避免了多組件系統(tǒng)中常見的信息傳遞損失、同步協(xié)調(diào)復(fù)雜性等問題。
  • 與現(xiàn)有技術(shù)生態(tài)的深度兼容性。當(dāng)前大語言模型領(lǐng)域已經(jīng)在自回歸架構(gòu)上積累了豐富的訓(xùn)練技巧、優(yōu)化方法和推理技術(shù)。選擇這一架構(gòu)使得研究團(tuán)隊能夠直接繼承和利用這些成熟的技術(shù)成果,而不需要從零開始構(gòu)建全新的技術(shù)棧。
  • 未來發(fā)展的技術(shù)路徑一致性。隨著計算能力的不斷提升和算法的持續(xù)優(yōu)化,自回歸架構(gòu)展現(xiàn)出了強(qiáng)大的擴(kuò)展?jié)摿?。選擇這一技術(shù)路徑確保了研究成果能夠與未來的技術(shù)發(fā)展趨勢保持一致,具備長期的技術(shù)價值。

在確定了自回歸架構(gòu)的技術(shù)路線后,團(tuán)隊選擇 Anole 作為基礎(chǔ)模型。目前大多數(shù)模型都缺乏真正的交錯多模態(tài)生成能力,而這正是實(shí)現(xiàn)「原生多模態(tài)長思維過程」的關(guān)鍵技術(shù)瓶頸。Anole 相比其他多模態(tài)模型具有兩個關(guān)鍵優(yōu)勢:

  • 原生交錯生成能力:Anole 直接在交錯的文本-圖像 token 上進(jìn)行預(yù)訓(xùn)練和后訓(xùn)練,具備了交錯生成多模態(tài) token 的固有能力,這是實(shí)現(xiàn)本研究目標(biāo)的基礎(chǔ)前提。
  • 高效的視覺表示機(jī)制:Anole 采用相對高效的圖像表示方案,使得基于原生多模態(tài)長思維過程的測試時擴(kuò)展在合理的推理預(yù)算內(nèi)成為可能。

搭配原生多模態(tài)長思維過程解決了視覺推理的五大局限

研究團(tuán)隊提出的「原生多模態(tài)長思維過程 (the native long-multimodal thought process)」這一核心技術(shù)框架實(shí)現(xiàn)「腦補(bǔ)」圖像思考。與現(xiàn)有方案對比,該提出方案解決了五大局限:

  • 擺脫用戶輸入依賴:過去的方法(如 OpenAI 的 o3 thinking with images)需用戶提供圖像作為推理起點(diǎn),而原生多模態(tài)長思維過程能從零構(gòu)建視覺上下文,讓模型在無圖場景下也能自發(fā)地做多模態(tài)思考。
  • 超越靜態(tài)圖像處理:目前的工具增強(qiáng)型模型通常只能裁剪、標(biāo)注或輕度編輯給定圖像;原生多模態(tài)長思維過程在推理鏈中動態(tài)生成全新的視覺假設(shè),為創(chuàng)造性規(guī)劃與空間推演打開更大搜索空間。
  • 端到端統(tǒng)一架構(gòu):無需多模型協(xié)作或外部工具鏈,單一模型即可完成「生成-推理-反思-迭代」的全流程,部署與調(diào)用更加輕量。
  • 可擴(kuò)展的測試時擴(kuò)展和未來后訓(xùn)練擴(kuò)展:原生多模態(tài)長思維過程天然支持測試時擴(kuò)展(test-time scaling),通過生成更長、更詳細(xì)的多模態(tài)長思維序列來提升性能。此外,該架構(gòu)為未來與強(qiáng)化學(xué)習(xí)、自我改進(jìn)等后訓(xùn)練技術(shù)的集成預(yù)留了充分空間。
  • 實(shí)際落地的應(yīng)用場景:過去的相關(guān)研究往往專注于相對局限任務(wù)場景,如數(shù)學(xué)(幾何)題求解、迷宮導(dǎo)航、簡單的空間推理等。這些任務(wù)雖然在技術(shù)驗證上有一定價值,但存在一個根本性問題:它們大多可以通過純文本描述和邏輯推理來充分表達(dá)和解決。例如,迷宮問題可以用坐標(biāo)和路徑描述完全編碼,幾何題可以通過形式化語言和邏輯步驟來求解,這些任務(wù)并未真正發(fā)揮視覺思維的獨(dú)特優(yōu)勢。研究團(tuán)隊專注于解決那些無法通過純文本充分表達(dá)的復(fù)雜視覺推理任務(wù),實(shí)現(xiàn)了從「專注于能用文本充分解決的視覺任務(wù)」到「專注于必須依賴視覺想象的復(fù)雜創(chuàng)造性任務(wù)」的認(rèn)知躍升。

Thinking with Generated Images 帶來的能力屬于全新維度,可與現(xiàn)有技術(shù)疊加協(xié)同。該研究著重提升的是「內(nèi)部想象-反思」的深度推理能力,而檢索增強(qiáng)、外部工具調(diào)用等技術(shù),仍然在引入外部知識、擴(kuò)展功能等方面具備優(yōu)勢。

未來,當(dāng)這些能力并行疊加時,既能利用 Thinking with Generated Images 提出的「腦內(nèi)草圖」,也能借助現(xiàn)有檢索增強(qiáng)、外部工具調(diào)用等技術(shù),形成 1+1>2 的整體效果。



圖 5:多模態(tài)認(rèn)知領(lǐng)域相關(guān)工作的對比

實(shí)驗設(shè)計

為了在多模態(tài)理解生成模型上實(shí)現(xiàn) Thinking with Generated Images 的自發(fā)原生多模態(tài)長思維鏈,研究團(tuán)隊在訓(xùn)練數(shù)據(jù)、訓(xùn)練策略、以及推理策略上都有深入的探索。

訓(xùn)練數(shù)據(jù)

研究團(tuán)隊精心設(shè)計了一套合成數(shù)據(jù)構(gòu)建流程,專門用于訓(xùn)練模型生成兩種類型的多模態(tài)長思維鏈。由于目前沒有現(xiàn)成的 LMM 模型支持多模態(tài)生成的測試時擴(kuò)展 (test-time scaling),傳統(tǒng)蒸餾技術(shù)并不適用,團(tuán)隊創(chuàng)新性地開發(fā)了完整的數(shù)據(jù)構(gòu)建管線(如圖 6 所示)。

數(shù)據(jù)收集三大黃金法則:

  • 高質(zhì)量圖像生成提示詞:采用 Deepseek-V3、GPT-4o、Claude3.7-Sonnet 和 Qwen2.5-72B-Instruct 頂尖模型生成復(fù)雜提示詞,通過規(guī)則過濾確保質(zhì)量,并借助 Qwen3-32B 將復(fù)雜視覺任務(wù)拆解成小的目標(biāo)。
  • 高質(zhì)量反思推理鏈:借助 QVQ-72B-Preview 的強(qiáng)大長鏈推理能力,對每個提示-圖像對進(jìn)行準(zhǔn)確性評估、差異識別和改進(jìn)建議,并實(shí)現(xiàn)模型通過迭代分解獲得最終圖像的過程。
  • 高質(zhì)量中間視覺思維:
  • 初始生成:
  • 使用 Anole-7b(自我批判)或 Flux1-dev(子目標(biāo)分解)。
  • 精修階段:
  • Flux1-Redux 結(jié)合原始提示、首輪圖像和批判反饋進(jìn)行優(yōu)化。
  • 最終生成:
  • 基于前幾輪圖像及思考過程來生成最終結(jié)果。

最后通過 QVQ-72B-Preview 進(jìn)行嚴(yán)格的質(zhì)量控制,過濾與提示嚴(yán)重偏離的樣本。

技術(shù)亮點(diǎn)解析:

  • 突破性數(shù)據(jù)架構(gòu):專門為「視覺思維」范式優(yōu)化的統(tǒng)一數(shù)據(jù)結(jié)構(gòu)。
  • 多模型協(xié)同:充分發(fā)揮各領(lǐng)域頂尖模型的專長,構(gòu)建訓(xùn)練樣本。
  • 嚴(yán)格質(zhì)量把控:從提示詞到最終圖像的全流程質(zhì)量控制機(jī)制。

這一創(chuàng)新性的訓(xùn)練策略使得 LMM 模型能夠生成端到端的多模態(tài)長思維鏈,為「Thinking with Generated Images」的實(shí)現(xiàn)奠定了堅實(shí)基礎(chǔ)。這套方法論不僅適用于當(dāng)前研究,也將為未來多模態(tài)推理系統(tǒng)的開發(fā)提供重要參考。



圖 6:數(shù)據(jù)收集流水線示例

訓(xùn)練策略

在使用統(tǒng)一多模態(tài)模型進(jìn)行視覺生成任務(wù)的訓(xùn)練時,大多僅依賴交叉熵訓(xùn)練沒有完整的考慮圖像 token 之間的關(guān)系。

為了解決這個問題,研究團(tuán)隊引入了視覺特征級別的重建損失,將生成圖像的隱狀態(tài)投影回視覺特征空間,并計算與 ground-truth 圖像對應(yīng)特征之間的均方誤差 (MSE) 損失。這種設(shè)計鼓勵模型產(chǎn)生具有更強(qiáng)視覺連貫性和結(jié)構(gòu)完整性的輸出?;趦?yōu)化后損失函數(shù),研究團(tuán)隊設(shè)計了系統(tǒng)性的兩階段訓(xùn)練流程:

  • 基礎(chǔ)能力強(qiáng)化:使用 JourneyDB 圖文對數(shù)據(jù)集對 Anole-7b 進(jìn)行持續(xù)訓(xùn)練,增強(qiáng)模型的基礎(chǔ)視覺生成能力。這一階段為后續(xù)的專門化訓(xùn)練奠定了堅實(shí)的多模態(tài)基礎(chǔ)。
  • 專門化微調(diào):基于上述的合成數(shù)據(jù)集進(jìn)行模型訓(xùn)練,精細(xì)化調(diào)整兩個專門化模型:
  • TwGI-Anole-7b-Obj.:使用視覺子目標(biāo)分解數(shù)據(jù)集進(jìn)行微調(diào),使其具備生成視覺中間子目標(biāo)的能力。
  • TwGI-Anole-7b-Crit.:使用視覺自我批判數(shù)據(jù)集進(jìn)行微調(diào),使其具備自我批判視覺假設(shè)的能力。

這種分階段訓(xùn)練策略確保了模型既具備扎實(shí)的基礎(chǔ)多模態(tài)能力,又能在特定的思維模式上表現(xiàn)出色。

推理策略

與標(biāo)準(zhǔn)的視覺語言模型或大語言模型不同,統(tǒng)一多模態(tài)模型在進(jìn)行視覺生成任務(wù)時面臨著獨(dú)特的推理挑戰(zhàn)。為了充分發(fā)揮模型的性能潛力,無分類器引導(dǎo) (Classifier-Free Guidance, CFG) 技術(shù)成為提升視覺生成性能的關(guān)鍵。在傳統(tǒng)的完整條件 (full conditions)、無條件 (unconditions) 和圖像條件 (image conditions) 基礎(chǔ)上,研究團(tuán)隊增加了:

  • 「原始提示條件」(Original Prompt Conditions):確保生成過程始終與用戶的原始意圖保持一致。
  • 「負(fù)面條件」(Negative Conditions):避免生成不當(dāng)或無關(guān)的視覺內(nèi)容。

這種多條件設(shè)計的核心目標(biāo)是促使中間視覺步驟更加忠實(shí)于原始意圖,同時避免被生成的長文本思維過度干擾。通過在這些條件之間進(jìn)行精細(xì)化平衡,模型能夠:

  • 充分利用長文本思維的指導(dǎo)作用:從詳細(xì)的文本推理中獲得有價值的語義信息和邏輯指導(dǎo)。
  • 有效過濾思維過程中的潛在噪聲:避免被長思維序列中可能存在的無關(guān)信息或錯誤推理分散注意力。
  • 保持視覺生成的一致性和質(zhì)量:確保最終輸出既符合原始提示要求,又體現(xiàn)了深度推理的成果。

在視覺生成任務(wù)上的結(jié)果分析

研究團(tuán)隊在 GenEval 和 DPGBench 兩個圖像生成基準(zhǔn)上對 TwGI-Anole-7b-Obj. 和 TwGI-Anole-7b-Crit. 進(jìn)行了全面的性能評估。

  • 視覺子目標(biāo)分解模式的評估:視覺子目標(biāo)分解模擬了人類在處理復(fù)雜視覺任務(wù)時的分而治之策略。面對較為復(fù)雜或多物體的視覺生成任務(wù)(如「一張沙發(fā)和一個酒杯」),模型首先進(jìn)行整體性的分析,將大的視覺任務(wù)拆解成小的目標(biāo),分步生成沙發(fā)和酒杯的獨(dú)立圖像,再組合成最終結(jié)果。每個中間圖像都承載了特定的子目標(biāo)語義,不僅是視覺內(nèi)容的載體,更是推理過程中的「思維節(jié)點(diǎn)」。視覺子目標(biāo)分解允許模型在處理復(fù)雜視覺生成任務(wù)時保持對細(xì)節(jié)的精確控制,避免了直接生成復(fù)雜圖像時可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問題。
  • 視覺自我批判模式的評估:測試 TwGI-Anole-7b-Crit. 模型是否能夠糾正其初始視覺假設(shè)(圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (visual hypo.)),并生成更好的圖像生成結(jié)果(圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (final))。



圖7: 在GenEval上的表現(xiàn)



圖8: 在DPG-Bench上的表現(xiàn)

中間視覺思維生成對視覺生成任務(wù)的顯著效益

實(shí)驗結(jié)果表明,TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 兩個基準(zhǔn)上都始終優(yōu)于基線模型 Anole-7b。在 GenEval 上,TwGI-Anole-7b-Obj 在「雙對象」類別中取得了顯著提升(0.57 vs. 0.38,相對提升 50%),表明其在處理涉及多個實(shí)體的復(fù)雜提示時具備了更強(qiáng)的能力。在位置和顏色屬性對齊方面也顯示出顯著改進(jìn),體現(xiàn)了在精確空間和視覺構(gòu)圖推理方面的更強(qiáng)能力。

在 DPGBench 上,TwGI-Anole-7b-Obj 在「實(shí)體」、「屬性」和「關(guān)系」類別中都取得了實(shí)質(zhì)性進(jìn)步,總體分?jǐn)?shù)從 58.32 提升至 68.44(相對提升 17.3%),反映出其在細(xì)粒度視覺語義理解方面的增強(qiáng)能力。這些改進(jìn)驗證了我們的假設(shè):將視覺任務(wù)分解為中間子目標(biāo)使得大語言模型能夠更系統(tǒng)地推理并生成更高質(zhì)量的輸出。

原生多模態(tài)長思維過程使模型能夠糾正和完善自身的視覺假設(shè)

視覺思維自我批判的實(shí)驗結(jié)果證明了讓模型反思和修正自身視覺輸出的有效性。TwGI-Anole-7b-Crit. 模型在自我批判步驟后性能顯著提升:GenEval 總分從 0.45 提升至 0.48,DPGBench 分?jǐn)?shù)從 62.83 提升至 67.14。這表明模型具備了內(nèi)省分析生成圖像的能力——通過基于視覺反饋的文本推理鏈,能夠識別不匹配、幻覺或遺漏的元素,并隨后進(jìn)行糾正。這種視覺反饋循環(huán)的有效性反映了一種模態(tài)間協(xié)同效應(yīng),其中視覺和文本模態(tài)相互迭代指導(dǎo),形成了真正的多模態(tài)智能推理機(jī)制。

這些結(jié)果共同驗證:在推理鏈中主動「畫草圖」或「打草稿」,不僅讓模型生成質(zhì)量更高、更可控,也帶來了深度理解與糾錯能力。

未來展望

Thinking with Generated Images 的能力未來有望推動 AI 在需要空間想象和動態(tài)規(guī)劃的領(lǐng)域?qū)崿F(xiàn)突破:

  • 創(chuàng)造性設(shè)計:模型可逐步生成并迭代建筑草圖,同時用文本記錄調(diào)整理由(如「將窗戶東移以優(yōu)化采光」)。
  • 科學(xué)發(fā)現(xiàn):通過生成分子結(jié)構(gòu)的中間假設(shè)圖像,輔助生物學(xué)家驗證藥物結(jié)合路徑。
  • 戰(zhàn)術(shù)規(guī)劃:讓 AI 籃球員「腦補(bǔ)」生成不同戰(zhàn)術(shù)配合的場上演示圖像,可視化球員跑位路線和防守破解策略。

《孫子兵法》說:「多算勝,少算不勝,而況于無算乎?」在文本時代,深思靠文字組成的思維鏈;在多模態(tài)時代,深思就需要通過多模態(tài)內(nèi)容的耦合,不僅要會觀察、調(diào)用工具,還要學(xué)會想象、反思、腦補(bǔ)。Thinking with Generated Images正在把這種能力「寫進(jìn)」模型本身,讓 AI 獲得人類的視覺想象力。

  • 它不只是性能指標(biāo)的上漲,而是推理范式的突破;
  • 它不只是會畫畫,而是把「畫畫」變成了思考的肌肉記憶;
  • 它不只是一次概念驗證,更是給未來「多模態(tài) AGI」鋪了條高速公路。

當(dāng)機(jī)器從「看圖說話」升級到「無圖腦補(bǔ)」,真正的多模態(tài)推理時代,已敲響開場鑼鼓,讓我們拭目以待。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
湖北省農(nóng)業(yè)農(nóng)村廳原副廳長、一級巡視員張桂華被開除黨籍

湖北省農(nóng)業(yè)農(nóng)村廳原副廳長、一級巡視員張桂華被開除黨籍

界面新聞
2025-06-14 14:39:53
卡魯索成為NBA總決賽歷史上首位單場至少20分5助攻的替補(bǔ)球員

卡魯索成為NBA總決賽歷史上首位單場至少20分5助攻的替補(bǔ)球員

雷速體育
2025-06-14 11:30:42
特朗普,簽了!

特朗普,簽了!

第一財經(jīng)資訊
2025-06-13 08:28:38
痛心!溫州一男一女,不幸身亡

痛心!溫州一男一女,不幸身亡

溫百君
2025-06-13 21:01:43
伊朗媒體公布被擊落的以色列F-35戰(zhàn)機(jī)殘骸照片

伊朗媒體公布被擊落的以色列F-35戰(zhàn)機(jī)殘骸照片

新京報
2025-06-14 09:02:07
“深受折磨”,深圳一小區(qū)業(yè)主紛紛貼“吵”字!有人遲遲不敢入住

“深受折磨”,深圳一小區(qū)業(yè)主紛紛貼“吵”字!有人遲遲不敢入住

南方都市報
2025-06-13 22:36:21
2億大合同要泡湯?三場總決賽,場均僅僅13分,他的頂薪還有戲嗎

2億大合同要泡湯?三場總決賽,場均僅僅13分,他的頂薪還有戲嗎

球毛鬼胎
2025-06-13 19:46:31
退休人員注意!工齡超過40年以上人員,可享受幾大福利,一起看看

退休人員注意!工齡超過40年以上人員,可享受幾大福利,一起看看

記錄生活日常阿蜴
2025-06-13 10:36:19
北京5名學(xué)霸高考估分700分實(shí)際350分,家長聯(lián)合舉報,結(jié)果如何

北京5名學(xué)霸高考估分700分實(shí)際350分,家長聯(lián)合舉報,結(jié)果如何

黃家湖的憂傷
2025-06-03 17:20:41
性質(zhì)嚴(yán)重,影響惡劣,從賓館服務(wù)員升到副廳級,柴高潮被開除黨籍!

性質(zhì)嚴(yán)重,影響惡劣,從賓館服務(wù)員升到副廳級,柴高潮被開除黨籍!

大風(fēng)新聞
2025-06-13 22:20:18
半天離職!上海一芯片團(tuán)隊幾乎全裁!賠償N+3!

半天離職!上海一芯片團(tuán)隊幾乎全裁!賠償N+3!

半導(dǎo)體圈
2025-06-14 11:04:11
上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的5倍不止?

上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
外圍崩了!昨晚歐美股市全線大跌,中概股重挫,原油大漲近8%!

外圍崩了!昨晚歐美股市全線大跌,中概股重挫,原油大漲近8%!

小舟談歷史
2025-06-14 09:40:38
中國發(fā)言人曾公開說:“中國已經(jīng)做到最高程度的克制!

中國發(fā)言人曾公開說:“中國已經(jīng)做到最高程度的克制!

老友科普
2025-06-13 20:05:01
南京“蘇超”專列啟程,“散裝江蘇”梗王車廂現(xiàn)原形秒變“臥底”

南京“蘇超”專列啟程,“散裝江蘇”梗王車廂現(xiàn)原形秒變“臥底”

極目新聞
2025-06-14 12:26:47
法足協(xié)主席:齊達(dá)內(nèi)愿意執(zhí)教法國令我欣慰,接替日期還未確定

法足協(xié)主席:齊達(dá)內(nèi)愿意執(zhí)教法國令我欣慰,接替日期還未確定

懂球帝
2025-06-14 11:01:14
伊朗伊斯蘭革命衛(wèi)隊總司令:已為任何戰(zhàn)斗準(zhǔn)備好升級版導(dǎo)彈

伊朗伊斯蘭革命衛(wèi)隊總司令:已為任何戰(zhàn)斗準(zhǔn)備好升級版導(dǎo)彈

財聯(lián)社
2025-06-12 00:08:14
富士康向美國發(fā)送了97%的印度造iPhone

富士康向美國發(fā)送了97%的印度造iPhone

cnBeta.COM
2025-06-13 14:48:06
炒股真正能發(fā)大財?shù)闹挥幸环N人:一輩子牢記十六個字,多次被驗證

炒股真正能發(fā)大財?shù)闹挥幸环N人:一輩子牢記十六個字,多次被驗證

股經(jīng)縱橫談
2025-06-14 11:04:39
華裔女子用20張圖片表達(dá)中西差異!

華裔女子用20張圖片表達(dá)中西差異!

霹靂炮
2025-06-09 22:12:29
2025-06-14 14:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

摩薩德在伊朗境內(nèi)建立無人機(jī)基地 部署精確制導(dǎo)武器

頭條要聞

摩薩德在伊朗境內(nèi)建立無人機(jī)基地 部署精確制導(dǎo)武器

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

手機(jī)
健康
游戲
公開課
軍事航空

手機(jī)要聞

iOS 26 增加了對與 Android 之間 eSIM 卡轉(zhuǎn)移的支持

呼吸科專家破解呼吸道九大謠言!

別的賽道還在卷 ,《率土之濱》居然又憑借“開荒節(jié)”再度翻紅?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒:以色列國防部大樓被伊朗導(dǎo)彈擊中

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产视频久久| 无码国产69精品久久久久网站| 国产精品高潮呻吟av久久黄| 亚洲成aⅴ人片在线观看无app| 免费99精品国产自在现线| 国产精品亚洲а∨天堂2021| 国产精品电影一区二区在线播放| 日本无码欧美一区精品久久| 国产真人无遮挡作爱免费视频| 美女张开腿给男人桶爽久久| 久久国产成人精品国产成人亚洲| 少妇下面好紧好多水真爽播放| 国产免费无遮挡吃奶视频| 免费看污又色又爽又黄又脏小说| 久久视频这里只有精品在线观看| 亚洲免费人成在线视频观看| 亚洲精品无码永久在线观看你懂的| 亚洲中文字幕无码一区| 亚洲国产精品无码中文在线| 亚洲女人的天堂www| 亚洲在av极品无码天堂| 亚洲成色在线综合网站| 国产狂喷水潮免费网站www| 国产成人无码a区视频在线观看| 色窝窝无码一区二区三区| 国产精品 亚洲 无码 在线| 国产精华av午夜在线| 乱无码伦视频在线观看| 伊人久久精品久久亚洲一区| 国产亚洲精久久久久久无码| 两个黑人大战嫩白金发美女| 国产片av不卡在线观看国语| 国产成人精品成人a在线观看| 国产精品热久久高潮av袁孑怡| 精品+无码+在线观看| 国产国产成人久久精品| 国产美女爽到喷出水来视频| 国产精品爱久久久久久久| 久久无码专区国产精品s| 天堂а√在线最新版中文| 国产无套粉嫩白浆在线|