中國團(tuán)隊讓AI擁有「視覺想象力」，像人類一樣腦補(bǔ)畫面來思考

2025-05-29 15:26:48　來源: 機(jī)器之心Pro

北京舉報

分享至

在人類的認(rèn)知過程中，視覺思維（Visual Thinking）扮演著不可替代的核心角色，這一現(xiàn)象貫穿于各個專業(yè)領(lǐng)域和日常生活的方方面面。

圖 1：需要借助「腦補(bǔ)」圖像進(jìn)行思考的真實(shí)世界任務(wù)。這些任務(wù)通常需要視覺預(yù)見性和想象力，僅憑基于文本的思考無法完全實(shí)現(xiàn)。

生物化學(xué)家在探索新的治療途徑時，會在腦海中構(gòu)建蛋白質(zhì)的三維立體結(jié)構(gòu)，通過視覺化的分子間相互作用來理解復(fù)雜的生化過程；法醫(yī)分析師在破解疑難案件時，需要在心中重建犯罪現(xiàn)場的空間布局，通過視覺推理來驗證證據(jù)之間的邏輯連接；建筑師在設(shè)計創(chuàng)新建筑時，會在腦海中不斷勾勒和修正建筑草圖，通過視覺想象來優(yōu)化空間配置和光照效果；籃球運(yùn)動員在制定戰(zhàn)術(shù)策略時，需要在腦海中構(gòu)想隊友的跑位路線、防守陣型的變化以及關(guān)鍵時刻的戰(zhàn)術(shù)配合，通過視覺化的場景想象來設(shè)計最佳的進(jìn)攻方案；在日常決策中，一般人也會通過「腦補(bǔ)」各種可能的場景圖像來輔助判斷和選擇，用腦海中自發(fā)生成的圖像作為認(rèn)知媒介。

這種視覺思維能力的獨(dú)特之處在于，它能夠創(chuàng)造概念間的獨(dú)特組合和新穎連接，幫助我們發(fā)現(xiàn)僅通過純文本推理無法獲得的洞察和創(chuàng)意。而在現(xiàn)代認(rèn)知科學(xué)中，這種「深思熟慮」往往需要多模態(tài)的思維過程來支撐。

如今，AI 也邁出了這一步：上海交通大學(xué)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)和 Generative AI Research Lab（GAIR）的團(tuán)隊提出Thinking with Generated Images，讓大模型能夠自發(fā)生成視覺中間步驟，像人類一樣用「腦內(nèi)圖像」進(jìn)行跨模態(tài)推理。

論文鏈接：https://arxiv.org/abs/2505.22525
代碼鏈接：https://github.com/GAIR-NLP/thinking-with-generated-images
模型鏈接 1：https://huggingface.co/GAIR/twgi-critique-anole-7b
模型鏈接 2：https://huggingface.co/GAIR/twgi-subgoal-anole-7b

突破性理念：

從「看圖像」到「腦補(bǔ)圖像」— 視覺思維的遞進(jìn)進(jìn)化

如何讓模型自發(fā)性地通過視覺進(jìn)行「思考」仍屬于早期探索階段。此前的一些工作嘗試通過空間搜索任務(wù)（如迷宮導(dǎo)航）進(jìn)行早期探索，但這些任務(wù)的局限性在于它們往往可以直接通過文本思考或「對著」圖像思考（Thinking with Images）來解決，而不需要真正的「腦補(bǔ)」圖像思考（Thinking with Generated Images）。

Thinking with Generated Images 系統(tǒng)性地整理并比較了三個核心概念的本質(zhì)區(qū)別及其適用任務(wù)的差異：

「看」圖像（Seeing with Images）：模型僅在單次前向傳播中處理用戶提供的固定圖像，主要適用于基礎(chǔ)的視覺識別任務(wù)，如物體檢測、圖像分類等。這種模式下，模型只是被動地「觀察」圖像內(nèi)容。在這個過程中，整個 AI 的思維過程完全發(fā)生在文本模態(tài)中，圖像僅僅作為一個固定的先驗條件，無法參與到動態(tài)的推理過程中。這也是大多數(shù)現(xiàn)有的大型多模態(tài)模型（Large Multimodal Models, LMMs）或視覺語言模型（Vision-Language Models, VLMs）的預(yù)設(shè)模式。
「對著」圖像思考（Thinking with Images）：模型能夠多次訪問或?qū)ΜF(xiàn)有圖像進(jìn)行有限變換（如裁剪、旋轉(zhuǎn)、代碼執(zhí)行器、OCR、圖像處理工具），適用于需要多步視覺推理的任務(wù)，如視覺問答、圖表解讀、空間推理等?！笇χ箞D像思考雖然在一定程度上改善了模型的視覺推理能力，但仍然受到一個核心約束：它們只能處理用戶預(yù)先提供的固定圖像或?qū)@些圖像進(jìn)行簡單變換，被動處理用戶提供的圖像，無法真正做到從零開始構(gòu)建新的視覺概念。
「腦補(bǔ)」圖像思考（Thinking with Generated Images）：模型能夠主動生成中間視覺步驟作為推理過程的一部分，適用于需要視覺想象、創(chuàng)造性設(shè)計、空間規(guī)劃、以及與物理世界環(huán)境交互感知的復(fù)雜任務(wù)。這種模式在需要視覺預(yù)見性（visual foresight）和創(chuàng)造性想象的任務(wù)上具有最大優(yōu)勢，因為純文本推理無法充分表達(dá)這些任務(wù)所需的空間和視覺信息。

研究團(tuán)隊特別強(qiáng)調(diào)，「腦補(bǔ)」圖像思考在需要空間想象、動態(tài)規(guī)劃和創(chuàng)造性視覺構(gòu)建的任務(wù)上相比于純文本推理具有根本性優(yōu)勢，這正是人類視覺思維的核心價值所在。

圖 2：區(qū)分「看」圖像、「對著」圖像思考、「腦補(bǔ)」圖像思考的例子。

技術(shù)實(shí)現(xiàn)方案：

自發(fā)原生多模態(tài)長思維鏈

研究團(tuán)隊創(chuàng)新性地提出了「原生多模態(tài)長思維過程」（the native long-multimodal thought process）這一核心技術(shù)框架實(shí)現(xiàn)「腦補(bǔ)」圖像思考。原生多模態(tài)長思維過程由交錯的多模態(tài) token 組成：包括文本的詞匯或子詞（words/subwords）、視覺的圖像塊（patches）等。

未來有更通用的基座模型后也能推廣到音頻的幀（frames），以及其他模態(tài)領(lǐng)域特定的表示形式（domain-specific representations）。原生多模態(tài)長思維過程不僅能夠讓模型在思維過程中自然地自發(fā)生成圖像，還能夠原生地執(zhí)行測試時擴(kuò)展（test-time scaling）以獲得更好的模型能力。透過原生多模態(tài)長思維過程實(shí)現(xiàn) Thinking with Generated Images 有四大主要優(yōu)勢：

跨模態(tài)原生思維能力：通過單次推理過程即可「原生」地生成多模態(tài)的 tokens，使模型能夠自然無縫地跨模態(tài)進(jìn)行「思考」。
統(tǒng)一生成式任務(wù)執(zhí)行：通過生成式范式原生地執(zhí)行多樣化的多模態(tài)任務(wù)。
自然測試時擴(kuò)展機(jī)制：通過生成的「長」思維過程提供自然跨模態(tài)的測試時擴(kuò)展，使模型能夠通過生成更長、更詳細(xì)的多模態(tài)長思維過程，在推理時投入更多計算來提升性能質(zhì)量。
未來技術(shù)集成兼容性和可擴(kuò)展性：單一模型集成的架構(gòu)便于未來與強(qiáng)化學(xué)習(xí)等訓(xùn)練后擴(kuò)展技術(shù)的集成，簡化了訓(xùn)練和推理持續(xù)擴(kuò)展的復(fù)雜度。

兩種自發(fā)原生多模態(tài)長思維鏈模式

研究團(tuán)隊深入分析人類多模態(tài)長思維的認(rèn)知模式，據(jù)此設(shè)計并提出了兩種原生多模態(tài)長思維鏈模式，應(yīng)用于視覺生成任務(wù)上，最大的體現(xiàn) Thinking with Generated Images 的優(yōu)勢：

視覺子目標(biāo)分解（Vision Generation with Intermediate Visual Subgoals）：視覺子目標(biāo)分解模擬了人類在處理復(fù)雜視覺任務(wù)時的分而治之策略。面對較為復(fù)雜或多物體的視覺生成任務(wù)（如「一張沙發(fā)和一個酒杯」），模型首先進(jìn)行整體性的分析，將大的視覺任務(wù)拆解成小的目標(biāo)，分步生成沙發(fā)和酒杯的獨(dú)立圖像，再組合成最終結(jié)果。每個中間圖像都承載了特定的子目標(biāo)語義，不僅是視覺內(nèi)容的載體，更是推理過程中的「思維節(jié)點(diǎn)」。視覺子目標(biāo)分解允許模型在處理復(fù)雜視覺生成任務(wù)時保持對細(xì)節(jié)的精確控制，避免了直接生成復(fù)雜圖像時可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問題。

圖 3：原生多模態(tài)長思維鏈在GenEval上的例子。

提出視覺假設(shè)并自我反思迭代（Vision Generation with Self-Critique）：提出視覺假設(shè)并自我反思迭代體現(xiàn)了人類創(chuàng)作過程中的「草稿-修改-完善」循環(huán)機(jī)制。模型首先基于輸入提示生成一個初始的視覺假設(shè)圖像，這個假設(shè)通常包含了對任務(wù)的基本理解但可能存在各種不完善之處。模型隨后以文本反思形式對自己生成的圖像進(jìn)行深入的多角度分析，包括內(nèi)容完整性檢查（如「圖像缺乏雨傘」）、視覺質(zhì)量評估（如「更清晰的海景化」）、語義一致性驗證（如「更清楚的展示冰淇淋的融化」）、構(gòu)圖合理性判斷（如「增強(qiáng)圖像對比度」）等等。模型通過建立視覺假設(shè)、批判性分析、策略性改進(jìn)的迭代過程來逐步優(yōu)化生成結(jié)果，實(shí)現(xiàn)了視覺和文本模態(tài)之間的深度協(xié)同，形成了一個有效的自我改進(jìn)反饋循環(huán)，顯著提升了生成圖像的質(zhì)量和準(zhǔn)確性。

圖 4：原生多模態(tài)長思維鏈在DPG-Bench上的例子。

自發(fā)原生多模態(tài)長思維鏈在多模態(tài)統(tǒng)一理解生成模型的實(shí)現(xiàn)

研究團(tuán)隊選擇在自回歸 next-token-prediction 的多模態(tài)統(tǒng)一理解生成模型上開發(fā)原生多模態(tài)長思維鏈，這一決策基于幾個層次的技術(shù)考慮：

自回歸架構(gòu)與人類思維過程的天然契合性。人類的思維過程本質(zhì)上是序列化的——我們在思考復(fù)雜問題時，會逐步構(gòu)建想法，從一個概念過渡到另一個概念，在文本思考和視覺想象之間自然切換。自回歸模型通過逐 token 生成的方式，能夠最自然地模擬這種漸進(jìn)式、序列化的思維展開過程。
統(tǒng)一架構(gòu)的簡潔性和可擴(kuò)展性優(yōu)勢。相比于需要協(xié)調(diào)多個獨(dú)立組件的復(fù)雜系統(tǒng)架構(gòu)，自回歸統(tǒng)一模型提供了一個優(yōu)雅的解決方案。在這種架構(gòu)下，文本推理、視覺生成、自我批判等所有能力都統(tǒng)一在同一個模型中，避免了多組件系統(tǒng)中常見的信息傳遞損失、同步協(xié)調(diào)復(fù)雜性等問題。
與現(xiàn)有技術(shù)生態(tài)的深度兼容性。當(dāng)前大語言模型領(lǐng)域已經(jīng)在自回歸架構(gòu)上積累了豐富的訓(xùn)練技巧、優(yōu)化方法和推理技術(shù)。選擇這一架構(gòu)使得研究團(tuán)隊能夠直接繼承和利用這些成熟的技術(shù)成果，而不需要從零開始構(gòu)建全新的技術(shù)棧。
未來發(fā)展的技術(shù)路徑一致性。隨著計算能力的不斷提升和算法的持續(xù)優(yōu)化，自回歸架構(gòu)展現(xiàn)出了強(qiáng)大的擴(kuò)展?jié)摿?。選擇這一技術(shù)路徑確保了研究成果能夠與未來的技術(shù)發(fā)展趨勢保持一致，具備長期的技術(shù)價值。

在確定了自回歸架構(gòu)的技術(shù)路線后，團(tuán)隊選擇 Anole 作為基礎(chǔ)模型。目前大多數(shù)模型都缺乏真正的交錯多模態(tài)生成能力，而這正是實(shí)現(xiàn)「原生多模態(tài)長思維過程」的關(guān)鍵技術(shù)瓶頸。Anole 相比其他多模態(tài)模型具有兩個關(guān)鍵優(yōu)勢：

原生交錯生成能力：Anole 直接在交錯的文本-圖像 token 上進(jìn)行預(yù)訓(xùn)練和后訓(xùn)練，具備了交錯生成多模態(tài) token 的固有能力，這是實(shí)現(xiàn)本研究目標(biāo)的基礎(chǔ)前提。
高效的視覺表示機(jī)制：Anole 采用相對高效的圖像表示方案，使得基于原生多模態(tài)長思維過程的測試時擴(kuò)展在合理的推理預(yù)算內(nèi)成為可能。

搭配原生多模態(tài)長思維過程解決了視覺推理的五大局限

研究團(tuán)隊提出的「原生多模態(tài)長思維過程 (the native long-multimodal thought process)」這一核心技術(shù)框架實(shí)現(xiàn)「腦補(bǔ)」圖像思考。與現(xiàn)有方案對比，該提出方案解決了五大局限：

擺脫用戶輸入依賴：過去的方法（如 OpenAI 的 o3 thinking with images）需用戶提供圖像作為推理起點(diǎn)，而原生多模態(tài)長思維過程能從零構(gòu)建視覺上下文，讓模型在無圖場景下也能自發(fā)地做多模態(tài)思考。
超越靜態(tài)圖像處理：目前的工具增強(qiáng)型模型通常只能裁剪、標(biāo)注或輕度編輯給定圖像；原生多模態(tài)長思維過程在推理鏈中動態(tài)生成全新的視覺假設(shè)，為創(chuàng)造性規(guī)劃與空間推演打開更大搜索空間。
端到端統(tǒng)一架構(gòu)：無需多模型協(xié)作或外部工具鏈，單一模型即可完成「生成-推理-反思-迭代」的全流程，部署與調(diào)用更加輕量。
可擴(kuò)展的測試時擴(kuò)展和未來后訓(xùn)練擴(kuò)展：原生多模態(tài)長思維過程天然支持測試時擴(kuò)展（test-time scaling），通過生成更長、更詳細(xì)的多模態(tài)長思維序列來提升性能。此外，該架構(gòu)為未來與強(qiáng)化學(xué)習(xí)、自我改進(jìn)等后訓(xùn)練技術(shù)的集成預(yù)留了充分空間。
實(shí)際落地的應(yīng)用場景：過去的相關(guān)研究往往專注于相對局限任務(wù)場景，如數(shù)學(xué)（幾何）題求解、迷宮導(dǎo)航、簡單的空間推理等。這些任務(wù)雖然在技術(shù)驗證上有一定價值，但存在一個根本性問題：它們大多可以通過純文本描述和邏輯推理來充分表達(dá)和解決。例如，迷宮問題可以用坐標(biāo)和路徑描述完全編碼，幾何題可以通過形式化語言和邏輯步驟來求解，這些任務(wù)并未真正發(fā)揮視覺思維的獨(dú)特優(yōu)勢。研究團(tuán)隊專注于解決那些無法通過純文本充分表達(dá)的復(fù)雜視覺推理任務(wù)，實(shí)現(xiàn)了從「專注于能用文本充分解決的視覺任務(wù)」到「專注于必須依賴視覺想象的復(fù)雜創(chuàng)造性任務(wù)」的認(rèn)知躍升。

Thinking with Generated Images 帶來的能力屬于全新維度，可與現(xiàn)有技術(shù)疊加協(xié)同。該研究著重提升的是「內(nèi)部想象-反思」的深度推理能力，而檢索增強(qiáng)、外部工具調(diào)用等技術(shù)，仍然在引入外部知識、擴(kuò)展功能等方面具備優(yōu)勢。

未來，當(dāng)這些能力并行疊加時，既能利用 Thinking with Generated Images 提出的「腦內(nèi)草圖」，也能借助現(xiàn)有檢索增強(qiáng)、外部工具調(diào)用等技術(shù)，形成 1+1>2 的整體效果。

圖 5：多模態(tài)認(rèn)知領(lǐng)域相關(guān)工作的對比

實(shí)驗設(shè)計

為了在多模態(tài)理解生成模型上實(shí)現(xiàn) Thinking with Generated Images 的自發(fā)原生多模態(tài)長思維鏈，研究團(tuán)隊在訓(xùn)練數(shù)據(jù)、訓(xùn)練策略、以及推理策略上都有深入的探索。

訓(xùn)練數(shù)據(jù)

研究團(tuán)隊精心設(shè)計了一套合成數(shù)據(jù)構(gòu)建流程，專門用于訓(xùn)練模型生成兩種類型的多模態(tài)長思維鏈。由于目前沒有現(xiàn)成的 LMM 模型支持多模態(tài)生成的測試時擴(kuò)展 (test-time scaling)，傳統(tǒng)蒸餾技術(shù)并不適用，團(tuán)隊創(chuàng)新性地開發(fā)了完整的數(shù)據(jù)構(gòu)建管線（如圖 6 所示）。

數(shù)據(jù)收集三大黃金法則：

高質(zhì)量圖像生成提示詞：采用 Deepseek-V3、GPT-4o、Claude3.7-Sonnet 和 Qwen2.5-72B-Instruct 頂尖模型生成復(fù)雜提示詞，通過規(guī)則過濾確保質(zhì)量，并借助 Qwen3-32B 將復(fù)雜視覺任務(wù)拆解成小的目標(biāo)。
高質(zhì)量反思推理鏈：借助 QVQ-72B-Preview 的強(qiáng)大長鏈推理能力，對每個提示-圖像對進(jìn)行準(zhǔn)確性評估、差異識別和改進(jìn)建議，并實(shí)現(xiàn)模型通過迭代分解獲得最終圖像的過程。
高質(zhì)量中間視覺思維：
初始生成：
使用 Anole-7b（自我批判）或 Flux1-dev（子目標(biāo)分解）。
精修階段：
Flux1-Redux 結(jié)合原始提示、首輪圖像和批判反饋進(jìn)行優(yōu)化。
最終生成：
基于前幾輪圖像及思考過程來生成最終結(jié)果。

最后通過 QVQ-72B-Preview 進(jìn)行嚴(yán)格的質(zhì)量控制，過濾與提示嚴(yán)重偏離的樣本。

技術(shù)亮點(diǎn)解析：

突破性數(shù)據(jù)架構(gòu)：專門為「視覺思維」范式優(yōu)化的統(tǒng)一數(shù)據(jù)結(jié)構(gòu)。
多模型協(xié)同：充分發(fā)揮各領(lǐng)域頂尖模型的專長，構(gòu)建訓(xùn)練樣本。
嚴(yán)格質(zhì)量把控：從提示詞到最終圖像的全流程質(zhì)量控制機(jī)制。

這一創(chuàng)新性的訓(xùn)練策略使得 LMM 模型能夠生成端到端的多模態(tài)長思維鏈，為「Thinking with Generated Images」的實(shí)現(xiàn)奠定了堅實(shí)基礎(chǔ)。這套方法論不僅適用于當(dāng)前研究，也將為未來多模態(tài)推理系統(tǒng)的開發(fā)提供重要參考。

圖 6：數(shù)據(jù)收集流水線示例

訓(xùn)練策略

在使用統(tǒng)一多模態(tài)模型進(jìn)行視覺生成任務(wù)的訓(xùn)練時，大多僅依賴交叉熵訓(xùn)練沒有完整的考慮圖像 token 之間的關(guān)系。

為了解決這個問題，研究團(tuán)隊引入了視覺特征級別的重建損失，將生成圖像的隱狀態(tài)投影回視覺特征空間，并計算與 ground-truth 圖像對應(yīng)特征之間的均方誤差 (MSE) 損失。這種設(shè)計鼓勵模型產(chǎn)生具有更強(qiáng)視覺連貫性和結(jié)構(gòu)完整性的輸出?；趦?yōu)化后損失函數(shù)，研究團(tuán)隊設(shè)計了系統(tǒng)性的兩階段訓(xùn)練流程：

基礎(chǔ)能力強(qiáng)化：使用 JourneyDB 圖文對數(shù)據(jù)集對 Anole-7b 進(jìn)行持續(xù)訓(xùn)練，增強(qiáng)模型的基礎(chǔ)視覺生成能力。這一階段為后續(xù)的專門化訓(xùn)練奠定了堅實(shí)的多模態(tài)基礎(chǔ)。
專門化微調(diào)：基于上述的合成數(shù)據(jù)集進(jìn)行模型訓(xùn)練，精細(xì)化調(diào)整兩個專門化模型：
TwGI-Anole-7b-Obj.：使用視覺子目標(biāo)分解數(shù)據(jù)集進(jìn)行微調(diào)，使其具備生成視覺中間子目標(biāo)的能力。
TwGI-Anole-7b-Crit.：使用視覺自我批判數(shù)據(jù)集進(jìn)行微調(diào)，使其具備自我批判視覺假設(shè)的能力。

這種分階段訓(xùn)練策略確保了模型既具備扎實(shí)的基礎(chǔ)多模態(tài)能力，又能在特定的思維模式上表現(xiàn)出色。

推理策略

與標(biāo)準(zhǔn)的視覺語言模型或大語言模型不同，統(tǒng)一多模態(tài)模型在進(jìn)行視覺生成任務(wù)時面臨著獨(dú)特的推理挑戰(zhàn)。為了充分發(fā)揮模型的性能潛力，無分類器引導(dǎo) (Classifier-Free Guidance, CFG) 技術(shù)成為提升視覺生成性能的關(guān)鍵。在傳統(tǒng)的完整條件 (full conditions)、無條件 (unconditions) 和圖像條件 (image conditions) 基礎(chǔ)上，研究團(tuán)隊增加了：

「原始提示條件」(Original Prompt Conditions)：確保生成過程始終與用戶的原始意圖保持一致。
「負(fù)面條件」(Negative Conditions)：避免生成不當(dāng)或無關(guān)的視覺內(nèi)容。

這種多條件設(shè)計的核心目標(biāo)是促使中間視覺步驟更加忠實(shí)于原始意圖，同時避免被生成的長文本思維過度干擾。通過在這些條件之間進(jìn)行精細(xì)化平衡，模型能夠：

充分利用長文本思維的指導(dǎo)作用：從詳細(xì)的文本推理中獲得有價值的語義信息和邏輯指導(dǎo)。
有效過濾思維過程中的潛在噪聲：避免被長思維序列中可能存在的無關(guān)信息或錯誤推理分散注意力。
保持視覺生成的一致性和質(zhì)量：確保最終輸出既符合原始提示要求，又體現(xiàn)了深度推理的成果。

在視覺生成任務(wù)上的結(jié)果分析

研究團(tuán)隊在 GenEval 和 DPGBench 兩個圖像生成基準(zhǔn)上對 TwGI-Anole-7b-Obj. 和 TwGI-Anole-7b-Crit. 進(jìn)行了全面的性能評估。

視覺子目標(biāo)分解模式的評估：視覺子目標(biāo)分解模擬了人類在處理復(fù)雜視覺任務(wù)時的分而治之策略。面對較為復(fù)雜或多物體的視覺生成任務(wù)（如「一張沙發(fā)和一個酒杯」），模型首先進(jìn)行整體性的分析，將大的視覺任務(wù)拆解成小的目標(biāo)，分步生成沙發(fā)和酒杯的獨(dú)立圖像，再組合成最終結(jié)果。每個中間圖像都承載了特定的子目標(biāo)語義，不僅是視覺內(nèi)容的載體，更是推理過程中的「思維節(jié)點(diǎn)」。視覺子目標(biāo)分解允許模型在處理復(fù)雜視覺生成任務(wù)時保持對細(xì)節(jié)的精確控制，避免了直接生成復(fù)雜圖像時可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問題。
視覺自我批判模式的評估：測試 TwGI-Anole-7b-Crit. 模型是否能夠糾正其初始視覺假設(shè)（圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (visual hypo.)），并生成更好的圖像生成結(jié)果（圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (final)）。

圖7: 在GenEval上的表現(xiàn)

圖8: 在DPG-Bench上的表現(xiàn)

中間視覺思維生成對視覺生成任務(wù)的顯著效益

實(shí)驗結(jié)果表明，TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 兩個基準(zhǔn)上都始終優(yōu)于基線模型 Anole-7b。在 GenEval 上，TwGI-Anole-7b-Obj 在「雙對象」類別中取得了顯著提升（0.57 vs. 0.38，相對提升 50%），表明其在處理涉及多個實(shí)體的復(fù)雜提示時具備了更強(qiáng)的能力。在位置和顏色屬性對齊方面也顯示出顯著改進(jìn)，體現(xiàn)了在精確空間和視覺構(gòu)圖推理方面的更強(qiáng)能力。

在 DPGBench 上，TwGI-Anole-7b-Obj 在「實(shí)體」、「屬性」和「關(guān)系」類別中都取得了實(shí)質(zhì)性進(jìn)步，總體分?jǐn)?shù)從 58.32 提升至 68.44（相對提升 17.3%），反映出其在細(xì)粒度視覺語義理解方面的增強(qiáng)能力。這些改進(jìn)驗證了我們的假設(shè)：將視覺任務(wù)分解為中間子目標(biāo)使得大語言模型能夠更系統(tǒng)地推理并生成更高質(zhì)量的輸出。

原生多模態(tài)長思維過程使模型能夠糾正和完善自身的視覺假設(shè)

視覺思維自我批判的實(shí)驗結(jié)果證明了讓模型反思和修正自身視覺輸出的有效性。TwGI-Anole-7b-Crit. 模型在自我批判步驟后性能顯著提升：GenEval 總分從 0.45 提升至 0.48，DPGBench 分?jǐn)?shù)從 62.83 提升至 67.14。這表明模型具備了內(nèi)省分析生成圖像的能力——通過基于視覺反饋的文本推理鏈，能夠識別不匹配、幻覺或遺漏的元素，并隨后進(jìn)行糾正。這種視覺反饋循環(huán)的有效性反映了一種模態(tài)間協(xié)同效應(yīng)，其中視覺和文本模態(tài)相互迭代指導(dǎo)，形成了真正的多模態(tài)智能推理機(jī)制。

這些結(jié)果共同驗證：在推理鏈中主動「畫草圖」或「打草稿」，不僅讓模型生成質(zhì)量更高、更可控，也帶來了深度理解與糾錯能力。

未來展望

Thinking with Generated Images 的能力未來有望推動 AI 在需要空間想象和動態(tài)規(guī)劃的領(lǐng)域?qū)崿F(xiàn)突破：

創(chuàng)造性設(shè)計：模型可逐步生成并迭代建筑草圖，同時用文本記錄調(diào)整理由（如「將窗戶東移以優(yōu)化采光」）。
科學(xué)發(fā)現(xiàn)：通過生成分子結(jié)構(gòu)的中間假設(shè)圖像，輔助生物學(xué)家驗證藥物結(jié)合路徑。
戰(zhàn)術(shù)規(guī)劃：讓 AI 籃球員「腦補(bǔ)」生成不同戰(zhàn)術(shù)配合的場上演示圖像，可視化球員跑位路線和防守破解策略。

《孫子兵法》說：「多算勝，少算不勝，而況于無算乎？」在文本時代，深思靠文字組成的思維鏈；在多模態(tài)時代，深思就需要通過多模態(tài)內(nèi)容的耦合，不僅要會觀察、調(diào)用工具，還要學(xué)會想象、反思、腦補(bǔ)。Thinking with Generated Images正在把這種能力「寫進(jìn)」模型本身，讓 AI 獲得人類的視覺想象力。

它不只是性能指標(biāo)的上漲，而是推理范式的突破；
它不只是會畫畫，而是把「畫畫」變成了思考的肌肉記憶；
它不只是一次概念驗證，更是給未來「多模態(tài) AGI」鋪了條高速公路。

當(dāng)機(jī)器從「看圖說話」升級到「無圖腦補(bǔ)」，真正的多模態(tài)推理時代，已敲響開場鑼鼓，讓我們拭目以待。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.