OpenAI 推出的 o3 推理模型,打破了傳統文字思維鏈的邊界 —— 多模態模型首次實現將圖像直接融入推理過程。它不僅 “看圖”,還能 “用圖思考”,開啟了視覺與文本推理深度融合的問題求解方式。例如,面對一張物理試卷圖像,o3 能自動聚焦公式區域,分析變量關系,并結合知識庫推導出答案;在解析建筑圖紙時,o3 可在推理過程中旋轉或裁剪局部結構,判斷承重設計是否合理。這種 “Thinking with Images” 的能力,使 o3 在視覺推理基準測試 V* Bench 上準確率飆升至 95.7%,刷新了多模態模型的推理上限。
然而,OpenAI 如何賦予 o3 這一能力,學界和工業界仍不得而知。為此,小紅書團隊聯合西安交通大學,采用端到端強化學習,在完全不依賴監督微調(SFT)的前提下,激發了大模型 “以圖深思” 的潛能,構建出多模態深度思考模型 DeepEyes,首次實現了與 o3 類似的用圖像進行思考的能力,并已同步開源相關技術細節,讓 “用圖像思考” 不再是 OpenAI 專屬。
- 論文地址:https://arxiv.org/abs/2505.14362
- 項目地址:https://visual-agent.github.io/
- Github 地址:https://github.com/Visual-Agent/DeepEyes
用圖像進行思考
近期,受到 R1 的啟發,出現不少多模態模型采用以文本為核心的思考方式,即 “先看后想”—— 模型先觀察圖像,再通過純文本推理來解決復雜的多模態問題。然而,這種方法存在顯著局限:一旦進入推理階段,模型無法 “回看圖像” 來補充或驗證細節信息,容易導致理解偏差或信息缺失。
相比較之下,更為有效的多模思考方式應是 “邊看邊想”—— 模型在推理過程中能夠動態地調用圖像信息,結合視覺與語言的交替交互,從而增強對細節的感知與理解。這種把圖像融入思考過程不僅提升了模型應對復雜任務的靈活性,也顯著增強了其多模態理解與推理能力。
我們先簡單感受一下 DeepEyes 和 o3 是如何結合圖像進行推理的!
DeepEyes 與 o3 的推理流程對比
我們使用與 OpenAI o3 官方評測中相同的圖像進行測試。測試用戶提出問題 “What is written on the sign?”(牌子上寫了什么?),DeepEyes 展現出與 o3 類似的 “用圖像思考” 的能力,整個過程可分為三步:
第一步:全局視覺分析
模型快速掃描圖像,利用自身的視覺感知能力精準鎖定畫面中的矩形牌子區域,并識別其為文字信息載體。
第二步:智能工具調用
鑒于原圖中文字區域分辨率較低,模型自主決策調用圖像縮放工具,生成邊界框并裁剪放大目標區域,使內容清晰可辨。
第三步:細節推理識別
在清晰圖像的基礎上,模型結合視覺和文本推理能力,準確識別并輸出牌子上的文字:Ochsner URGENT CARE。
整個流程無需依賴任何外部 OCR 工具,純粹通過模型內部的定位、變換和推理完成識別任務,充分展示了 DeepEyes 原生的 “看圖思考” 能力。
DeepEyes:激發模型原生的用圖像思考能力
一、模型結構
DeepEyes 的架構與傳統多模態推理模型一致,但在推理流程上引入了 “自驅動視覺聚焦” 機制。推理起始階段,模型首先基于文本內容構建初步思維鏈。例如,在判斷 “手機與背包的位置關系” 這一問題時,模型會生成內部推理如:“需要確定手機與背包的位置,可能需在圖像中定位相關物體”。隨后,模型根據推理進展判斷是否需要圖像輔助信息。若問題涉及小物體、模糊區域或細節不清晰的區域,模型將自主生成邊界框坐標,裁剪圖像中可能包含關鍵信息的區域(如手機和背包位置),并聚焦這些區域進行深入分析。裁剪圖像隨后以自回歸方式重新輸入模型,作為新的視覺證據,與現有文本推理共同作用,驅動后續推理過程更加準確、具備視覺上下文感知能力。
二、如何獲得用圖像進行思考的能力?從生物進化的角度進行思考
直觀來看,如果希望模型掌握利用工具進行圖像分析的能力,就應提前準備一批調用工具的思維鏈數據,并通過監督微調(SFT)逐步訓練模型,從模仿過渡到真正掌握這種能力。不少多模態模型會采用「先監督,后強化」的訓練路徑:先用推理數據進行冷啟動,讓模型 “學會思考”,再通過強化學習(RL)提升其推理上限。
不過,這種能力形成的路徑與生物進化迥異。例如,生活在約 3.75 億年前的提塔利克魚是魚類向陸生脊椎動物演化的關鍵過渡物種。它并非通過模仿其他生物在陸地上的行為獲得生存能力,而是在水陸環境差異巨大、舊能力難以應對新環境時,原生出一種全新的適應機制 [Nature. 440 (7085): 757–763]。
類比來看,如果將大模型視作一種 “生物”,是否也能在訓練環境和獎勵結構發生巨大變化時,像提塔利克魚一樣,激發出原本不具備的新能力?
三、基于 outcome-based 獎勵的端到端強化學習策略
受提塔利克魚進化機制的啟發,我們設計了一套具備難度差異的數據集,用于有效激發大模型的工具使用能力。數據篩選和構建遵循以下三項原則:(1)剔除過難或過易的問題;(2)優先選取通過圖像分析工具可以顯著提升信息增益的樣本;(3)補充傳統推理數據,以維持圖像領域的推理能力。數據集的構建細節可參考原文及代碼實現。
在這套具備難度與獎勵差異的數據集上,我們發現,即使不經過 SFT 冷啟動,僅依賴端到端的強化學習,也能有效激發模型的調用工具進行圖像推理的能力。具體來說,DeepEyes 使用了如下的 outcome-based 獎勵函數:
獎勵函數分為準確率獎勵,格式獎勵,以及條件工具獎勵。準確率獎勵和格式獎勵與 R1 的獎勵類似,而條件工具獎勵則是只有當模型正確回答且正確使用工具才會給予額外的獎勵,指導模型在必要時候使用工具。
在上述獎勵函數的激勵下,DeepEyes 將在學習用圖像推理的過程中,從最開始的「盲目嘗試」,再到后期的「有效調用」,呈現出了與人類類似的學習模式。具體而言,學習過程可以分為三個階段:
1. 懵懂期(前 20 步):DeepEyes 像新手一樣亂點屏幕,隨便框選區域,結果十次有九次「瞄錯地方」,準確率較差;
2. 探索期(20-45 步):DeepEyes 開啟「廣撒網模式」,瘋狂調用工具縮放各種區域,雖然準確率提升,但像「多動癥患者」一樣生成冗長響應;
3. 成熟期(45 步后):DeepEyes 突然「開悟」,學會先在腦子里「預判」關鍵區域,再精準縮放驗證,工具調用次數不斷減少,準確率卻持續提升。
DeepEyes 性能評估
DeepEyes 在多個測試集上表現出色,尤其在視覺搜索任務中展現出領先優勢。在 V* Bench 上取得了90.1的準確率,在 HR-Bench 上也大幅超越現有的基于工作流的方法。另外,DeepEyes 7B 模型在視覺搜索任務中顯出高于 Qwen-VL 32B 模型,這也進一步說明了構建用圖像思考能力的必要性。
值得一提的是,DeepEyes 在無需調用任何外部工具的情況下,便具備出色的圖像定位與理解能力,這些能力完全由模型自身學習獲得。同時,當需要更高精度時,DeepEyes 也可以選擇調用工具對圖像細節進行確認,從而在降低幻覺方面取得改進。
此外,除了視覺感知,DeepEyes 的數學推理能力也有明顯提升,展現出多模態模型在跨任務能力上的潛力。
DeepEyes 的獨特優勢
與傳統的基于工作流或純文本推理的模型相比,DeepEyes 具備以下關鍵優勢:
1. 訓練更簡潔:傳統方法依賴大量難以構建的 SFT 數據,而 DeepEyes 僅需問答對即可訓練,大幅降低數據獲取門檻。
2. 更強泛化能力:基于工作流的模型受限于人工規則設計,適用范圍有限。DeepEyes 通過端到端強化學習,能在不同任務中動態選擇推理路徑,展現出跨任務泛化能力。
3. 端到端聯合優化:工作流方法通常對各子模塊獨立優化,容易陷入次優。DeepEyes 通過端到端強化學習實現全局聯合優化,顯著提升整體性能。
4. 深度多模態融合:相比純文本推理,DeepEyes 構建融合視覺與文本的思維鏈,在推理過程中動態交織圖像與語言信息,提升感知與決策精度。
5. 原生工具調用能力:DeepEyes 依靠內生視覺定位能力而非外部工具,能原生執行 “圖像思考” 流程。工具使用過程可被直接優化,實現更高效、更準確的圖像輔助推理,這是傳統外部調用方法所不具備的能力。
結語
DeepEyes 展示了多模態推理模型的新范式:無需依賴復雜工作流或大規模監督數據,通過端到端強化學習,即可實現視覺與文本深度融合、原生工具調用和動態推理路徑選擇。它不僅降低了訓練門檻,還顯著提升了泛化能力和整體性能。在多個視覺推理任務中,DeepEyes 已成功展現出與 OpenAI o3 相當的 “圖像思考” 能力,為開放世界的多模態智能探索提供了切實可行的新路徑。
作者介紹
本文作者來自小紅書和西安交通大學,其中鄭子維、Michael Yang、Jack Hong 和 Chenxiao Zhao 為共同一作,排名不分先后。鄭子維,就讀于西安交通大學,主要研究方向是 VLM Reasoning、Agent 以及視頻理解;Michael Yang 的研究方向是 RL、LLM Reasoning 以及 Agent;Jack Hong 的研究方向為多模態大模型、LLM Reasoning 以及計算機視覺;Chenxiao Zhao 是小紅書 Hi Lab 算法研究員,主要研究方向是 RL。該工作是鄭子維、Michael Yang 和 Jack Hong 在小紅書實習期間完成。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.