大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

OpenAI未公開的o3用圖思考技術,被小紅書、西安交大嘗試實現了

0
分享至



OpenAI 推出的 o3 推理模型,打破了傳統文字思維鏈的邊界 —— 多模態模型首次實現將圖像直接融入推理過程。它不僅 “看圖”,還能 “用圖思考”,開啟了視覺與文本推理深度融合的問題求解方式。例如,面對一張物理試卷圖像,o3 能自動聚焦公式區域,分析變量關系,并結合知識庫推導出答案;在解析建筑圖紙時,o3 可在推理過程中旋轉或裁剪局部結構,判斷承重設計是否合理。這種 “Thinking with Images” 的能力,使 o3 在視覺推理基準測試 V* Bench 上準確率飆升至 95.7%,刷新了多模態模型的推理上限。

然而,OpenAI 如何賦予 o3 這一能力,學界和工業界仍不得而知。為此,小紅書團隊聯合西安交通大學,采用端到端強化學習,在完全不依賴監督微調(SFT)的前提下,激發了大模型 “以圖深思” 的潛能,構建出多模態深度思考模型 DeepEyes,首次實現了與 o3 類似的用圖像進行思考的能力,并已同步開源相關技術細節,讓 “用圖像思考” 不再是 OpenAI 專屬。



  • 論文地址:https://arxiv.org/abs/2505.14362
  • 項目地址:https://visual-agent.github.io/
  • Github 地址:https://github.com/Visual-Agent/DeepEyes

用圖像進行思考

近期,受到 R1 的啟發,出現不少多模態模型采用以文本為核心的思考方式,即 “先看后想”—— 模型先觀察圖像,再通過純文本推理來解決復雜的多模態問題。然而,這種方法存在顯著局限:一旦進入推理階段,模型無法 “回看圖像” 來補充或驗證細節信息,容易導致理解偏差或信息缺失。

相比較之下,更為有效的多模思考方式應是 “邊看邊想”—— 模型在推理過程中能夠動態地調用圖像信息,結合視覺與語言的交替交互,從而增強對細節的感知與理解。這種把圖像融入思考過程不僅提升了模型應對復雜任務的靈活性,也顯著增強了其多模態理解與推理能力。

我們先簡單感受一下 DeepEyes 和 o3 是如何結合圖像進行推理的!





DeepEyes 與 o3 的推理流程對比

我們使用與 OpenAI o3 官方評測中相同的圖像進行測試。測試用戶提出問題 “What is written on the sign?”(牌子上寫了什么?),DeepEyes 展現出與 o3 類似的 “用圖像思考” 的能力,整個過程可分為三步:

第一步:全局視覺分析

模型快速掃描圖像,利用自身的視覺感知能力精準鎖定畫面中的矩形牌子區域,并識別其為文字信息載體。

第二步:智能工具調用

鑒于原圖中文字區域分辨率較低,模型自主決策調用圖像縮放工具,生成邊界框并裁剪放大目標區域,使內容清晰可辨。

第三步:細節推理識別

在清晰圖像的基礎上,模型結合視覺和文本推理能力,準確識別并輸出牌子上的文字:Ochsner URGENT CARE。

整個流程無需依賴任何外部 OCR 工具,純粹通過模型內部的定位、變換和推理完成識別任務,充分展示了 DeepEyes 原生的 “看圖思考” 能力。

DeepEyes:激發模型原生的用圖像思考能力

一、模型結構



DeepEyes 的架構與傳統多模態推理模型一致,但在推理流程上引入了 “自驅動視覺聚焦” 機制。推理起始階段,模型首先基于文本內容構建初步思維鏈。例如,在判斷 “手機與背包的位置關系” 這一問題時,模型會生成內部推理如:“需要確定手機與背包的位置,可能需在圖像中定位相關物體”。隨后,模型根據推理進展判斷是否需要圖像輔助信息。若問題涉及小物體、模糊區域或細節不清晰的區域,模型將自主生成邊界框坐標,裁剪圖像中可能包含關鍵信息的區域(如手機和背包位置),并聚焦這些區域進行深入分析。裁剪圖像隨后以自回歸方式重新輸入模型,作為新的視覺證據,與現有文本推理共同作用,驅動后續推理過程更加準確、具備視覺上下文感知能力。

二、如何獲得用圖像進行思考的能力?從生物進化的角度進行思考

直觀來看,如果希望模型掌握利用工具進行圖像分析的能力,就應提前準備一批調用工具的思維鏈數據,并通過監督微調(SFT)逐步訓練模型,從模仿過渡到真正掌握這種能力。不少多模態模型會采用「先監督,后強化」的訓練路徑:先用推理數據進行冷啟動,讓模型 “學會思考”,再通過強化學習(RL)提升其推理上限。

不過,這種能力形成的路徑與生物進化迥異。例如,生活在約 3.75 億年前的提塔利克魚是魚類向陸生脊椎動物演化的關鍵過渡物種。它并非通過模仿其他生物在陸地上的行為獲得生存能力,而是在水陸環境差異巨大、舊能力難以應對新環境時,原生出一種全新的適應機制 [Nature. 440 (7085): 757–763]。

類比來看,如果將大模型視作一種 “生物”,是否也能在訓練環境和獎勵結構發生巨大變化時,像提塔利克魚一樣,激發出原本不具備的新能力?



三、基于 outcome-based 獎勵的端到端強化學習策略

受提塔利克魚進化機制的啟發,我們設計了一套具備難度差異的數據集,用于有效激發大模型的工具使用能力。數據篩選和構建遵循以下三項原則:(1)剔除過難或過易的問題;(2)優先選取通過圖像分析工具可以顯著提升信息增益的樣本;(3)補充傳統推理數據,以維持圖像領域的推理能力。數據集的構建細節可參考原文及代碼實現。

在這套具備難度與獎勵差異的數據集上,我們發現,即使不經過 SFT 冷啟動,僅依賴端到端的強化學習,也能有效激發模型的調用工具進行圖像推理的能力。具體來說,DeepEyes 使用了如下的 outcome-based 獎勵函數:



獎勵函數分為準確率獎勵,格式獎勵,以及條件工具獎勵。準確率獎勵和格式獎勵與 R1 的獎勵類似,而條件工具獎勵則是只有當模型正確回答且正確使用工具才會給予額外的獎勵,指導模型在必要時候使用工具。

在上述獎勵函數的激勵下,DeepEyes 將在學習用圖像推理的過程中,從最開始的「盲目嘗試」,再到后期的「有效調用」,呈現出了與人類類似的學習模式。具體而言,學習過程可以分為三個階段:



1. 懵懂期(前 20 步):DeepEyes 像新手一樣亂點屏幕,隨便框選區域,結果十次有九次「瞄錯地方」,準確率較差;

2. 探索期(20-45 步):DeepEyes 開啟「廣撒網模式」,瘋狂調用工具縮放各種區域,雖然準確率提升,但像「多動癥患者」一樣生成冗長響應;

3. 成熟期(45 步后):DeepEyes 突然「開悟」,學會先在腦子里「預判」關鍵區域,再精準縮放驗證,工具調用次數不斷減少,準確率卻持續提升。

DeepEyes 性能評估







DeepEyes 在多個測試集上表現出色,尤其在視覺搜索任務中展現出領先優勢。在 V* Bench 上取得了90.1的準確率,在 HR-Bench 上也大幅超越現有的基于工作流的方法。另外,DeepEyes 7B 模型在視覺搜索任務中顯出高于 Qwen-VL 32B 模型,這也進一步說明了構建用圖像思考能力的必要性。

值得一提的是,DeepEyes 在無需調用任何外部工具的情況下,便具備出色的圖像定位與理解能力,這些能力完全由模型自身學習獲得。同時,當需要更高精度時,DeepEyes 也可以選擇調用工具對圖像細節進行確認,從而在降低幻覺方面取得改進。

此外,除了視覺感知,DeepEyes 的數學推理能力也有明顯提升,展現出多模態模型在跨任務能力上的潛力。

DeepEyes 的獨特優勢

與傳統的基于工作流或純文本推理的模型相比,DeepEyes 具備以下關鍵優勢:

1. 訓練更簡潔:傳統方法依賴大量難以構建的 SFT 數據,而 DeepEyes 僅需問答對即可訓練,大幅降低數據獲取門檻。

2. 更強泛化能力:基于工作流的模型受限于人工規則設計,適用范圍有限。DeepEyes 通過端到端強化學習,能在不同任務中動態選擇推理路徑,展現出跨任務泛化能力。

3. 端到端聯合優化:工作流方法通常對各子模塊獨立優化,容易陷入次優。DeepEyes 通過端到端強化學習實現全局聯合優化,顯著提升整體性能。

4. 深度多模態融合:相比純文本推理,DeepEyes 構建融合視覺與文本的思維鏈,在推理過程中動態交織圖像與語言信息,提升感知與決策精度。

5. 原生工具調用能力:DeepEyes 依靠內生視覺定位能力而非外部工具,能原生執行 “圖像思考” 流程。工具使用過程可被直接優化,實現更高效、更準確的圖像輔助推理,這是傳統外部調用方法所不具備的能力。

結語

DeepEyes 展示了多模態推理模型的新范式:無需依賴復雜工作流或大規模監督數據,通過端到端強化學習,即可實現視覺與文本深度融合、原生工具調用和動態推理路徑選擇。它不僅降低了訓練門檻,還顯著提升了泛化能力和整體性能。在多個視覺推理任務中,DeepEyes 已成功展現出與 OpenAI o3 相當的 “圖像思考” 能力,為開放世界的多模態智能探索提供了切實可行的新路徑。

作者介紹

本文作者來自小紅書和西安交通大學,其中鄭子維、Michael Yang、Jack Hong 和 Chenxiao Zhao 為共同一作,排名不分先后。鄭子維,就讀于西安交通大學,主要研究方向是 VLM Reasoning、Agent 以及視頻理解;Michael Yang 的研究方向是 RL、LLM Reasoning 以及 Agent;Jack Hong 的研究方向為多模態大模型、LLM Reasoning 以及計算機視覺;Chenxiao Zhao 是小紅書 Hi Lab 算法研究員,主要研究方向是 RL。該工作是鄭子維、Michael Yang 和 Jack Hong 在小紅書實習期間完成。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗要變天了

伊朗要變天了

戰爭研究所
2025-06-13 23:40:34
國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

小嵩
2025-06-14 08:49:51
曝清華博士后出軌多名女性,女方高顏值照流出,事發全過程披露

曝清華博士后出軌多名女性,女方高顏值照流出,事發全過程披露

博士觀察
2025-06-14 19:54:04
國家電力局長意外被捕!居然早成美國間諜,被捕時叫囂我是美國人,被判5年監禁后驅離出境

國家電力局長意外被捕!居然早成美國間諜,被捕時叫囂我是美國人,被判5年監禁后驅離出境

大白聊IT
2025-06-14 22:40:59
上海航空突發!機艙內冒出濃煙!有人涉嫌違規…乘客礦泉水接力撲救,“劫后余生的感覺”

上海航空突發!機艙內冒出濃煙!有人涉嫌違規…乘客礦泉水接力撲救,“劫后余生的感覺”

上觀新聞
2025-06-14 11:57:34
鳳凰傳奇出事了,曾毅手表事件后又被爆出新料,青島演唱會要涼?

鳳凰傳奇出事了,曾毅手表事件后又被爆出新料,青島演唱會要涼?

陳博世財經
2025-06-14 14:28:17
最新戰況:以色列損失慘重,F-35被擊落,到處都是爆炸聲

最新戰況:以色列損失慘重,F-35被擊落,到處都是爆炸聲

時時有聊
2025-06-14 11:54:59
伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

看看新聞Knews
2025-06-14 20:25:47
打不過就加入?印度網紅模仿豪哥哥穿唐裝、用咖喱味中文嘲諷國足

打不過就加入?印度網紅模仿豪哥哥穿唐裝、用咖喱味中文嘲諷國足

史書無明
2025-06-14 15:53:27
身處異國他鄉的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

身處異國他鄉的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

南山青松
2025-06-11 17:01:44
30歲韋世豪6秒無解一條龍:華麗1V2單干+對手被晃暈 暴力抽射破門

30歲韋世豪6秒無解一條龍:華麗1V2單干+對手被晃暈 暴力抽射破門

風過鄉
2025-06-14 20:12:14
伊朗稱逮捕以色列F-35戰機飛行員

伊朗稱逮捕以色列F-35戰機飛行員

國際在線
2025-06-14 21:03:25
馬斯克吐槽:香港法官佩戴過時的假發,像是在清倉甩賣時買的!網友:28年了辮子都還沒剪掉

馬斯克吐槽:香港法官佩戴過時的假發,像是在清倉甩賣時買的!網友:28年了辮子都還沒剪掉

大白聊IT
2025-06-14 22:41:29
鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

妮妮玩不夠
2025-06-14 07:47:04
三航母時代即將到來!官方披露福建艦最新消息

三航母時代即將到來!官方披露福建艦最新消息

政知新媒體
2025-06-14 16:53:19
上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
憑什么以色列可以這樣,而俄羅斯卻不行?

憑什么以色列可以這樣,而俄羅斯卻不行?

清濱酒客
2025-06-13 15:28:28
恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

柳絮憶史
2025-06-14 07:10:03
印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

不掉線電波
2025-06-14 21:25:56
國防大學的教授也是一個水貨

國防大學的教授也是一個水貨

回旋鏢
2025-06-14 15:59:57
2025-06-15 04:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
數碼
親子
公開課
軍事航空

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

數碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

親子要聞

給18個月幼兒灌酒,無論出于什么心態都不該寬恕|新京報快評

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文无码乱人伦中文视频在线v| 桃花综合久久久久久久久久网| 亚洲综合无码久久精品综合| 欧美日韩国产一区二区三区不卡| 人妻无码一区二区视频| 国产99久久亚洲综合精品西瓜tv| 丰满人妻一区二区三区视频53| 亚洲高清国产拍精品熟女| 亚洲日韩一区精品射精| 亚洲精品无码久久久久y| 99久久精品美女高潮喷水| 日韩国产亚洲欧美成人图片| 久久精品国内一区二区三区| 日韩中文无码有码免费视频| 波多野结衣中文字幕一区二区三区| 亚洲国产精品一区二区www| 精品无码专区久久久水蜜桃| 亚洲av无码国产一区二区| 国产在线不卡精品网站| 亚洲国产精品久久久久秋霞影院| 免费少妇a级毛片人成网| 亚洲精品自产拍在线观看动漫| 动漫精品中文无码卡通动漫| 国产一区二区三四区| 国产在线精品一区二区不卡顿| 国产亚洲情侣一区二区无| 午夜理论无码片在线观看免费| 亚洲av成人www永久无码精品| 欧洲熟妇色xxxx欧美老妇多毛网站| 人妻体内射精一区二区三四| 亚洲国产精品无码一线岛国| 亚洲人成网站在线在线观看| 国产成人无码区免费内射一片色欲| 国产十八禁在线观看免费| 免费的美女色视频网站| 国产精品爱久久久久久久小说| 精品熟人妻一区二区三区四区不卡| 少妇私密推油呻吟在线播放| s级爆乳玩具酱国产vip皮裤| 蜜桃av抽搐高潮一区二区| 国产国拍亚洲精品av在线|