網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

首創(chuàng)像素空間推理，7B模型領(lǐng)先GPT-4o，讓AI能像人一樣眼腦并用

2025-06-09 17:51:27　來(lái)源: 量子位

北京舉報(bào)

分享至

Pixel Reasoner 團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

視覺(jué)語(yǔ)言模型（VLM）正經(jīng)歷從「感知」到「認(rèn)知」的關(guān)鍵躍遷。

當(dāng)OpenAI的o3系列通過(guò)「圖像思維」（Thinking with Images）讓模型學(xué)會(huì)縮放、標(biāo)記視覺(jué)區(qū)域時(shí)，我們看到了多模態(tài)交互的全新可能。

然而，當(dāng)前主流VLM仍被困在「文本繭房」中——依賴文本token間接翻譯視覺(jué)信息，在高清圖像中的微小物體、視頻里的動(dòng)態(tài)細(xì)節(jié)等場(chǎng)景中，常常因缺乏直接視覺(jué)操作能力而「視而不見」。

來(lái)自滑鐵盧大學(xué)、港科大、中科大的研究團(tuán)隊(duì)，首次將推理戰(zhàn)場(chǎng)從文本空間拓展到像素空間，提出「像素空間推理」（Pixel-Space Reasoning）范式。

這項(xiàng)突破讓VLM能像人類一樣「眼腦并用」：通過(guò)原生視覺(jué)操作直接與視覺(jué)信息對(duì)話，在像素級(jí)精度上解鎖視覺(jué)理解的新維度。

推理模式重構(gòu)：從「文本中介」到「視覺(jué)原生」

傳統(tǒng)VLM如同帶著「文本濾鏡」看世界：將圖像翻譯成文本token再推理，導(dǎo)致小字體、隱蔽物體等關(guān)鍵信息在轉(zhuǎn)換中丟失。而「像素空間推理」賦予模型「視覺(jué)手術(shù)刀」般的能力：

視覺(jué)主動(dòng)操作：模型可自主觸發(fā)視覺(jué)變焦（放大關(guān)鍵區(qū)域）、時(shí)空標(biāo)記（定位視頻動(dòng)態(tài)線索）等原生操作，在像素矩陣上直接完成「操作 - 分析 - 推斷」的閉環(huán)推理，避免了文本轉(zhuǎn)譯導(dǎo)致的信息衰減。
視覺(jué)主導(dǎo)推理：視覺(jué)操作成為推理演進(jìn)的核心驅(qū)動(dòng)力。例如圖例中，回答「咖啡杯 logo 品牌」時(shí)，模型先通過(guò)空間先驗(yàn)定位桌面區(qū)域，再通過(guò)視覺(jué)放大逐行掃描杯身，最終在像素級(jí)精度上提取 logo 特征。這種「視覺(jué)線索引導(dǎo)推理」的機(jī)制，使模型能捕捉傳統(tǒng)方法難以處理的空間關(guān)系與動(dòng)態(tài)細(xì)節(jié)，尤其在具身視覺(jué)導(dǎo)航、復(fù)雜視頻理解等場(chǎng)景中展現(xiàn)出顯著優(yōu)勢(shì)。

這種「眼腦協(xié)同」的推理模式，打破了文本對(duì)視覺(jué)語(yǔ)義的「翻譯牢籠」，讓模型真正具備了與人類視覺(jué)認(rèn)知同構(gòu)的推理能力。

學(xué)習(xí)陷阱破解：好奇心激勵(lì)突破認(rèn)知惰性困局

在能力遷移過(guò)程中，研究團(tuán)隊(duì)發(fā)現(xiàn)指令微調(diào)模型仍面臨「認(rèn)知惰性」帶來(lái)的嚴(yán)峻挑戰(zhàn)：成熟的文本推理能力與稚嫩的像素操作能力形成能力鴻溝，導(dǎo)致模型陷入「學(xué)習(xí)陷阱」：

1 負(fù)面反饋循環(huán)：初期視覺(jué)操作的低成功率引發(fā)大量負(fù)向信號(hào)，抑制模型使用新能力的意愿；
2 路徑依賴慣性：簡(jiǎn)單任務(wù)中模型更傾向調(diào)用已掌握的文本推理，形成「新能力退化」的惡性循環(huán)。

如同熟練的滑雪者初次嘗試沖浪，初期的失衡體驗(yàn)會(huì)讓人本能回歸熟悉領(lǐng)域，而忽視新技能的長(zhǎng)期價(jià)值。

為打破這一困境，研究團(tuán)隊(duì)設(shè)計(jì)了內(nèi)在好奇心激勵(lì)配合外在正確性激勵(lì)的強(qiáng)化學(xué)習(xí)獎(jiǎng)懲方案。通過(guò)引入內(nèi)在激勵(lì)鼓勵(lì)模型練習(xí)視覺(jué)操作，并引導(dǎo)模型逐步挖掘「像素空間推理」的潛在價(jià)值，而非僅依賴外在的正確性獎(jiǎng)勵(lì)。這就像幼兒學(xué)步時(shí)，對(duì)新鮮動(dòng)作的內(nèi)在好奇會(huì)驅(qū)動(dòng)其反復(fù)嘗試，即使每次嘗試都伴隨著跌倒。
因此，研究團(tuán)隊(duì)形式化出下面的約束優(yōu)化目標(biāo)

其中包含兩個(gè)關(guān)鍵約束用于有效激發(fā)「像素空間推理」

像素推理率約束（RaPR）
：要求模型至少以特定比率觸發(fā)像素空間推理，克服認(rèn)知惰性；
操作效率約束：
限制單次推理的視覺(jué)操作次數(shù)，在探索與計(jì)算成本間找到平衡。

通過(guò)拉格朗日松弛等效轉(zhuǎn)化為以下的獎(jiǎng)勵(lì)函數(shù)：

其中的內(nèi)在好奇心激勵(lì)（r_curiosity）會(huì)在模型低頻觸發(fā)「像素空間推理」時(shí)提供內(nèi)在激勵(lì)，如同為探索未知領(lǐng)域的冒險(xiǎn)者提供「勇氣加成」，降低嘗試新能力的機(jī)會(huì)成本。同時(shí)，隨著訓(xùn)練推進(jìn)，好奇心獎(jiǎng)勵(lì)會(huì)動(dòng)態(tài)衰減，確保模型最終聚焦于推理效率而非獎(jiǎng)勵(lì)投機(jī)，形成「好奇驅(qū)動(dòng)」到「效用驅(qū)動(dòng)」的良性過(guò)渡。

性能驗(yàn)證：7B 模型實(shí)現(xiàn)高效能突破

在四大視覺(jué)推理基準(zhǔn)測(cè)試中，基于Qwen2.5-VL-7B構(gòu)建的Pixel-Reasoner展現(xiàn)出碾壓級(jí)表現(xiàn)：

V* Bench（高清圖像推理）：
84.3%準(zhǔn)確率，超越GPT-4o（62.8%）和Gemini-2.5-Pro（79.2%）。
TallyQA-Complex（復(fù)雜場(chǎng)景計(jì)數(shù)）：
73.8%準(zhǔn)確率，較基線模型提升5.1%，能精準(zhǔn)區(qū)分圖像中相似物體的數(shù)量差異。
InfographicsVQA（信息圖表理解）：
84.0%準(zhǔn)確率，在混合文本與圖表的復(fù)雜場(chǎng)景中，推理準(zhǔn)確率達(dá)到Gemini-2.5-Pro水平。
MVBench（長(zhǎng)視頻推理）：
67.8%準(zhǔn)確率，通過(guò)像素空間的時(shí)空操作捕捉視頻中的關(guān)鍵視覺(jué)線索，時(shí)序推理能力領(lǐng)先GPT-4o 3.2%。

值得注意的是，僅7B參數(shù)的Pixel-Reasoner，性能全面超越27B的Gemma3等開源模型，甚至媲美部分閉源商業(yè)模型，展現(xiàn)出「小模型大能力」的高效特性。

此外，研究團(tuán)隊(duì)也進(jìn)行了細(xì)節(jié)的實(shí)驗(yàn)來(lái)分析模型「認(rèn)知惰性」帶來(lái)學(xué)習(xí)新推理能力的「學(xué)習(xí)陷阱」，為如何有效培養(yǎng)模型全新推理能力提供了深刻的啟示。

研究團(tuán)隊(duì)指出，像素空間推理并非對(duì)文本推理的替代，而是為VLM開啟了「第二思維通道」。當(dāng)視覺(jué)與語(yǔ)言雙軌并行，多模態(tài)模型才能真正理解世界的復(fù)雜性。

Pixel-Reasoner尚且是多模態(tài)推理范式的初步探索。從「看山是山」到「見微知著」，隨著多模態(tài)推理能力的進(jìn)一步發(fā)展，我們正迎來(lái)一個(gè)機(jī)器能「看得更細(xì)、想得更深」的智能時(shí)代。

論文地址：https://arxiv.org/pdf/2505.15966
項(xiàng)目主頁(yè)：https://tiger-ai-lab.github.io/Pixel-Reasoner/
模型試玩：https://huggingface.co/spaces/TIGER-Lab/Pixel-Reasoner

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.