大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

首創(chuàng)像素空間推理,7B模型領(lǐng)先GPT-4o,讓AI能像人一樣眼腦并用

0
分享至

Pixel Reasoner 團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

視覺(jué)語(yǔ)言模型(VLM)正經(jīng)歷從「感知」到「認(rèn)知」的關(guān)鍵躍遷。

當(dāng)OpenAI的o3系列通過(guò)「圖像思維」(Thinking with Images)讓模型學(xué)會(huì)縮放、標(biāo)記視覺(jué)區(qū)域時(shí),我們看到了多模態(tài)交互的全新可能。

然而,當(dāng)前主流VLM仍被困在「文本繭房」中——依賴文本token間接翻譯視覺(jué)信息,在高清圖像中的微小物體、視頻里的動(dòng)態(tài)細(xì)節(jié)等場(chǎng)景中,常常因缺乏直接視覺(jué)操作能力而「視而不見」。

來(lái)自滑鐵盧大學(xué)、港科大、中科大的研究團(tuán)隊(duì),首次將推理戰(zhàn)場(chǎng)從文本空間拓展到像素空間,提出「像素空間推理」(Pixel-Space Reasoning)范式。

這項(xiàng)突破讓VLM能像人類一樣「眼腦并用」:通過(guò)原生視覺(jué)操作直接與視覺(jué)信息對(duì)話,在像素級(jí)精度上解鎖視覺(jué)理解的新維度。



推理模式重構(gòu):從「文本中介」到「視覺(jué)原生」

傳統(tǒng)VLM如同帶著「文本濾鏡」看世界:將圖像翻譯成文本token再推理,導(dǎo)致小字體、隱蔽物體等關(guān)鍵信息在轉(zhuǎn)換中丟失。而「像素空間推理」賦予模型「視覺(jué)手術(shù)刀」般的能力

  • 視覺(jué)主動(dòng)操作:模型可自主觸發(fā)視覺(jué)變焦(放大關(guān)鍵區(qū)域)、時(shí)空標(biāo)記(定位視頻動(dòng)態(tài)線索)等原生操作,在像素矩陣上直接完成「操作 - 分析 - 推斷」的閉環(huán)推理,避免了文本轉(zhuǎn)譯導(dǎo)致的信息衰減。
  • 視覺(jué)主導(dǎo)推理:視覺(jué)操作成為推理演進(jìn)的核心驅(qū)動(dòng)力。例如圖例中,回答「咖啡杯 logo 品牌」時(shí),模型先通過(guò)空間先驗(yàn)定位桌面區(qū)域,再通過(guò)視覺(jué)放大逐行掃描杯身,最終在像素級(jí)精度上提取 logo 特征。這種「視覺(jué)線索引導(dǎo)推理」的機(jī)制,使模型能捕捉傳統(tǒng)方法難以處理的空間關(guān)系與動(dòng)態(tài)細(xì)節(jié),尤其在具身視覺(jué)導(dǎo)航、復(fù)雜視頻理解等場(chǎng)景中展現(xiàn)出顯著優(yōu)勢(shì)。



這種「眼腦協(xié)同」的推理模式,打破了文本對(duì)視覺(jué)語(yǔ)義的「翻譯牢籠」,讓模型真正具備了與人類視覺(jué)認(rèn)知同構(gòu)的推理能力。

學(xué)習(xí)陷阱破解:好奇心激勵(lì)突破認(rèn)知惰性困局

在能力遷移過(guò)程中,研究團(tuán)隊(duì)發(fā)現(xiàn)指令微調(diào)模型仍面臨「認(rèn)知惰性」帶來(lái)的嚴(yán)峻挑戰(zhàn):成熟的文本推理能力與稚嫩的像素操作能力形成能力鴻溝,導(dǎo)致模型陷入「學(xué)習(xí)陷阱」:

1 負(fù)面反饋循環(huán):初期視覺(jué)操作的低成功率引發(fā)大量負(fù)向信號(hào),抑制模型使用新能力的意愿;
2 路徑依賴慣性:簡(jiǎn)單任務(wù)中模型更傾向調(diào)用已掌握的文本推理,形成「新能力退化」的惡性循環(huán)。

如同熟練的滑雪者初次嘗試沖浪,初期的失衡體驗(yàn)會(huì)讓人本能回歸熟悉領(lǐng)域,而忽視新技能的長(zhǎng)期價(jià)值。

為打破這一困境,研究團(tuán)隊(duì)設(shè)計(jì)了內(nèi)在好奇心激勵(lì)配合外在正確性激勵(lì)的強(qiáng)化學(xué)習(xí)獎(jiǎng)懲方案。通過(guò)引入內(nèi)在激勵(lì)鼓勵(lì)模型練習(xí)視覺(jué)操作,并引導(dǎo)模型逐步挖掘「像素空間推理」的潛在價(jià)值,而非僅依賴外在的正確性獎(jiǎng)勵(lì)。這就像幼兒學(xué)步時(shí),對(duì)新鮮動(dòng)作的內(nèi)在好奇會(huì)驅(qū)動(dòng)其反復(fù)嘗試,即使每次嘗試都伴隨著跌倒。
因此,研究團(tuán)隊(duì)形式化出下面的約束優(yōu)化目標(biāo)



其中包含兩個(gè)關(guān)鍵約束用于有效激發(fā)「像素空間推理」

  • 像素推理率約束(RaPR)
  • :要求模型至少以特定比率觸發(fā)像素空間推理,克服認(rèn)知惰性;
  • 操作效率約束:
  • 限制單次推理的視覺(jué)操作次數(shù),在探索與計(jì)算成本間找到平衡。

通過(guò)拉格朗日松弛等效轉(zhuǎn)化為以下的獎(jiǎng)勵(lì)函數(shù):



其中的內(nèi)在好奇心激勵(lì)(r_curiosity)會(huì)在模型低頻觸發(fā)「像素空間推理」時(shí)提供內(nèi)在激勵(lì),如同為探索未知領(lǐng)域的冒險(xiǎn)者提供「勇氣加成」,降低嘗試新能力的機(jī)會(huì)成本。同時(shí),隨著訓(xùn)練推進(jìn),好奇心獎(jiǎng)勵(lì)會(huì)動(dòng)態(tài)衰減,確保模型最終聚焦于推理效率而非獎(jiǎng)勵(lì)投機(jī),形成「好奇驅(qū)動(dòng)」到「效用驅(qū)動(dòng)」的良性過(guò)渡。



性能驗(yàn)證:7B 模型實(shí)現(xiàn)高效能突破

在四大視覺(jué)推理基準(zhǔn)測(cè)試中,基于Qwen2.5-VL-7B構(gòu)建的Pixel-Reasoner展現(xiàn)出碾壓級(jí)表現(xiàn):

  • V* Bench(高清圖像推理):
  • 84.3%準(zhǔn)確率,超越GPT-4o(62.8%)和Gemini-2.5-Pro(79.2%)。
  • TallyQA-Complex(復(fù)雜場(chǎng)景計(jì)數(shù)):
  • 73.8%準(zhǔn)確率,較基線模型提升5.1%,能精準(zhǔn)區(qū)分圖像中相似物體的數(shù)量差異。
  • InfographicsVQA(信息圖表理解):
  • 84.0%準(zhǔn)確率,在混合文本與圖表的復(fù)雜場(chǎng)景中,推理準(zhǔn)確率達(dá)到Gemini-2.5-Pro水平。
  • MVBench(長(zhǎng)視頻推理):
  • 67.8%準(zhǔn)確率,通過(guò)像素空間的時(shí)空操作捕捉視頻中的關(guān)鍵視覺(jué)線索,時(shí)序推理能力領(lǐng)先GPT-4o 3.2%。



值得注意的是,僅7B參數(shù)的Pixel-Reasoner,性能全面超越27B的Gemma3等開源模型,甚至媲美部分閉源商業(yè)模型,展現(xiàn)出「小模型大能力」的高效特性。

此外,研究團(tuán)隊(duì)也進(jìn)行了細(xì)節(jié)的實(shí)驗(yàn)來(lái)分析模型「認(rèn)知惰性」帶來(lái)學(xué)習(xí)新推理能力的「學(xué)習(xí)陷阱」,為如何有效培養(yǎng)模型全新推理能力提供了深刻的啟示。



研究團(tuán)隊(duì)指出,像素空間推理并非對(duì)文本推理的替代,而是為VLM開啟了「第二思維通道」。當(dāng)視覺(jué)與語(yǔ)言雙軌并行,多模態(tài)模型才能真正理解世界的復(fù)雜性。

Pixel-Reasoner尚且是多模態(tài)推理范式的初步探索。從「看山是山」到「見微知著」,隨著多模態(tài)推理能力的進(jìn)一步發(fā)展,我們正迎來(lái)一個(gè)機(jī)器能「看得更細(xì)、想得更深」的智能時(shí)代。

論文地址:https://arxiv.org/pdf/2505.15966
項(xiàng)目主頁(yè):https://tiger-ai-lab.github.io/Pixel-Reasoner/
模型試玩:https://huggingface.co/spaces/TIGER-Lab/Pixel-Reasoner

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
62歲葉童獲浪姐總冠軍,首談?wù)煞?次出軌不離婚原因,陪伴很重要

62歲葉童獲浪姐總冠軍,首談?wù)煞?次出軌不離婚原因,陪伴很重要

界史
2025-06-14 09:34:44
博主吐槽埃及旅游,一天被騙800遍,人麻了都!看完一點(diǎn)也不想去

博主吐槽埃及旅游,一天被騙800遍,人麻了都!看完一點(diǎn)也不想去

有趣的火烈鳥
2025-06-05 12:45:19
時(shí)隔26天,王曉晨終于回應(yīng),短短10個(gè)字,沒(méi)給俞灝明留一絲體面

時(shí)隔26天,王曉晨終于回應(yīng),短短10個(gè)字,沒(méi)給俞灝明留一絲體面

頭號(hào)劇委會(huì)
2025-06-12 18:42:36
33國(guó)槍口一致對(duì)華,解放軍將迎戰(zhàn),中日軍機(jī)纏斗40分鐘,性質(zhì)嚴(yán)重

33國(guó)槍口一致對(duì)華,解放軍將迎戰(zhàn),中日軍機(jī)纏斗40分鐘,性質(zhì)嚴(yán)重

吳欣純Deborah
2025-06-13 14:51:22
伊朗國(guó)家電視臺(tái):伊朗將在數(shù)小時(shí)內(nèi)再襲以色列

伊朗國(guó)家電視臺(tái):伊朗將在數(shù)小時(shí)內(nèi)再襲以色列

財(cái)聯(lián)社
2025-06-15 02:57:14
“財(cái)政吃緊”的真相,終于有人講明白了!原來(lái)錢是這樣花掉的

“財(cái)政吃緊”的真相,終于有人講明白了!原來(lái)錢是這樣花掉的

搬磚營(yíng)Z
2025-06-12 23:49:39
伊朗反對(duì)派呼吁推翻德黑蘭政權(quán)

伊朗反對(duì)派呼吁推翻德黑蘭政權(quán)

一種觀點(diǎn)
2025-06-13 22:53:21
41歲漂亮女博士相親要520萬(wàn)彩禮,提出不生娃,男方:我不買花瓶

41歲漂亮女博士相親要520萬(wàn)彩禮,提出不生娃,男方:我不買花瓶

莎莉說(shuō)情感
2025-06-14 17:50:03
重拳出擊!中方發(fā)出最后通牒,重裝部隊(duì)壓境直抵班公湖,不戰(zhàn)而勝

重拳出擊!中方發(fā)出最后通牒,重裝部隊(duì)壓境直抵班公湖,不戰(zhàn)而勝

Ck的蜜糖
2025-06-13 01:28:57
館長(zhǎng)訪問(wèn)四行倉(cāng)庫(kù)后震撼感慨2段話,諷刺統(tǒng)派代表,飆罵獨(dú)派代表

館長(zhǎng)訪問(wèn)四行倉(cāng)庫(kù)后震撼感慨2段話,諷刺統(tǒng)派代表,飆罵獨(dú)派代表

史潎的生活日記
2025-06-15 02:21:37
低估了“蒸荔枝”排寒的威力,吃了幾次,舒服多了!

低估了“蒸荔枝”排寒的威力,吃了幾次,舒服多了!

房產(chǎn)衫哥
2025-06-12 05:35:18
海牙傳來(lái)好消息,杜特爾特或?qū)⒈槐a專延械谌龂?guó)承諾擔(dān)保接收

海牙傳來(lái)好消息,杜特爾特或?qū)⒈槐a專延械谌龂?guó)承諾擔(dān)保接收

小鬼頭體育
2025-06-15 04:06:50
伊朗發(fā)動(dòng)飽和式攻擊,以色列攔截失敗,內(nèi)塔尼亞胡被曝早逃出國(guó)了

伊朗發(fā)動(dòng)飽和式攻擊,以色列攔截失敗,內(nèi)塔尼亞胡被曝早逃出國(guó)了

千里持劍
2025-06-14 09:35:43
朱自清長(zhǎng)子因何在33時(shí)歲被判處死刑并立即執(zhí)行?

朱自清長(zhǎng)子因何在33時(shí)歲被判處死刑并立即執(zhí)行?

深度報(bào)
2025-06-13 23:50:28
羅馬仕發(fā)布公開聲明致歉

羅馬仕發(fā)布公開聲明致歉

最江陰
2025-06-14 21:27:30
太突然!上海多家餐廳遭殃:大規(guī)模襲擊太嚇人,有的直接掉進(jìn)客人碗里...太影響生意→

太突然!上海多家餐廳遭殃:大規(guī)模襲擊太嚇人,有的直接掉進(jìn)客人碗里...太影響生意→

上觀新聞
2025-06-13 14:30:28
人社部定調(diào)!2025年養(yǎng)老金調(diào)整,8000元仍然會(huì)比2000元漲得多

人社部定調(diào)!2025年養(yǎng)老金調(diào)整,8000元仍然會(huì)比2000元漲得多

社保精算師
2025-06-14 16:01:16
上影節(jié)紅毯:倪妮眾星捧月,章子怡低調(diào)楊冪優(yōu)雅,劉德華散發(fā)魅力

上影節(jié)紅毯:倪妮眾星捧月,章子怡低調(diào)楊冪優(yōu)雅,劉德華散發(fā)魅力

巴塞電影
2025-06-14 20:59:24
歐陽(yáng)娜娜內(nèi)場(chǎng)

歐陽(yáng)娜娜內(nèi)場(chǎng)

鄉(xiāng)野小珥
2025-06-15 07:04:04
中日空中交鋒,日方稱日本沒(méi)有人員傷亡,并裝可憐向中方提要求

中日空中交鋒,日方稱日本沒(méi)有人員傷亡,并裝可憐向中方提要求

大道無(wú)形我有型
2025-06-12 12:25:33
2025-06-15 10:24:51
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10666文章數(shù) 176167關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴(yán)重缺貨

頭條要聞

印度空難幸存者:機(jī)身撞出巨大裂口 爬出去后發(fā)生爆炸

頭條要聞

印度空難幸存者:機(jī)身撞出巨大裂口 爬出去后發(fā)生爆炸

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂(lè)要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財(cái)經(jīng)要聞

以伊沖突持續(xù)升級(jí),對(duì)全球市場(chǎng)影響多大

汽車要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

房產(chǎn)
健康
旅游
家居
軍事航空

房產(chǎn)要聞

又一城購(gòu)房補(bǔ)貼!買房就發(fā)錢,正在海南樓市瘋狂擴(kuò)散!

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

森林幾何 極簡(jiǎn)灰調(diào)原木風(fēng)

軍事要聞

伊媒:以色列國(guó)防部大樓被伊朗導(dǎo)彈擊中

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧美日韩国产综合新一区| 久久精品www人人爽人人| 午夜久久久久久禁播电影| 无码人妻少妇久久中文字幕| 日亚韩在线无码一区二区三区| 成人有色视频免费观看网址| 国产av激情久久无码天堂| 亚洲欧美日韩二三区在线| 日韩精品一区二区三区在线观看l| 日韩精品一区二区三区vr| 久久青草精品欧美日韩精品| 中文字幕亚洲中文字幕无码码| 亚洲性视频免费视频网站| 香蕉视频www.5.在线观看| 亚洲精品乱码久久久久久蜜桃不卡| 人人狠狠久久亚洲综合88| 欧美影视精品久久| 人妻少妇456在线视频| 国产精品久久久久电影网| 熟妇人妻引诱中文字幕| 亚洲有无码av在线播放| 欧洲熟妇色xxxx欧美老妇老头多毛| 日韩精品无码一区二区中文字幕| 久久婷婷久久一区二区三区| 久久精品国产亚洲av品善| 中文字幕精品亚洲无线码一区| 中文字幕理伦午夜福利片| 亚洲妇女无套内射精| 成人a片产无码免费视频在线观看| 中文字幕v亚洲日本在线| 日本狂喷奶水在线播放212| 熟女性饥渴一区二区三区| 无遮挡又黄又刺激的视频| 久久精品国产亚洲αv忘忧草| 中文字幕av中文字无码亚| 中文字幕精品亚洲无线码一区应用| 免费无码在线播放av| 天堂久久久久va久久久久| 性xxxx搡xxxxx搡欧美| 8888四色奇米在线观看| 中文字幕无码免费久久|