大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

AI連電路圖都看不懂?SeePhys新基準暴擊多模態短板,正確率僅55%

0
分享至

SeePhys團隊 投稿
量子位 | 公眾號 QbitAI

當前頂尖AI模型是否真能“看懂”物理圖像?

全譜系多模態物理推理新基準來了,結果SOTA級模型準確率都不足55%

新基準名為SeePhys,強調了圖形感知對于模型認識和理解物理世界的重要性。

內容涵蓋經典與現代物理的各個知識等級和領域,包括從初中到博士資格考試的全譜系多模態物理問題



它由中山大學、蘇黎世聯邦理工學院、華為諾亞方舟實驗室和香港大學的研究團隊聯合推出,于近日正式開源

團隊在實驗中系統性評估了LLM/MLLM在復雜科學圖表與理論推導耦合任務中的表現。

結果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型準確率都不足55%,暴露出多模態推理的巨大挑戰。

團隊表示,目前該基準正在ICML 2025 AI for MATH Workshop中開放評估,歡迎學界與工業界的團隊來挑戰。



為什么需要SeePhys?

近年來,數學在大語言模型(LLMs)的推理能力評估中大放異彩,而物理學由于其具有與真實場景的強相關性和更復雜的圖像信息,正在多模態測評中得到越來越多的重視。

物理學不僅知識體系龐大、邏輯鏈條復雜,而且天然地將抽象世界規律與千變萬化的視覺圖像緊密結合。無論是電路圖、受力分析圖,還是費曼圖等,都挑戰了多模態大模型根據圖表理解世界本質規律的能力。

現有物理學基準或缺乏視覺組件,或僅覆蓋單一的知識層級,難以全面評估模型的物理思維能力。

SeePhys的誕生填補了這一空白,它旨在回答當前的頂尖AI模型是否真的“看懂”了物理圖像,并能像人類科學家一樣結合圖像進行思考。

SeePhys的獨特之處在于:

  • 知識層級跨度大:從初中到博士,從經典力學到量子場論,全面覆蓋了不同知識階段和研究領域;
  • 強視覺依賴:根據圖表是否包含必要解題信息進行分類,優先選擇具有強視覺依賴的問題;
  • 跨模態耦合:純多模態基準,需同步處理符號公式、幾何關系與真實世界建模。



具體來看,SeePhys具有以下幾個關鍵屬性。

首先是全譜系覆蓋

  • 2000道題目+2245張圖表,涵蓋7大物理領域(經典力學、電磁學、量子物理等);
  • 8個知識層級:初中、高中、奧賽(初級/高級)、本科(低年級/高年級)、碩士、博士資格考試;
  • 21類異構圖表:包括電路圖、時空曲率圖、光電效應示意圖等。

其次是不同的視覺富集程度

  • Vision-Essential(75%):圖表含解題必需信息(如坐標系數值、電路拓撲、費曼圖);
  • Vision-Optional(25%):圖表僅輔助說明(如場景示意圖)。

還有多模態增強設計

  • 提供純視覺副本(問題文本與圖表融合為單張高分辨率圖像);
  • 四種評估模式:文本+圖表(TV)、文本+描述(TC)、純文本(TO)、純視覺(VO)。



實驗發現

通過對28個主流模型(包括o4-mini、Gemini-2.5-Pro、Claude-3.7-Sonnet等)的大規模測試,研究團隊總結以下結論:

視覺-文本對齊能力的缺陷:

  • 最佳模型Gemini-2.5-Pro準確率僅54.9%,即使是初中物理題正確率也不及70%。
  • 純語言模型表現意外接近多模態模型,如DeepSeek-R1(42.2%)vs o3-mini(40.3%),且模型在視覺依賴性較低的問題中準確率遠高于視覺信息富集的問題,暴露了當前頂尖MLLM仍存在巨大的視覺-文本對齊問題。
  • 模型對特定圖表類型(波動方程圖、電路圖)存在系統性識別障礙。



“看見”對于“思考”的重要性:

  • 對于視覺富集的問題,添加對圖像的文本描述和直接輸入圖文交織問題均相對純文本問題提升巨大。
  • 即使是非必要性圖表也能輔助模型理解問題(如Claude-3.7-Sonnet在Text+Vision條件下相對Vision Only準確率提升30.2%),表明適當的視覺提示能夠幫助模型理解問題本質。



知識注入顯現出邊際效應:

  • 較弱模型(如Qwen2.5-VL-3B和LLaVA-OneVision-7B)由于災難性遺忘現象,在高年級問題上精度下降幅度巨大,而較強模型則下降較為平緩,表明知識注入帶來的性能提升已經初步顯現邊際效應。
  • 當前模型更擅長記憶而非邏輯推理(如高級奧賽題反而比知識考察更深的博資考的準確率更低)。
  • 即使是初中和高中難度的物理題也并未被AI完全解決,物理學對于MLLM依然十分困難。

錯誤推理模式歸納

研究團隊對強模型o4-mini, Gemini-2.5-Pro與弱模型Qwen2.5-VL-3B共同錯誤的100個樣本進行人工分析。

然后,歸納得出了9種錯誤的推理模式,包括視覺誤讀、文本誤讀、建模錯誤、錯誤假設、數值計算錯誤、過度簡化、總結錯誤、過度思考和重復輸出。

所有三個模型都表現出明顯的建模缺陷(例如定理和公式誤用),同時表現出相對較少的文本誤讀和數值計算錯誤。

而過度思考和過度簡化的錯誤頻率在模型之間存在顯著差異,且較小的Qwen2.5-VL-3B出現了高重復輸出率(21%)。



參賽鏈接:https://www.codabench.org/competitions/7925/
挑戰賽詳細信息:https://sites.google.com/view/ai4mathworkshopicml2025/challenge
ICML workshop 主頁:https://sites.google.com/view/ai4mathworkshopicml2025/home

論文:https://arxiv.org/pdf/2505.19099
項目主頁:https://github.com/SeePhys/seephys-project

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗:“友好”國家已就以色列動武向德黑蘭發出警報

伊朗:“友好”國家已就以色列動武向德黑蘭發出警報

參考消息
2025-06-12 20:56:18
88年女友考入清華與我分手,我戍守邊疆23年,轉業時竟意外相逢

88年女友考入清華與我分手,我戍守邊疆23年,轉業時竟意外相逢

秋風專欄
2025-06-11 10:26:13
印度空難,最頭疼的是特朗普

印度空難,最頭疼的是特朗普

新動察
2025-06-13 09:50:08
1天內,中方向伊以伸出橄欖枝,哈梅內伊被打醒:梟龍戰機買晚了

1天內,中方向伊以伸出橄欖枝,哈梅內伊被打醒:梟龍戰機買晚了

大歪歪
2025-06-13 21:21:09
穆斯卡特:中國足壇近期涌現出一波非常有才華的年輕球員

穆斯卡特:中國足壇近期涌現出一波非常有才華的年輕球員

懂球帝
2025-06-13 18:13:18
鄭欽文艱難獲勝后,今晚8進4的比賽,將面對前美網冠軍拉杜卡努

鄭欽文艱難獲勝后,今晚8進4的比賽,將面對前美網冠軍拉杜卡努

春序娛樂
2025-06-13 19:54:35
印度客機墜毀,一名空姐的家人翻著相冊,跪地痛哭

印度客機墜毀,一名空姐的家人翻著相冊,跪地痛哭

瀟湘晨報
2025-06-12 22:44:09
兩大國手或入駐NBA!央媒曝楊瀚森試訓出色,林葳試訓NBA排第二

兩大國手或入駐NBA!央媒曝楊瀚森試訓出色,林葳試訓NBA排第二

傲傲講歷史
2025-06-13 21:58:28
一個孩子覺醒最快的方式:從吃“高級苦”開始

一個孩子覺醒最快的方式:從吃“高級苦”開始

諾媽家有男寶娃
2025-06-13 09:19:36
伊朗——戰略誤判的代價!

伊朗——戰略誤判的代價!

華山穹劍
2025-06-13 20:29:13
泰國,迎來了大變局

泰國,迎來了大變局

奇思妙想生活家
2025-06-12 15:19:57
峨眉山發生人猴大戰,游客掉下山崖摔死,猴王被警察一槍擊斃

峨眉山發生人猴大戰,游客掉下山崖摔死,猴王被警察一槍擊斃

溫情郵局
2025-06-10 16:48:22
大決戰來了?以色列關閉領空,伊朗直接甩王牌,白宮撤僑專機起飛

大決戰來了?以色列關閉領空,伊朗直接甩王牌,白宮撤僑專機起飛

影孖看世界
2025-06-13 21:14:35
阿斯:意足協已了解貝尼特斯帶隊意愿,但更傾向于06冠軍成員

阿斯:意足協已了解貝尼特斯帶隊意愿,但更傾向于06冠軍成員

懂球帝
2025-06-13 10:39:22
一邊要稀土一邊發難?印度部長稱中國“不可信”,中方冷處理應對

一邊要稀土一邊發難?印度部長稱中國“不可信”,中方冷處理應對

娛樂的宅急便
2025-06-13 21:24:09
魔術師約翰遜喊話東契奇:我們不該提醒你保持體型,你早該自覺做到

魔術師約翰遜喊話東契奇:我們不該提醒你保持體型,你早該自覺做到

雷速體育
2025-06-13 11:20:29
普京:俄將組建無人系統部隊

普京:俄將組建無人系統部隊

新京報
2025-06-13 08:02:03
核設施被以色列炸了!伊朗宣布關閉領空,兩位核科學家遇襲身亡

核設施被以色列炸了!伊朗宣布關閉領空,兩位核科學家遇襲身亡

21世紀經濟報道
2025-06-13 11:49:11
農村養老費共63元,每月領0.5元,社保局:一次發完無法保障養老

農村養老費共63元,每月領0.5元,社保局:一次發完無法保障養老

漁夫說事
2025-06-12 12:50:03
DeepSeek:未來10年,中國壓力最大的8個職業,中小學教師非首位

DeepSeek:未來10年,中國壓力最大的8個職業,中小學教師非首位

市井覓食記
2025-02-26 00:20:55
2025-06-13 22:43:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10659文章數 176166關注度
往期回顧 全部

科技要聞

報志愿非得花上萬元找"張雪峰"?AI行不行

頭條要聞

以軍發動襲擊前 內塔尼亞胡到哭墻塞了一張紙條

頭條要聞

以軍發動襲擊前 內塔尼亞胡到哭墻塞了一張紙條

體育要聞

世界第一和他背后的智囊

娛樂要聞

宋茜壓軸風波升級!官方下場暗示順序

財經要聞

5月M2同增7.9% 前5個月存款增14.73萬億

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
教育
旅游
手機
游戲

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

教育要聞

清北教授出任學生導師!這所名校創新人才培養,體驗感直接拉滿!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

天璣9500跑分曝光,性能大提升

《合金裝備3RE》全球解鎖時間公布!8月28日0點開爽

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品久久久久国产免费| 免费无码又爽又刺激高潮的动态图| 国产国拍亚洲精品av在线| 亚洲一区二区色情苍井空| 国精产品一区一区三区有限公司| 国产在线观看精品一区二区三区| www国产精品内射老师| 涩涩鲁亚洲精品一区二区| 亚洲国产精品无码久久久| av综合网男人的天堂| 97色精品视频在线观看| 亚洲精品中文字幕一区二区三区| www午夜精品男人的天堂| aaa少妇高潮大片免费看| 欧美 国产 日产 韩国 在线| 一区二区国产高清视频在线| 亚洲精品一线二线三线无人区| 女人让男人桶爽30分钟| 蜜桃无码一区二区三区| 国产大屁股视频免费区| 亚洲成a∨人在线播放欧美| 日本肥老妇色xxxxx日本老妇| 天天躁日日摸久久久精品| 在线观看国产网址你懂的| 精品性影院一区二区三区内射| 爱情岛论坛网亚洲品质| 精品无码国产av一区二区| 波多野结衣av一区二区三区中文| 亚洲成成品网站源码中国有限公司| 免费国产a国产片高清| 亚洲a∨无码精品色午夜| 久久996re热这里有精品| 99精品国产在热久久| 色欲av巨乳无码一区二区| 亚洲美女高清无水av| 午夜精品一区二区三区在线观看| 337p日本欧洲亚洲大胆| 免费现黄频在线观看国产| 推油少妇久久99久久99久久| 久久久久亚洲av成人网人人网站| 国产精品9999久久久久仙踪林|