網易首頁 > 網易號 > 正文申請入駐

十大推理模型挑戰2025年高考數學題：DeepSeek-R1、騰訊混元T1并列第一，馬斯克的Grok 3遭遇“滑鐵盧”

2025-06-10 21:04:19　來源: 每日經濟新聞

四川舉報

分享至

2025年高考大幕雖已落下，但關于數學科目難度的討論熱度不減。

《每日經濟新聞》記者（以下簡稱“每經記者”）選取今年的全國新課標數學I卷作為考題，對DeepSeek-R1、騰訊混元T1、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款AI推理大模型進行了測評，以檢驗當今主流AI推理大模型的數學能力。

測評結果顯示，國產大模型DeepSeek-R1與騰訊混元T1以零錯誤并列榜首。而被馬斯克稱為“地表最強AI”的Grok 3卻遭遇“滑鐵盧”，排名倒數第三。

測評標準

本次測評以2025年全國新課標數學I卷（總分150分）作為考題。但每經記者在測試中發現，部分AI推理模型以“重要考試期間”為由拒絕對包含試題的圖片進行識別和解答。

為了讓所有參評大模型站在同一起跑線，測評移除了試卷中所有需要分析圖形和圖表的題目，形成一份有效總分為117分的標準化試卷。

同時，對于谷歌Gemini 2.5 Pro等沒有這一限制的推理模型，仍將以150分的完整試卷進行測試，旨在測試推理大模型所能達到的最高水平。

扣分標準上，每經記者在選擇題和填空題上都遵循了高考評卷的扣分標準，但對于解答題，本次測評只根據結果計算得分，不對過程打分。

需要說明的是，在此次測試中，每款推理大模型只進行單次測試，得分也僅反映單次測試的結果。

DeepSeek-R1和騰訊混元T1并列第一

在排除了圖形/圖表題的117分試卷測試中，DeepSeek-R1與騰訊混元T1展現出了絕對的優勢，以零錯誤的完美表現，取得了117分的滿分成績，并列第一。這表明，在代數計算和函數題等題型解答上，其能力已經達到了極高的水準和穩定性。

訊飛星火X1以112分的成績緊隨其后。相較于DeepSeek-R1與騰訊混元T1這兩款大模型，訊飛星火X1多錯了一道填空題。這道題的正確答案是“±2”，而訊飛星火X1給出的答案是“2”。實際上，該模型的推理過程沒有問題，認為“2”和“-2”都滿足題目條件，但陷入自我懷疑，最終只給出了答案“2”。

訊飛星火X1的推理過程

其他得分超過100分的還有Gemini 2.5 Pro（109分）、o3（107分）、阿里千問Qwen3（106分）和豆包深度思考模式（104分）。在分數占比最高的解答題上，Gemini 2.5 Pro和o3均有失誤，其中一道大題僅有部分正確，而阿里千問Qwen3和豆包深度思考模式均拿下滿分。

Grok 3慘遭“滑鐵盧”，排名倒數第三

在本次參評的所有AI推理大模型中，如果說有誰的結果最令人意外，那無疑是馬斯克旗下xAI公司開發的、被馬斯克稱為“地表最強AI”的Grok 3。

Grok在發布之初就被市場寄予厚望，被認為是最有潛力挑戰GPT和Gemini霸主地位的“黑馬”。馬斯克多次暗示，Grok的目標是成為最強大的AI。

然而，Grok 3此次的表現可以說是遭遇了“滑鐵盧”。在117分的試題測試中，Grok 3僅獲得91分，在10個參與測試的推理大模型中排名倒數第三。

深入分析其答卷，每經記者發現，Grok 3失分的一個獨特且關鍵的原因：它似乎無法正確理解多選題這類題型。

測試過程顯示，即使在記者提示題目為多選題的情況下，Grok 3也“頑固”地只給出一個它認為的最優解，導致只能得到部分分數。

排名倒數第二的是智譜清言推理模式，在117分試卷的測試中得分為78分。

實際上，該模型在多道題目的推理過程中都找到了正確答案，但是往往會在最后一步出現自我懷疑導致邏輯崩潰，陷入循環，最終功虧一簣，白白丟了很多分。

智譜清言推理模式解答過程截圖

排在最末尾的是Kimi k1.5，該模型在最后兩道壓軸大題上栽了大跟頭，損失了大量的分數。

綜合所有測試情況來看，在處理有固定步驟和嚴密邏輯的數學問題上，AI推理大模型已經具備很強的能力。但在涉及抽象和創新思維的題目上，目前的大模型還存在一定的局限性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

【張捷盤歷史】科舉的地域問題與現在的高考

張捷財經 2025-06-14 12:00:00
8 跟貼 8
2025高考大數據已出！現實真的很殘酷！家長考生提前了解！

金玉兒V 2025-06-13 15:20:39
0 跟貼 0

2025年數學新高考一卷第19題3問最樸素的方法最簡單的思路

數學高分老曹 2025-06-14 16:25:07
1 跟貼 1

高考數學為什么難？為什么套路無效？為什么一個題比一個題狠？

玉辭心 2025-06-14 06:17:07
40 跟貼 40
高考數學試卷如何評？家長代表來“探秘”，現場直擊：主觀題這樣批改

上觀新聞 2025-06-13 19:14:04
14 跟貼 14

1409浙江高考數學題，文科卷，求最大值。解法1，學霸妙解！

我服子佩 2025-06-14 21:12:02
1 跟貼 1

多個AI測試語文高考作文穩拿高分，卻敗在了數學壓軸題上

量子位 2025-06-10 20:24:14
0 跟貼 0
2025高考數學2卷第13題，穿針引線和求導都可解

天天數理學習分享 2025-06-11 19:54:39
5 跟貼 5

韋神高考現場神速解題，展現非凡能力與高效表現

我是李小七23 2025-06-15 02:37:27
0 跟貼 0
2025高考數學第一題，怎么算平均數？

大力小學數學 2025-06-11 07:31:00
79 跟貼 79
河南680，數學150，家長想讓孩子學醫，老張怎么推薦高考志愿填報

寧寧媽咪 2025-06-12 10:29:39
0 跟貼 0
假如全國高考一張卷，哪個省考生最厲害？拿12年高考數據說話

右右細毛和爸媽 2025-06-13 10:35:35
4 跟貼 4
2分鐘教高考考生用AI選專業

清華皓同學 2025-06-13 13:26:15
0 跟貼 0
四川是全國高考最難上岸的省份？聽聽大哥怎么分析的

薯番動漫吧 2025-06-12 14:41:17
0 跟貼 0
廣東高考錄取率只有1.4%？這也太慘了！

老楊講教育 2025-06-13 17:12:44
4 跟貼 4
高考志愿填報，正在變成一場“娛樂大片”？

抽煙不喝酒飲茶不讀書 2025-06-14 22:06:09
5 跟貼 5
天龍人，定制門，高考考179分，還包含40分加分？

老紀雜貨鋪 2025-06-14 19:12:32
4 跟貼 4
今年高考作文到底是簡單還是難

手工編織教程 2025-06-14 09:40:03
0 跟貼 0
2025年高考志愿填報35‖“中外合作辦學”院校詳解及目錄請查收！

精彩武威 2025-06-13 22:51:31
0 跟貼 0
高考只是起點：家長與孩子共同面對未來的多樣選擇

杏林春暖水 2025-06-14 00:26:37
0 跟貼 0
高考作文跟孩子啟蒙教育有什么關系？

聞源 2025-06-13 20:15:55
0 跟貼 0
2025年山東夏季高考選擇題評閱已全部完成

時拾影像 2025-06-13 18:43:28
0 跟貼 0
高考600分以上人數最多的十個省市排名，廣東僅第四

雨月海星 2025-06-13 16:38:10
0 跟貼 0
高考難度排名前十省市，你的家鄉排第幾？

山中秀才 2025-06-14 12:47:50
0 跟貼 0
安徽宿州示范高中期末考試題，找到規律至關重要！

三樂大掌柜 2025-06-11 22:18:18
1 跟貼 1
#2025高考作文題 #陜西尚雍律師事務所 #律師 #董紅律師 #西安

西安董紅律師 2025-06-14 17:47:00
0 跟貼 0
浙江寧波五校聯考題采用消元法求函數的值

三樂大掌柜 2025-06-10 17:31:58
1 跟貼 1
高考時的你有多幸運：祝所有考生考的都會，蒙的都對，金榜題名！

80后小芳 2025-06-14 12:00:00
0 跟貼 0
又一年高考結束了，按照慣例我都要解讀一下高考作文題目#正能量

苑舉正 2025-06-14 19:45:47
0 跟貼 0
高考軍校招生大變樣：看著22所，實際近30所

學業規劃康老師 2025-06-14 04:50:40
0 跟貼 0
連線710分頂級學霸，張雪峰一集說透新能源行業

小車車和小劉劉 2025-06-12 10:44:16
0 跟貼 0
高考結束，想要自己報志愿，應該這么操作

學業規劃康老師 2025-06-13 18:41:55
0 跟貼 0
數學考試的緊張與成就：一場腦力與心態的雙重考驗

伴君終老a 2025-06-14 07:51:37
1 跟貼 1
AI版誰是臥底：AI混入高考作文評比，閱卷老師能識破嗎？

量子位 2025-06-12 19:27:54
0 跟貼 0
高考復讀機構排名第一的投師問錄強在哪里？

庫里30sc 2025-06-14 23:05:37
1 跟貼 1
2025年北京高考試卷呈現6大特點，釋放明確教育信號

法大科技成果轉化基地 2025-06-14 07:00:45
0 跟貼 0
關注！各地高考志愿填報時間陸續公布

法大科技成果轉化基地 2025-06-14 05:38:01
42 跟貼 42
高考報志愿，用AI靠譜嗎？

光錐智能 2025-06-15 09:38:11
4 跟貼 4
官方發布！浙江師范大學2025高考招生7大亮點！

微言校園 2025-06-15 06:51:13
0 跟貼 0
2025軍校招生大變革！4所院校停招，還有啥新變化？

阿幸妹侃世界 2025-06-15 00:19:30
0 跟貼 0

手機 / 數碼

房產 / 家居

十大推理模型挑戰2025年高考數學題：DeepSeek-R1、騰訊混元T1并列第一，馬斯克的Grok 3遭遇“滑鐵盧”

從“選學校”到“選專業” 高考志愿填報要注意這些細節

印度空難幸存者：機身撞出巨大裂口 爬出去后發生爆炸

印度空難幸存者：機身撞出巨大裂口 爬出去后發生爆炸

約戰天王山，步行者G4輸在了哪？

鳳凰傳奇曾毅塌房？網友：別連累玲花

以伊沖突持續升級，對全球市場影響多大

華為Pura80系列首銷：不再嚴重缺貨

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

一張圖掌握五年級下的數學知識

呼吸科專家破解呼吸道九大謠言！

夏天最值得入手的6件單品，全在這了

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

伊媒：以色列國防部大樓被伊朗導彈擊中

印度空難幸存者：機身撞出巨大裂口爬出去后發生爆炸

印度空難幸存者：機身撞出巨大裂口爬出去后發生爆炸