大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

十大推理模型挑戰2025年高考數學題:DeepSeek-R1、騰訊混元T1并列第一,馬斯克的Grok 3遭遇“滑鐵盧”

0
分享至

2025年高考大幕雖已落下,但關于數學科目難度的討論熱度不減。

《每日經濟新聞》記者(以下簡稱“每經記者”)選取今年的全國新課標數學I卷作為考題,對DeepSeek-R1、騰訊混元T1、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款AI推理大模型進行了測評,以檢驗當今主流AI推理大模型的數學能力。

測評結果顯示,國產大模型DeepSeek-R1與騰訊混元T1以零錯誤并列榜首。而被馬斯克稱為“地表最強AI”的Grok 3卻遭遇“滑鐵盧”,排名倒數第三。



測評標準

本次測評以2025年全國新課標數學I卷(總分150分)作為考題。但每經記者在測試中發現,部分AI推理模型以“重要考試期間”為由拒絕對包含試題的圖片進行識別和解答。

為了讓所有參評大模型站在同一起跑線,測評移除了試卷中所有需要分析圖形和圖表的題目,形成一份有效總分為117分的標準化試卷。

同時,對于谷歌Gemini 2.5 Pro等沒有這一限制的推理模型,仍將以150分的完整試卷進行測試,旨在測試推理大模型所能達到的最高水平。

扣分標準上,每經記者在選擇題和填空題上都遵循了高考評卷的扣分標準,但對于解答題,本次測評只根據結果計算得分,不對過程打分。

需要說明的是,在此次測試中,每款推理大模型只進行單次測試,得分也僅反映單次測試的結果。

DeepSeek-R1和騰訊混元T1并列第一

在排除了圖形/圖表題的117分試卷測試中,DeepSeek-R1與騰訊混元T1展現出了絕對的優勢,以零錯誤的完美表現,取得了117分的滿分成績,并列第一。這表明,在代數計算和函數題等題型解答上,其能力已經達到了極高的水準和穩定性。


訊飛星火X1以112分的成績緊隨其后。相較于DeepSeek-R1與騰訊混元T1這兩款大模型,訊飛星火X1多錯了一道填空題。這道題的正確答案是“±2”,而訊飛星火X1給出的答案是“2”。實際上,該模型的推理過程沒有問題,認為“2”和“-2”都滿足題目條件,但陷入自我懷疑,最終只給出了答案“2”。


訊飛星火X1的推理過程

其他得分超過100分的還有Gemini 2.5 Pro(109分)、o3(107分)、阿里千問Qwen3(106分)和豆包深度思考模式(104分)。在分數占比最高的解答題上,Gemini 2.5 Pro和o3均有失誤,其中一道大題僅有部分正確,而阿里千問Qwen3和豆包深度思考模式均拿下滿分。

Grok 3慘遭“滑鐵盧”,排名倒數第三

在本次參評的所有AI推理大模型中,如果說有誰的結果最令人意外,那無疑是馬斯克旗下xAI公司開發的、被馬斯克稱為“地表最強AI”的Grok 3。

Grok在發布之初就被市場寄予厚望,被認為是最有潛力挑戰GPT和Gemini霸主地位的“黑馬”。馬斯克多次暗示,Grok的目標是成為最強大的AI。

然而,Grok 3此次的表現可以說是遭遇了“滑鐵盧”。在117分的試題測試中,Grok 3僅獲得91分,在10個參與測試的推理大模型中排名倒數第三

深入分析其答卷,每經記者發現,Grok 3失分的一個獨特且關鍵的原因:它似乎無法正確理解多選題這類題型。

測試過程顯示,即使在記者提示題目為多選題的情況下,Grok 3也“頑固”地只給出一個它認為的最優解,導致只能得到部分分數。

排名倒數第二的是智譜清言推理模式,在117分試卷的測試中得分為78分。

實際上,該模型在多道題目的推理過程中都找到了正確答案,但是往往會在最后一步出現自我懷疑導致邏輯崩潰,陷入循環,最終功虧一簣,白白丟了很多分。


智譜清言推理模式解答過程截圖

排在最末尾的是Kimi k1.5,該模型在最后兩道壓軸大題上栽了大跟頭,損失了大量的分數。

綜合所有測試情況來看,在處理有固定步驟和嚴密邏輯的數學問題上,AI推理大模型已經具備很強的能力。但在涉及抽象和創新思維的題目上,目前的大模型還存在一定的局限性。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
又來!繼“燙碗惡心論”后廣東再被黑,遭武漢食堂甩鍋賣“假貨”

又來!繼“燙碗惡心論”后廣東再被黑,遭武漢食堂甩鍋賣“假貨”

云景侃記
2025-06-15 08:35:08
人口僅900多萬的以色列,為何會成為中東第一強國,世界排名第三

人口僅900多萬的以色列,為何會成為中東第一強國,世界排名第三

文史道
2024-11-04 12:21:21
女籃大勝僅2天!張子宇曝出2大短板,宮魯鳴一針見血,李夢可惜了

女籃大勝僅2天!張子宇曝出2大短板,宮魯鳴一針見血,李夢可惜了

大秦壁虎白話體育
2025-06-15 10:00:30
廣東一對新人堅持臺風天結婚,新郎新娘撐傘入場!婚禮化妝師:不罕見,宴席有100多人參加

廣東一對新人堅持臺風天結婚,新郎新娘撐傘入場!婚禮化妝師:不罕見,宴席有100多人參加

FM93浙江交通之聲
2025-06-14 20:10:57
《風箏》:鄭耀先至死不知,知曉風箏身份的不是袁農,不是馬小五

《風箏》:鄭耀先至死不知,知曉風箏身份的不是袁農,不是馬小五

掠影后有感
2025-06-14 09:32:07
朱拉尼讓老婆包上頭巾引導百姓,成功破壞了敘利亞的世俗化!

朱拉尼讓老婆包上頭巾引導百姓,成功破壞了敘利亞的世俗化!

聞識
2025-06-10 12:44:54
沒當過自由球員!亞當斯生涯賺了2.1億?四次提前續約!

沒當過自由球員!亞當斯生涯賺了2.1億?四次提前續約!

直播吧
2025-06-15 09:09:14
小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網友:融洽!

小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網友:融洽!

大笑江湖史
2025-06-14 22:56:07
突擊檢查!無錫這家足浴…

突擊檢查!無錫這家足浴…

無錫eTV全媒體
2025-06-15 09:38:41
妻子整晚未歸,我沒鬧,次日攜其褲襪檢測,結果令妻子驚慌失措

妻子整晚未歸,我沒鬧,次日攜其褲襪檢測,結果令妻子驚慌失措

溫情郵局
2025-06-13 13:54:58
太惡心了!女子疑藏褲衩偷排骨,掉出一根,網友:這根排骨有味道

太惡心了!女子疑藏褲衩偷排骨,掉出一根,網友:這根排骨有味道

火山詩話
2025-06-14 18:49:03
高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
鏡頭給到看臺,因凡蒂諾、大羅、巴喬現場觀戰世俱杯揭幕戰

鏡頭給到看臺,因凡蒂諾、大羅、巴喬現場觀戰世俱杯揭幕戰

直播吧
2025-06-15 08:29:56
瘋狂一夜!3年3900萬簽約達成,杜蘭特下家2選1,FMVP榜更新

瘋狂一夜!3年3900萬簽約達成,杜蘭特下家2選1,FMVP榜更新

體壇小李
2025-06-15 08:14:43
無緣決賽,鄭欽文倫敦站收獲195分,獎金78425美元

無緣決賽,鄭欽文倫敦站收獲195分,獎金78425美元

直播吧
2025-06-15 01:00:11
伊朗襲擊重創以色列軍事總部

伊朗襲擊重創以色列軍事總部

西樓飲月
2025-06-14 20:39:40
數百人傷亡!以色列陷史無前例危機!伊朗攻勢兇猛,薩德可能耗盡

數百人傷亡!以色列陷史無前例危機!伊朗攻勢兇猛,薩德可能耗盡

國際情爆猿
2025-06-15 10:55:11
伊朗國家電視臺:伊朗將在數小時內再襲以色列

伊朗國家電視臺:伊朗將在數小時內再襲以色列

財聯社
2025-06-15 02:57:14
突發!又有兩名伊朗高級官員身亡,以軍確認暗殺9名伊朗科學家!伊朗:逮捕了以色列F35戰機飛行員!美從烏撤回反無人機武器并調往中東

突發!又有兩名伊朗高級官員身亡,以軍確認暗殺9名伊朗科學家!伊朗:逮捕了以色列F35戰機飛行員!美從烏撤回反無人機武器并調往中東

每日經濟新聞
2025-06-14 22:36:17
瞞不住了,美媒曝光特拉維夫慘狀!伊朗稱:下一次齊射2000枚導彈

瞞不住了,美媒曝光特拉維夫慘狀!伊朗稱:下一次齊射2000枚導彈

今墨緣
2025-06-14 18:35:08
2025-06-15 11:35:00
每日經濟新聞 incentive-icons
每日經濟新聞
中國主流財經全媒體平臺。
1265055文章數 2714974關注度
往期回顧 全部

教育要聞

從“選學校”到“選專業” 高考志愿填報要注意這些細節

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

教育
健康
時尚
本地
軍事航空

教育要聞

一張圖掌握五年級下的數學知識

呼吸科專家破解呼吸道九大謠言!

夏天最值得入手的6件單品,全在這了

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线播放无码后入内射少妇| 久久久精品人妻一区二区三区| 国产做a爱片久久毛片a片| 成年入口无限观看免费完整大片| 国产福利视频一区二区| 成人国产一区二区三区精品不卡| 别揉我奶头~嗯~啊~一区二区三区| 日韩亚洲欧美中文在线| 蜜臀av无码一区二区三区| 在线看片免费人成视频影院看| 国产线播放免费人成视频播放| 久久五月精品中文字幕| 国产av久久久久精东av| 精品国产a∨无码一区二区三区| 国产成人欧美亚洲日韩电影| 国产卡一卡二卡3卡4乱码| 情侣黄网站免费看| 97人妻免费碰视频碰免| 国产∨亚洲v天堂无码久久久| 久久99精品久久久大学生| 国产精品??码一本A片| 高潮爽死抽搐白浆gif视频| 色婷婷综合久久久久中文| 国产精品主播一区二区三区| 国产精品美女久久久m| 亚洲国产另类精品| 免费无码毛片一区二区三区a片| 欧美成人伊人久久综合网| 日本无遮挡吸乳呻吟视频| 国产精品igao视频| 综合欧美亚洲日本一区| 免费a级毛片无码a∨蜜芽试看| 亚洲日本在线电影| 香蕉大美女天天爱天天做| 亚洲色www成人永久网址| 日韩精品久久久久久免费| 中国少妇内射xxxxⅹhd| 99热久久最新地址| 中国老妇女毛茸茸bbwbabes| 午夜dj视频在线观看完整版1| 日本中文字幕一区二区有码在线|