大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

高考數(shù)學(xué)全卷重賽!新選手Gemini奪冠,豆包DeepSeek并列第二

0
分享至



機(jī)器之心報(bào)道

編輯:楊文、+0

AI挑戰(zhàn)全套高考數(shù)學(xué)題來了!

話接上回。高考數(shù)學(xué)一結(jié)束,我們連夜使用六款大模型產(chǎn)品,按照一般用戶截圖提問的方式,挑戰(zhàn)了 14 道最新高考客觀題,不過有網(wǎng)友質(zhì)疑測(cè)評(píng)過程不夠嚴(yán)謹(jǐn),所以這次我們加上解答題,重新測(cè)一遍。

本次參加挑戰(zhàn)的選手分別是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1 Turbo、o3,并且新增網(wǎng)友們非常期待的 Gemini 2.5 pro。上一次我們使用網(wǎng)頁端測(cè)試,這次除 o3 外,其他模型全部調(diào)用 API。

在考題選擇上,我們?nèi)匀徊捎?2025 年數(shù)學(xué)新課標(biāo) Ⅰ 卷,包含 14 道客觀題,總計(jì) 73 分;5 道解答題,總計(jì) 77 分。其中第 6 題由于涉及到圖片,我們就單獨(dú)摘出來,后面通過上傳題目截圖的形式針對(duì)多模態(tài)大模型進(jìn)行評(píng)測(cè)。其他文本題目全部轉(zhuǎn)成 latex 格式,分別投喂給大模型,還是老規(guī)矩,不做 System Prompt 引導(dǎo),不開啟聯(lián)網(wǎng)搜索,直接輸出結(jié)果。

(注:第 17 題雖然也涉及到圖片,但文字表述足夠清晰,不影響答題,因此也以 latex 格式測(cè)評(píng)。)

客觀題計(jì)分方法按照以往高考判分原則:

  • 單選題每道 5 分,選項(xiàng)正確計(jì)分,錯(cuò)誤不得分;
  • 多選題每道 6 分,全對(duì)計(jì) 6 分,漏選按正確答案數(shù)量計(jì)分,如答案為 ABCD,漏選其一扣 1.5 分,錯(cuò)選不得分;
  • 填空題每道 5 分,填空正確計(jì)分,錯(cuò)誤不得分。

至于解答題,由于現(xiàn)在還未出具體的評(píng)分細(xì)則,所以我們請(qǐng)數(shù)學(xué)專業(yè)的朋友進(jìn)行評(píng)判,主要還是看大模型的最終答案以及解題步驟中是否有嚴(yán)重失誤點(diǎn)。

7 家大模型考試成績?nèi)缦聢D所示。



從客觀題來看,各家大模型幾乎拉不開差距,最大分差也只有 3 分,第 6 題圖像題更是讓這幾家多模態(tài)大模型「全軍覆沒」。在上一次測(cè)評(píng)中,o3 客觀題成績墊底,但有網(wǎng)友表示,這可能是由于某些原因?qū)е潞笈_(tái)自動(dòng)切換成其他模型,而這一次我們選用的是未「降智」的 o3,選擇題和填空題成績?nèi)允桥旁谧詈螅?dāng)然,65 分的成績相比「降智」版確實(shí)有很大提升。

解答題是大模型失分的「重災(zāi)區(qū)」。除了 Gemini 2.5 Pro 拿到全部的分?jǐn)?shù)外,其它模型或多或少均有失分。其中 DeepSeek R1 和 Doubao 最可惜,只丟了一分;o3 則失了 2 分,最終得到 75 分。相較而言,hunyuan-t1-latest 和文心 X1 Turbo 發(fā)揮不佳,分別拿到 68 分和 66 分。

從總分上來看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分緊隨其后,并列第二;o3 和 Qwen3 也僅有一分之差,分別排在第三和第四。受解答題的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的總成績排到了最后兩名。

(查看各大模型的測(cè)評(píng)截圖以及解答題答題情況,請(qǐng)移步:https://jiqizhixin.feishu.cn/docx/PR0PdzYaWoU92QxiJQqc2oe7n2g)

解答題:大模型失分「重災(zāi)區(qū)」

我們先來看看解答題的情況。



第 15 題和第 17 題,一道考查概率問題,一道涉及立體幾何知識(shí),7 家大模型均拿到滿分。

第 16 題是一道數(shù)列綜合題,滿分 15 分,只要證明完整、計(jì)算過程完整、結(jié)果正確就能拿到全部的分?jǐn)?shù)。大模型整體表現(xiàn)不錯(cuò),只有 Qwen3 解答正確,但最終答案里面增加了多余的假設(shè)求值,扣了一分。



第 18 題這道橢圓方程與幾何就難倒了不少大模型,僅 Doubao、DeepSeek R1 和 Gemini2.5 Pro 拿到滿分 17 分,其他模型各有各的扣分點(diǎn)。Qwen3 前面回答得都不錯(cuò),過程也很完整,但偏偏最后一小問|PQ|最大值取約等于 9 的步驟多余,導(dǎo)致結(jié)果偏差,扣了一分。



o3 則是第(3)問答案沒化簡丟了一分。



文心 X1 在第 2 問 (2) 正確算出 P 點(diǎn)軌跡,但未證明極值,直接按最遠(yuǎn)點(diǎn)計(jì)算造成結(jié)果錯(cuò)誤,扣 6 分。



hunyuan-t1-latest 前兩問中回答正確,到了第 3 問完成 P 點(diǎn)軌跡之后就全錯(cuò)了,一下子丟了 5 分。



對(duì)于最后一道壓軸題,Gemini2.5 pro 是唯一全對(duì)的大模型。Doubao 只說明了震蕩項(xiàng)的振幅大于 0,但是也有可能震蕩項(xiàng)的相位是反的,那樣的話最大值反而有可能更小,證明過程不夠嚴(yán)謹(jǐn),扣一分。



DeepSeek R1 在第(3)問中分情況討論,得出了兩類解,但對(duì)第一類解未做后續(xù)說明,扣了一分。



o3 第(2)問思路正確,但因?yàn)殚_閉區(qū)間差別,「完全重合」說法錯(cuò)誤,扣 1 分。



hunyuan-t1-latest 在第(2)問上思路可行但證明過程模糊,扣 2 分,到了第(3)問沒有判斷 phi 取值,又扣了 2 分。



文心 X1 和 Qwen3 也都是在第 2 問和第 3 問上失了分,第 2 問證明模糊扣 2 分,第 3 問則是未具體說明 phi 值扣 2 分,而且文心 X1 比大小還發(fā)生錯(cuò)誤,又扣了 1 分。





客觀題:一道圖像題難倒幾家多模態(tài)大模型

在不考慮識(shí)圖題(第6題)的情況下,客觀題大模型總體表現(xiàn)都不錯(cuò),Doubao、Qwen3、Gemini 2.5 pro、DeepSeek R1 、文心 X1 Turbo 和 hunyuan-t1-latest 均取得了 68 分的高分,只有 o3 在多選題上少選了一項(xiàng)丟了分。



其中,o3 在第 9 題計(jì)算過程中,忽視了「正三棱柱」這一關(guān)鍵條件。它在建立坐標(biāo)系時(shí),分別用 (x?, y?, 0) 表示 A 點(diǎn)坐標(biāo),用 (c, 0, 0) 表示 C 點(diǎn)坐標(biāo),但沒有考慮到:正三棱柱的底面是正三角形,這意味著正三角形的邊長 c 與 x?、y?之間存在關(guān)系:c=2x?=2y?/√3。導(dǎo)致對(duì) B 選項(xiàng)的判斷出現(xiàn)錯(cuò)誤。



接下來看看這道圖片題。



遺憾的是,此次測(cè)評(píng)的多模態(tài)大模型都在這道識(shí)圖題上表現(xiàn)不佳。雖然 hunyuan-t1-latest 不是多模態(tài),但我們又測(cè)試了 hunyuan-t1-vision ,也在這道題上敗下陣來。



相比之下,Doubao 和 o3 至少正確識(shí)別了坐標(biāo)位置,只是誤判了視風(fēng)風(fēng)速方向,而 Gemini 連基本坐標(biāo)都未能正確識(shí)別。







總的來說,這次測(cè)評(píng)結(jié)果顯示,大模型在數(shù)學(xué)推理能力上有不小的進(jìn)步,但仍有較大的提升空間。比如不少模型在解答題上丟分,這反映出大模型在復(fù)雜推理、嚴(yán)謹(jǐn)論證和多步驟計(jì)算方面還需加強(qiáng)。

此外,所有參測(cè)的多模態(tài)大模型在第 6 題的圖像識(shí)別上都出現(xiàn)了問題,這也暴露出當(dāng)前 AI 在圖文結(jié)合理解方面的短板。

最后,緊張的高考已經(jīng)結(jié)束,祝福所有考生都能取得理想的成績,有著燦爛的未來!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蘇林醒了,卻不是因?yàn)槊绹菫蹩颂m的下場

蘇林醒了,卻不是因?yàn)槊绹菫蹩颂m的下場

科技虎虎
2025-06-11 11:31:35
高圓圓雖然很漂亮,但到這個(gè)年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個(gè)年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
以色列開始斬首伊朗最高領(lǐng)袖,伊朗稱擊落3架F35

以色列開始斬首伊朗最高領(lǐng)袖,伊朗稱擊落3架F35

史政先鋒
2025-06-14 12:44:59
這次破案了,以色列斬首六大核科學(xué)家:伊朗終于知道是誰出賣情報(bào)

這次破案了,以色列斬首六大核科學(xué)家:伊朗終于知道是誰出賣情報(bào)

帥先工場
2025-06-14 20:40:00
印度男子攢錢6年帶上妻兒4人飛往倫敦定居,客機(jī)起飛幾分鐘后墜毀在地

印度男子攢錢6年帶上妻兒4人飛往倫敦定居,客機(jī)起飛幾分鐘后墜毀在地

可達(dá)鴨面面觀
2025-06-13 08:57:43
菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

快看張同學(xué)
2025-06-13 12:40:02
上影節(jié)紅毯:倪妮眾星捧月,章子怡低調(diào)楊冪優(yōu)雅,劉德華散發(fā)魅力

上影節(jié)紅毯:倪妮眾星捧月,章子怡低調(diào)楊冪優(yōu)雅,劉德華散發(fā)魅力

巴塞電影
2025-06-14 20:59:24
美國:兩場“大戲”即將同時(shí)上場!

美國:兩場“大戲”即將同時(shí)上場!

參考消息
2025-06-14 21:59:11
中共中央批準(zhǔn):陳杰同志任上海市委常委

中共中央批準(zhǔn):陳杰同志任上海市委常委

新民晚報(bào)
2025-06-13 22:22:54
前田浩二:1-2的比分是無法接受的,對(duì)方很難打穿我們的防守

前田浩二:1-2的比分是無法接受的,對(duì)方很難打穿我們的防守

懂球帝
2025-06-15 00:34:43
上海證券交易所:2023年僅3.2%人口直持,0.34%持百萬以上

上海證券交易所:2023年僅3.2%人口直持,0.34%持百萬以上

和訊網(wǎng)
2025-06-14 18:25:29
鬧掰阿斯:巴薩想簽離奇離隊(duì)的16歲小將 波爾圖威脅全面斷交

鬧掰阿斯:巴薩想簽離奇離隊(duì)的16歲小將 波爾圖威脅全面斷交

直播吧
2025-06-14 13:57:21
特權(quán)高墻下的冷漠:解析伊朗民眾對(duì)高層遇刺的沉默邏輯

特權(quán)高墻下的冷漠:解析伊朗民眾對(duì)高層遇刺的沉默邏輯

步論天下事
2025-06-14 20:17:14
速看!股市突傳大事件:致歐美股市下跌!下周A股行情預(yù)測(cè)

速看!股市突傳大事件:致歐美股市下跌!下周A股行情預(yù)測(cè)

虎哥閑聊
2025-06-14 12:35:56
鄭欽文無緣決賽!好消息:世界排名首進(jìn)TOP4

鄭欽文無緣決賽!好消息:世界排名首進(jìn)TOP4

湖報(bào)體育
2025-06-15 00:44:28
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
中國最先倒下的13家電器公司,都曾是家喻戶曉的著名企業(yè)

中國最先倒下的13家電器公司,都曾是家喻戶曉的著名企業(yè)

小蜜情感說
2025-06-05 09:27:01
瑞典決定打擊俄影子艦隊(duì),韃靼斯坦抗議征兵,吉爾吉斯斯坦拆雕像

瑞典決定打擊俄影子艦隊(duì),韃靼斯坦抗議征兵,吉爾吉斯斯坦拆雕像

桑未落
2025-06-09 12:26:18
這次,高調(diào)官宣新戀情的梁洛施,終究沒給涼薄的李澤楷留一絲體面

這次,高調(diào)官宣新戀情的梁洛施,終究沒給涼薄的李澤楷留一絲體面

山河月明史
2025-06-13 17:22:30
楊穎被經(jīng)紀(jì)人當(dāng)街訓(xùn)罵照曝光!自費(fèi)租房面試找工作,吃地?cái)偀o人識(shí)

楊穎被經(jīng)紀(jì)人當(dāng)街訓(xùn)罵照曝光!自費(fèi)租房面試找工作,吃地?cái)偀o人識(shí)

史書無明
2025-05-28 21:51:52
2025-06-15 02:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

教育要聞

高考結(jié)束,要不要學(xué)醫(yī)?臨床麻醉醫(yī)生真情實(shí)感分享!

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個(gè)生日沒大S陪伴

財(cái)經(jīng)要聞

樓市權(quán)威發(fā)聲

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

藝術(shù)
旅游
本地
時(shí)尚
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場小技巧

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

軍事要聞

伊媒:以色列國防部大樓被伊朗導(dǎo)彈擊中

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 色一情一乱一伦麻豆| 在线欧美中文字幕农村电影| 日本免费精品一区二区三区| 99re6这里有精品热视频| 成人毛片100免费观看| 玩弄美艳馊子高潮无码| 777午夜精品免费观看| 亚洲 精品 综合 精品 自拍| 92国产精品午夜免费福利视频| 国内精品视频一区二区三区八戒| 亚洲精品久久久久久中文字幕| 嫖妓丰满肥熟妇在线精品| 国产超级va在线观看视频| 伊人久久综合成人网| 国产女人精品视频国产灰线| 香蕉免费一区二区三区| 欧美一区二区三区成人久久片| 国产精品久久久久久99人妻精品| 久久午夜神器| 久久久国产精品黄毛片| 国产freesexvideos中国麻豆| 亚洲国产成人五月综合网| 隔壁人妻被水电工征服| 久久国产午夜精品理论片| 亚洲国产精品尤物yw在线| 国产成人精品18p| 成人欧美一区二区三区的电影| 国产精品一区二区久久乐下载| 色欲悠久久久久综合区| 欧美激情a∨在线视频播放| 日韩精品极品视频在线观看免费| 成在人线av无码免费看| 午夜伦费影视在线观看| 久久午夜夜伦鲁鲁片免费无码| 77777亚洲午夜久久多喷| 少妇厨房愉情理伦片免费| 无码中文人妻在线一区| 日本不卡一区二区三区| 精品熟人妻一区二区三区四区不卡| 一夲道av无码无卡免费| 亚洲欧美国产精品专区久久|