大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

o4-mini暴擊六大數學天團，攻破陶哲軒難題！4.5h激戰人類陣地失守

2025-05-27 16:10:10　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：桃子

【新智元導讀】不到兩年，我們會見證AI數學家的重大突破！最新實驗中，o4-mini與40位數學家，一同挑戰300道菲爾茲獎級難題。o4-mini一舉擊敗6組團隊，超越人類平均水平。

八支「數學家天團」和o4-mini-medium同臺競技，誰會最終勝出？

最近，Epoch AI團隊舉辦了一場競賽，專門考察AI數學能力的進展。

這場比賽邀請了約40位數學精英，分成8組，每組由學科專家和優秀本科生組成。

他們要與AI一同在陶哲軒等人提出的FrontierMath基準上，展開終極對決。

比賽一共23題，限時4.5小時，實驗最終得出：

o4-mini-medium碾壓人類平均水平（19%），解決了約22%題目。

不過，o4-mini能夠解決的問題，至少被一組數學家團隊破解。由此，人類團隊總體上解決了約35%的題目。

結果顯示，o4-mini一共擊敗六組團隊，在數學領域展現了驚人的潛力。

谷歌前CEO Eric Schmidt預測，未來1-2年內，「超級程序員」和「AI數學家」將取得重大突破。

o4-mini，作為AI的代表，便是一個很好的開始。

菲爾茲獎得主出題，AI擊敗6隊

提及FrontierMath，想必圈內人無人不知。

這一基準于24年11月首次亮相，由菲爾茲獎得主與業內多位著名數學家共同出題，挑戰AI數學能力的極限。

它包含300個問題，難度從高年級本科生水平到菲爾茲獎得主都認為具有挑戰性的問題。

那么，這么多數學難題，人類在其表現中如何呢？

為了確定人類極限，Epoch AI便在MIT組織了這場比賽——FrontierMath Competition。

如上所述，每組被分成4-5人的8組團隊，在聯網情況下，最多用4.5h去解決23個數學題。最后，再與o4-mini-medium進行比拼。

o4-mini-medium的表現雖超過了平均人類團隊，但不如所有團隊的綜合得分。

因此，在FrontierMath上，AI尚未完全超越人類，但Epoch AI認為頂尖模型很快就會做到。

目前，這份數據僅代表FrontierMath的一個小型非代表性子集。

若綜合考慮，人類整體基準大約在30-50%之間。

接下來，Epoch AI詳細解釋了關于人類基準結果的四個關鍵點，包括其中來源和含義。

人類選手，并不代表數學SOTA

人類團隊的表現，因團隊而異構成。

由于參賽者主要來自波士頓數學社區，分析領域的專家較少，導致了整體專長分布不均。

每隊雖至少有一名某一領域的專家，但也沒有哪支隊伍在所有高級領域，如拓撲學、代數幾何、組合數學、數論等都有專家覆蓋。

這使得人類平均分，可能低估了真實水平。

最重要的是，比賽4.5小時時間，可能限制了人類的表現。AI解決每題只需5-20分鐘，而人類平均耗時約40分鐘。

此前研究表明，人類在長時間任務上表現更具潛力，而AI性能可能在一定時間后趨于平穩。

為了更全面評估，研究團隊采用了兩種方式計算人類基準：

1. 團隊平均得分：每支隊伍獨立表現，得分約19%

2. 綜合得分：如果任一隊答對某題就算正確，得分提升至約35%

若要為整個FrontierMath設定人類基準，還需解決第二個問題：比賽問題的難度分布與完整 FrontierMath數據集不同。

為此，研究人員按難度層級拆分結果，并根據完整基準的難度分布加權總體得分。

結果，按整體難度分布加權后，人類基準提升到約30%，基于「多次嘗試」方法，更是刷新到了52%。

而此時，AI的加權得分約為37%。

Epoch AI指出，o4-mini-medium得分提升，是因為比賽中的Tier 1/Tier 2問題相對完整基準的同級問題較簡單，說明了這一調整方法仍不理想。

設計巧思：推理而非知識

FrontierMath比賽的獨特之處在于，它更注重數學推理能力，而非單純的知識儲備。

當前，AI在知識廣度上遠超人類——可以輕松調用數學、微分幾何等龐大知識庫，而人類很難精通所有領域。

因此，比賽題目被精心設計，盡量減少對背景知識的依賴。

比如，研究人員選用了7道適合優秀本科生的「通用問題」，以及16道專為專家定制的「高級問題」。

這些題目主要覆蓋了四大類：拓撲學、代數幾何、組合數學和數論。

為了激勵參賽者挑戰高難度題目，比賽還采用了特殊計分規則：

高級題目每題2分，通用題目每題1分；每個領域至少答對一題可額外加1分。

此外，獎金池也非常誘人，第一名1000美元，第二名800美元，第三名400美元。

全面超越人類，指日可待？

盡管o4-mini-medium在FrontierMath上，尚未完全超越人類，但其表現已令人矚目。

它在比賽的得分不僅于人類頂尖團隊相當，而且在知識廣度上占據巨大優勢。

Epoch AI預測，到2025年底，AI和可能明確超越30%-50%的人類基準。

有網友對此表示，要讓AI成為超人的存在，必須定期解決人類數學家無法解決的問題。

然而，AI的成功機制依然是一道謎題。

它們究竟是靠猜測解題，還是真正掌握了數學推理？與人類的方法相比，有何不同？

在研究人員看來，這些問題有待進一步探索。

此外，FrontierMath的題目并非實際數學研究的直接代表，o4-mini的超人表現是否會轉化為研究突破，仍需要時間來驗證。

參考資料：

https://x.com/EpochAIResearch/status/1926031207482953794

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

陶哲軒：o3-mini糾正了我一個數學錯誤

量子位 2025-03-18 11:16:41
80 跟貼 80
訓練步數翻倍=推理能力質變，小模型突破推理極限

機器之心Pro 2025-06-04 19:08:50
1 跟貼 1

Figure自曝完整技術：60分鐘不間斷打工，我們的機器人如何做到？

量子位 2025-06-13 16:20:17
2 跟貼 2

一句話生成任務專屬LoRA！Transformer作者創業公司顛覆LLM微調

量子位 2025-06-13 17:23:47
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

全面評測圖像編輯模型推理能力：所有模型在程序性推理方面表現差

量子位 2025-06-13 14:20:11
0 跟貼 0

前智源團隊創業，聯想、智譜AI投了一家人形機器人大模型公司｜硬氪首發

36氪 2025-06-14 09:31:10
0 跟貼 0
豆包使用成本“卷”至1/3 火山引擎瞄準智能體“爆發” 催生智算一體機新需求

財聯社 2025-06-14 11:16:00
1 跟貼 1

上海庫帕思科技有限公司CTO王長冕：在西岸，人工智能企業貫穿各行業更方便

每日經濟新聞 2025-06-14 12:43:02
0 跟貼 0
這篇Nature論文僅有一個作者，MIT博士生業余愛好，為 AI 技術帶來全新應用方向

生物世界 2025-06-14 12:34:55
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
8歲神童高考760分，智商230超愛因斯坦，現狀如何？

梁獼愛玩車 2025-06-12 15:48:46
53 跟貼 53
廣東佛山順德區高中數學題目求x+y+z的值

三樂大掌柜 2025-06-11 22:18:38
1 跟貼 1
韋東奕婉拒采訪，稱輿論已影響到自己

大眼瞄世界 2025-06-11 23:01:33
19 跟貼 19
遼寧沈陽東北育才學校考試題求三角形ABC的周長

三樂大掌柜 2025-06-09 21:40:59
1 跟貼 1
奧數天才常有，但數學家不常有

牛角說 2025-06-11 07:45:39
243 跟貼 243
Lt-空間是古中外的首創數學概念

古城孤魂 2025-06-13 20:27:36
5 跟貼 5
北京順義牛欄山一中初中數學題，怎么快速求解？

三樂大掌柜 2025-06-09 21:35:53
4 跟貼 4
浙江麗水初中數學期末考試題求ab的值

三樂大掌柜 2025-06-12 16:30:02
1 跟貼 1
河南安陽林州一中數學題求三者平方之和！

三樂大掌柜 2025-06-11 22:19:39
1 跟貼 1
韋東奕一條視頻2千萬粉，大家都學不明白高數，為何還要關注他？

擔撲 2025-06-11 00:29:45
3 跟貼 3
耶魯&北大&復旦&MIT，聯手發了篇數學頂刊《Inventiones Mathematicae》

TOP大學來了 2025-06-12 21:00:39
0 跟貼 0
與韋神同歲，已鎖定數學界最高榮譽，這個美女才是北大的數學神器

麥大人 2025-06-11 12:12:00
6 跟貼 6
云南麗江高中數學模擬考試題，求三角函數的值

三樂大掌柜 2025-06-12 16:29:46
1 跟貼 1
陶哲軒用Lean重寫教科書，寫代碼也能學數學

機器之心Pro 2025-06-03 21:48:31
0 跟貼 0
40位數學家與AI對戰，只贏了兩隊

機器之心Pro 2025-05-28 22:32:20
0 跟貼 0
美國直升機的，彈射座椅，學科的設計其實沒有這功能

晴密搞笑 2025-06-12 14:08:36
319 跟貼 319
2025高考數學到底難不難？學生：簡單的簡單難的確實難

視野1video 2025-06-10 14:57:33
1 跟貼 1
湖南常德2024高一期末考試題求xy的最大值

三樂大掌柜 2025-06-12 16:07:59
1 跟貼 1
高考數學為什么難？為什么套路無效？為什么一個題比一個題狠？

玉辭心 2025-06-14 06:17:07
26 跟貼 26
1.?女孩中考物理遇老師全押中題，幸運作答展實力

人生何嘗不是酒 2025-06-10 01:25:28
0 跟貼 0
山東泰安中學初中考試題證明三角形三邊長的關系

三樂大掌柜 2025-06-10 17:23:49
0 跟貼 0
山東省實驗中學2024年高一階段考試求函數解析式

三樂大掌柜 2025-06-09 21:41:17
1 跟貼 1
初中數學經典題目求f(x)的解析式

三樂大掌柜 2025-06-13 14:34:04
4 跟貼 4
LT-空間與代數定義

古城孤魂 2025-06-14 09:25:29
0 跟貼 0
這位大哥屬實牛，能跳到坑里，估計已經是普通人的極限！

搞笑大眼妹 2025-06-11 11:59:58
34 跟貼 34
高考：全國統一試卷、統一分數線，統一錄取，有可能實現嗎？

右右細毛和爸媽 2025-06-13 15:41:17
1 跟貼 1
好書拆解：《學習之道》4

藤藤爸說學習 2025-06-14 07:03:23
0 跟貼 0
2025年高考數學最后一題有多難？快來一起挑戰！

溫哥華保潔張姐 2025-06-12 13:36:23
0 跟貼 0
從冰拿鐵到數學難題：一位考生在天津高考中的起伏與反思

名都陽光 2025-06-12 13:50:50
0 跟貼 0

36D“奶糖妹妹”私照公開，發育過猛了，這是不打碼能看的？

36D“奶糖妹妹”私照公開，發育過猛了，這是不打碼能看的？

健身迷

2025-06-14 09:37:06

機上沒有中國人，燒焦遺體陸續找到，機長最后大喊：發動機故障！

機上沒有中國人，燒焦遺體陸續找到，機長最后大喊：發動機故障！

悠閑歷史

2025-06-12 22:42:59

美國的簽證秒過是一種什么體驗？網友：都是經驗之談，很實用啊

美國的簽證秒過是一種什么體驗？網友：都是經驗之談，很實用啊

娛樂圈人物大賞

2025-06-02 00:05:21

著名詩人逝世，享年59歲

大象新聞

2025-06-13 17:59:01

魔獸國服首個巫妖王極限擊殺！站擼4分鐘，Boss沒放技能就倒了

魔獸國服首個巫妖王極限擊殺！站擼4分鐘，Boss沒放技能就倒了

魔獸世界情報局

2025-06-14 00:29:58

78歲大媽3分鐘簽完安樂死文件,醫生突然遞來手機:"您該先聽這個"

78歲大媽3分鐘簽完安樂死文件,醫生突然遞來手機:"您該先聽這個"

雨仔講故事

2025-06-13 18:47:33

哈梅內伊：掌權伊朗34年，家族能動員千萬人，為何地位難以撼動？

哈梅內伊：掌權伊朗34年，家族能動員千萬人，為何地位難以撼動？

WarOH協虎

2024-01-12 23:45:03

反轉？韋東奕未獨立在頂刊發論文，成果不夠，學生說聽不懂他的課

反轉？韋東奕未獨立在頂刊發論文，成果不夠，學生說聽不懂他的課

行者聊官

2025-06-12 15:09:13

梁朝偉和湯唯在《色戒》里“假戲真做”？網友爆出截圖：一目了然

梁朝偉和湯唯在《色戒》里“假戲真做”？網友爆出截圖：一目了然

姜糖先生

2025-06-08 19:31:00

美女杭州萬象城購物被劫匪捅數十刀，胸部假體擋刀挽回一條生命

美女杭州萬象城購物被劫匪捅數十刀，胸部假體擋刀挽回一條生命

一個島島

2025-06-14 00:00:21

5打8！史上最黑天王山！肖華直接下場操控！打不了！不打了！告辭！

5打8！史上最黑天王山！肖華直接下場操控！打不了！不打了！告辭！

貴圈真亂

2025-06-14 11:43:33

伊朗發動飽和式攻擊，以色列攔截失敗，內塔尼亞胡被曝早逃出國了

伊朗發動飽和式攻擊，以色列攔截失敗，內塔尼亞胡被曝早逃出國了

千里持劍

2025-06-14 09:35:43

6200萬，重簽勇士，始終沒有讓人失望，球隊沖冠軍確實是你最關鍵

6200萬，重簽勇士，始終沒有讓人失望，球隊沖冠軍確實是你最關鍵

青山隱隱啊

2025-06-14 10:21:59

伊以互毆，雙方損失多少？導彈襲擊是伊朗心虛？離全面戰爭有多遠

伊以互毆，雙方損失多少？導彈襲擊是伊朗心虛？離全面戰爭有多遠

戰友老鄧

2025-06-14 12:19:54

請記住這個名字：羅帥宇，一個被醫療黑幕絞殺的孤膽醫者

請記住這個名字：羅帥宇，一個被醫療黑幕絞殺的孤膽醫者

大道微言

2025-06-13 16:37:53

不是王楚欽，陳夢公布擇偶，喜歡成熟，1人有機會，曾表白陳夢

不是王楚欽，陳夢公布擇偶，喜歡成熟，1人有機會，曾表白陳夢

東球弟

2025-06-14 10:46:08

布蘭妮18歲兒子帶漂亮女友兜風，140萬超跑是媽媽送的，引發爭議

布蘭妮18歲兒子帶漂亮女友兜風，140萬超跑是媽媽送的，引發爭議

譯言

2025-06-13 12:43:33

美媒：伊朗又向東大訂購數千噸導彈原料，能制造800枚短程導彈！

美媒：伊朗又向東大訂購數千噸導彈原料，能制造800枚短程導彈！

阿龍聊軍事

2025-06-10 06:23:11

新娘下車禮9萬9，新郎去銀行取錢再也沒回來，她找到婆家后愣了

新娘下車禮9萬9，新郎去銀行取錢再也沒回來，她找到婆家后愣了

朗威談星座

2025-06-14 04:43:01

伊朗挨揍，我們早撤了，咱們跟伊朗的關系沒你想的好

伊朗挨揍，我們早撤了，咱們跟伊朗的關系沒你想的好

老土歷史

2025-06-13 19:08:48

AI產業主平臺領航智能+時代

12871文章數 66067關注度

往期回顧全部

科技要聞

一輛新車比特斯拉FSD都便宜，全行業陪葬？

頭條要聞

牛彈琴：中東大戰開啟以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴：中東大戰開啟以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金，全新世俱杯來了！

娛樂要聞

鳳凰傳奇曾毅手表引爭議含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

數碼

手機

游戲

公開課

教育要聞

老師表面喜歡，實則“內心反感”的4種學生，地位還不如倒數差生

數碼要聞

REDMI即將發布首款旗艦小平板全面超越iPad mini

手機要聞

小米 Poco F7 手機渲染圖曝光：驍龍 8s Gen 4 芯片、7550mAh電池

SIE總裁稱PS+訂閱價格還會上漲玩家更喜歡高級檔會員

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：亚洲欧美日韩另类精品一区| 亚洲大成色www永久网站注册| 国内自产少妇自拍区免费| 成人免费无码不卡毛片| 亚洲av无码国产综合专区| 2021国产精品香蕉在线观看| 亚洲国产福利成人一区| 久久亚洲精品无码观看不卡| 久久九九国产精品怡红院| 少妇人妻偷人精品无码视频新浪| 亚洲中文字幕婷婷在线| 亚洲国产成人av在线电影播放| 亚洲熟妇av日韩熟妇在线| 色窝窝无码一区二区三区| 国产欧美熟妇另类久久久| 欧美色欧美亚洲日韩在线播放| 久久精品人妻一区二区三区| 中国精品18videosex性中国| 伊人久久无码中文字幕| 伊人久久大香线蕉综合网| a级国产乱理论片在线观看| 一本精品99久久精品77| 亚洲国产精彩中文乱码av| 日本japanese丰满少妇| 国产99视频精品免视看9| 免费人成网站在线观看欧美| 成在线人av无码高潮喷水| 狠狠色婷婷久久一区二区| 337p日本欧洲亚洲大胆69影院| 欧美日韩国产一区二区三区不卡| 大又大又粗又硬又爽少妇毛片| 尤物99国产成人精品视频| 欧美日韩在大午夜爽爽影院| 特级做a爰片毛片免费看无码| 色视频综合无码一区二区三区| 国产农村乱辈无码| 亚洲午夜福利在线观看| 成人无码区免费A片在线软件| 国产综合精品一区二区三区| 成人性生交大片免费卡看| 精品丝袜国产自在线拍小草|