大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

o4-mini暴擊六大數學天團,攻破陶哲軒難題!4.5h激戰人類陣地失守

0
分享至


新智元報道

編輯:桃子

【新智元導讀】不到兩年,我們會見證AI數學家的重大突破!最新實驗中,o4-mini與40位數學家,一同挑戰300道菲爾茲獎級難題。o4-mini一舉擊敗6組團隊,超越人類平均水平。

八支「數學家天團」和o4-mini-medium同臺競技,誰會最終勝出?

最近,Epoch AI團隊舉辦了一場競賽,專門考察AI數學能力的進展。


這場比賽邀請了約40位數學精英,分成8組,每組由學科專家和優秀本科生組成。

他們要與AI一同在陶哲軒等人提出的FrontierMath基準上,展開終極對決。

比賽一共23題,限時4.5小時,實驗最終得出:

o4-mini-medium碾壓人類平均水平(19%),解決了約22%題目。

不過,o4-mini能夠解決的問題,至少被一組數學家團隊破解。由此,人類團隊總體上解決了約35%的題目。


結果顯示,o4-mini一共擊敗六組團隊,在數學領域展現了驚人的潛力。

谷歌前CEO Eric Schmidt預測,未來1-2年內,「超級程序員」和「AI數學家」將取得重大突破。


o4-mini,作為AI的代表,便是一個很好的開始。

菲爾茲獎得主出題,AI擊敗6隊

提及FrontierMath,想必圈內人無人不知。

這一基準于24年11月首次亮相,由菲爾茲獎得主與業內多位著名數學家共同出題,挑戰AI數學能力的極限。


它包含300個問題,難度從高年級本科生水平到菲爾茲獎得主都認為具有挑戰性的問題。

那么,這么多數學難題,人類在其表現中如何呢?

為了確定人類極限,Epoch AI便在MIT組織了這場比賽——FrontierMath Competition。


如上所述,每組被分成4-5人的8組團隊,在聯網情況下,最多用4.5h去解決23個數學題。最后,再與o4-mini-medium進行比拼。

o4-mini-medium的表現雖超過了平均人類團隊,但不如所有團隊的綜合得分。

因此,在FrontierMath上,AI尚未完全超越人類,但Epoch AI認為頂尖模型很快就會做到。

目前,這份數據僅代表FrontierMath的一個小型非代表性子集。

若綜合考慮,人類整體基準大約在30-50%之間。

接下來,Epoch AI詳細解釋了關于人類基準結果的四個關鍵點,包括其中來源和含義。

人類選手,并不代表數學SOTA

人類團隊的表現,因團隊而異構成。

由于參賽者主要來自波士頓數學社區,分析領域的專家較少,導致了整體專長分布不均。

每隊雖至少有一名某一領域的專家,但也沒有哪支隊伍在所有高級領域,如拓撲學、代數幾何、組合數學、數論等都有專家覆蓋。

這使得人類平均分,可能低估了真實水平。

最重要的是,比賽4.5小時時間,可能限制了人類的表現。AI解決每題只需5-20分鐘,而人類平均耗時約40分鐘。

此前研究表明,人類在長時間任務上表現更具潛力,而AI性能可能在一定時間后趨于平穩。

為了更全面評估,研究團隊采用了兩種方式計算人類基準:

1. 團隊平均得分:每支隊伍獨立表現,得分約19%

2. 綜合得分:如果任一隊答對某題就算正確,得分提升至約35%

若要為整個FrontierMath設定人類基準,還需解決第二個問題:比賽問題的難度分布與完整 FrontierMath數據集不同。

為此,研究人員按難度層級拆分結果,并根據完整基準的難度分布加權總體得分。


結果,按整體難度分布加權后,人類基準提升到約30%,基于「多次嘗試」方法,更是刷新到了52%。

而此時,AI的加權得分約為37%。

Epoch AI指出,o4-mini-medium得分提升,是因為比賽中的Tier 1/Tier 2問題相對完整基準的同級問題較簡單,說明了這一調整方法仍不理想。

設計巧思:推理而非知識

FrontierMath比賽的獨特之處在于,它更注重數學推理能力,而非單純的知識儲備。

當前,AI在知識廣度上遠超人類——可以輕松調用數學、微分幾何等龐大知識庫,而人類很難精通所有領域。


因此,比賽題目被精心設計,盡量減少對背景知識的依賴。

比如,研究人員選用了7道適合優秀本科生的「通用問題」,以及16道專為專家定制的「高級問題」。

這些題目主要覆蓋了四大類:拓撲學、代數幾何、組合數學和數論。

為了激勵參賽者挑戰高難度題目,比賽還采用了特殊計分規則:

高級題目每題2分,通用題目每題1分;每個領域至少答對一題可額外加1分。

此外,獎金池也非常誘人,第一名1000美元,第二名800美元,第三名400美元。

全面超越人類,指日可待?

盡管o4-mini-medium在FrontierMath上,尚未完全超越人類,但其表現已令人矚目。

它在比賽的得分不僅于人類頂尖團隊相當,而且在知識廣度上占據巨大優勢。

Epoch AI預測,到2025年底,AI和可能明確超越30%-50%的人類基準。


有網友對此表示,要讓AI成為超人的存在,必須定期解決人類數學家無法解決的問題。


然而,AI的成功機制依然是一道謎題。

它們究竟是靠猜測解題,還是真正掌握了數學推理?與人類的方法相比,有何不同?

在研究人員看來,這些問題有待進一步探索。

此外,FrontierMath的題目并非實際數學研究的直接代表,o4-mini的超人表現是否會轉化為研究突破,仍需要時間來驗證。

參考資料:

https://x.com/EpochAIResearch/status/1926031207482953794


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
36D“奶糖妹妹”私照公開,發育過猛了,這是不打碼能看的?

36D“奶糖妹妹”私照公開,發育過猛了,這是不打碼能看的?

健身迷
2025-06-14 09:37:06
機上沒有中國人,燒焦遺體陸續找到,機長最后大喊:發動機故障!

機上沒有中國人,燒焦遺體陸續找到,機長最后大喊:發動機故障!

悠閑歷史
2025-06-12 22:42:59
美國的簽證秒過是一種什么體驗?網友:都是經驗之談,很實用啊

美國的簽證秒過是一種什么體驗?網友:都是經驗之談,很實用啊

娛樂圈人物大賞
2025-06-02 00:05:21
著名詩人逝世,享年59歲

著名詩人逝世,享年59歲

大象新聞
2025-06-13 17:59:01
魔獸國服首個巫妖王極限擊殺!站擼4分鐘,Boss沒放技能就倒了

魔獸國服首個巫妖王極限擊殺!站擼4分鐘,Boss沒放技能就倒了

魔獸世界情報局
2025-06-14 00:29:58
78歲大媽3分鐘簽完安樂死文件,醫生突然遞來手機:"您該先聽這個"

78歲大媽3分鐘簽完安樂死文件,醫生突然遞來手機:"您該先聽這個"

雨仔講故事
2025-06-13 18:47:33
哈梅內伊:掌權伊朗34年,家族能動員千萬人,為何地位難以撼動?

哈梅內伊:掌權伊朗34年,家族能動員千萬人,為何地位難以撼動?

WarOH協虎
2024-01-12 23:45:03
反轉?韋東奕未獨立在頂刊發論文,成果不夠,學生說聽不懂他的課

反轉?韋東奕未獨立在頂刊發論文,成果不夠,學生說聽不懂他的課

行者聊官
2025-06-12 15:09:13
梁朝偉和湯唯在《色戒》里“假戲真做”?網友爆出截圖:一目了然

梁朝偉和湯唯在《色戒》里“假戲真做”?網友爆出截圖:一目了然

姜糖先生
2025-06-08 19:31:00
美女杭州萬象城購物被劫匪捅數十刀,胸部假體擋刀挽回一條生命

美女杭州萬象城購物被劫匪捅數十刀,胸部假體擋刀挽回一條生命

一個島島
2025-06-14 00:00:21
5打8!史上最黑天王山!肖華直接下場操控!打不了 !不打了!告辭!

5打8!史上最黑天王山!肖華直接下場操控!打不了 !不打了!告辭!

貴圈真亂
2025-06-14 11:43:33
伊朗發動飽和式攻擊,以色列攔截失敗,內塔尼亞胡被曝早逃出國了

伊朗發動飽和式攻擊,以色列攔截失敗,內塔尼亞胡被曝早逃出國了

千里持劍
2025-06-14 09:35:43
6200萬,重簽勇士,始終沒有讓人失望,球隊沖冠軍確實是你最關鍵

6200萬,重簽勇士,始終沒有讓人失望,球隊沖冠軍確實是你最關鍵

青山隱隱啊
2025-06-14 10:21:59
伊以互毆,雙方損失多少?導彈襲擊是伊朗心虛?離全面戰爭有多遠

伊以互毆,雙方損失多少?導彈襲擊是伊朗心虛?離全面戰爭有多遠

戰友老鄧
2025-06-14 12:19:54
請記住這個名字:羅帥宇,一個被醫療黑幕絞殺的孤膽醫者

請記住這個名字:羅帥宇,一個被醫療黑幕絞殺的孤膽醫者

大道微言
2025-06-13 16:37:53
不是王楚欽,陳夢公布擇偶,喜歡成熟,1人有機會,曾表白陳夢

不是王楚欽,陳夢公布擇偶,喜歡成熟,1人有機會,曾表白陳夢

東球弟
2025-06-14 10:46:08
布蘭妮18歲兒子帶漂亮女友兜風,140萬超跑是媽媽送的,引發爭議

布蘭妮18歲兒子帶漂亮女友兜風,140萬超跑是媽媽送的,引發爭議

譯言
2025-06-13 12:43:33
美媒:伊朗又向東大訂購數千噸導彈原料,能制造800枚短程導彈!

美媒:伊朗又向東大訂購數千噸導彈原料,能制造800枚短程導彈!

阿龍聊軍事
2025-06-10 06:23:11
新娘下車禮9萬9,新郎去銀行取錢再也沒回來,她找到婆家后愣了

新娘下車禮9萬9,新郎去銀行取錢再也沒回來,她找到婆家后愣了

朗威談星座
2025-06-14 04:43:01
伊朗挨揍,我們早撤了,咱們跟伊朗的關系沒你想的好

伊朗挨揍,我們早撤了,咱們跟伊朗的關系沒你想的好

老土歷史
2025-06-13 19:08:48
2025-06-14 13:07:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12871文章數 66067關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

教育
數碼
手機
游戲
公開課

教育要聞

老師表面喜歡,實則“內心反感”的4種學生,地位還不如倒數差生

數碼要聞

REDMI即將發布首款旗艦小平板 全面超越iPad mini

手機要聞

小米 Poco F7 手機渲染圖曝光:驍龍 8s Gen 4 芯片、7550mAh電池

SIE總裁稱PS+訂閱價格還會上漲 玩家更喜歡高級檔會員

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲欧美日韩另类精品一区| 亚洲大成色www永久网站注册| 国内自产少妇自拍区免费| 成人免费无码不卡毛片| 亚洲av无码国产综合专区| 2021国产精品香蕉在线观看| 亚洲国产福利成人一区| 久久亚洲精品无码观看不卡| 久久九九国产精品怡红院| 少妇人妻偷人精品无码视频新浪| 亚洲中文字幕婷婷在线| 亚洲国产成人av在线电影播放| 亚洲熟妇av日韩熟妇在线| 色窝窝无码一区二区三区| 国产欧美熟妇另类久久久| 欧美色欧美亚洲日韩在线播放| 久久精品人妻一区二区三区| 中国精品18videosex性中国| 伊人久久无码中文字幕| 伊人久久大香线蕉综合网| a级国产乱理论片在线观看| 一本精品99久久精品77| 亚洲国产精彩中文乱码av| 日本japanese丰满少妇| 国产99视频精品免视看9| 免费人成网站在线观看欧美| 成在线人av无码高潮喷水| 狠狠色婷婷久久一区二区| 337p日本欧洲亚洲大胆69影院| 欧美日韩国产一区二区三区不卡| 大又大又粗又硬又爽少妇毛片| 尤物99国产成人精品视频| 欧美日韩在大午夜爽爽影院| 特级做a爰片毛片免费看无码| 色视频综合无码一区二区三区| 国产农村乱辈无码| 亚洲午夜福利在线观看| 成人无码区免费A片在线软件| 国产综合精品一区二区三区| 成人性生交大片免费卡看| 精品丝袜国产自在线拍小草|