大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

全球30名頂尖數學家秘密集會圍剿AI,當場破防!驚呼已接近數學天才

0
分享至


新智元報道

編輯:Aeneas 好困

【新智元導讀】最近,30位世界頂尖數學家親自出馬,在UC伯克利對OpenAI o4-mini展開「圍剿」,兩天連出教授級難題,結果卻當場集體「破防」!有人直言:這個AI,的確已接近數學天才的水平。曾經以為AGI遙遙無期,如今仿佛只剩臨門一腳了……

AI做數學,到底有多強?

就在最近,30位世界著名數學家齊聚UC伯克利,希望在一次秘密數學會議上超越AI。

在連續兩天用教授級難題轟炸這個AI后,研究者們驚愕地發現,它居然能解除一部分這世界上最難的可解問題!

其中一位數學家當場折服,直言這些模型已經接近了數學天才的水平。


頂尖數學家們,服了

在五月中旬的一個周末,一場秘密數學峰會悄然召開。

三十位全球頂尖數學家與一個推理聊天機器人展開對決,后者需要解答專家們專門設計的難題。

結果如開頭所見,數學家們徹底服了。

本次參賽的這個機器人,背后就是OpenAI的o4-mini,它已經能進行極其復雜的推理。

當然,它并不是世界上唯一有此能力的模型,谷歌的Gemini 2.5 Flash也具備相似的能力。

為什么o4-mini做起數學題來,能這么強?

這是因為,它是基于專門的數據集訓練,并獲得了更強的RLHF。這種方法,就能讓它比傳統的LLM更深入地鉆研復雜數學問題。

Epoch AI,尋根問底

而訓出o4-mini后,OpenAI也一直十分關注它的解題能力。

為了追蹤o4-mini的進展,OpenAI此前曾委托非營利組織Epoch AI設計300道解法尚未公開的數學題,專門來考驗大模型。

這些題的亮點就在于,因為解法并未問世,就絕不可能存在于訓練數據中。

果然,當Epoch AI用這些與訓練數據截然不同的問題去測試幾款推理模型時,它們幾乎全部翻車了。

即使表現最好的模型,解出率也不到2%。

LLM做數學,真的不行么?Epoch AI沒有放棄探索。

2024年9月,Epoch AI 聘請了剛獲得數學博士學位的Elliot Glazer,參與到一個代號為FrontierMath的全新新基準測試項目中。


這個項目的目的,就是收集不同難度登機的全新數學題。其中,T1-T3分別覆蓋本科、研究生及研究級別的挑戰。

結果,o4-mini讓人刮目相看。

到2025年2月,Glazer發現,o4-mini竟然能解出約20%的題目!

他們要與AI一同在陶哲軒等人提出的FrontierMath基準上,展開終極對決。

比賽一共23題,限時4.5小時,實驗最終得出:

o4-mini-medium碾壓人類平均水平(19%),解決了約22%題目。

不過,o4-mini能夠解決的問題,至少被一組數學家團隊破解。由此,人類團隊總體上解決了約35%的題目。


結果顯示,o4-mini一共擊敗六組團隊,在數學領域展現了驚人的潛力。

T4級測試,開始

隨后,他開始著手進行第四等級的測試——這次,要找出100道即使對專業數學家也極具挑戰性的難題。

放眼全球,能提出這種問題的人寥寥無幾,更不用說給出解答了。

為此,他要求了全球頂尖的數學家,要求他們必須簽署保密協議,甚至只能通過加密通訊應用Signal交流。

因為他擔心,如果用電子郵件這類傳統的聯絡方式,有可能就會被LLM掃描到,無意中成為訓練數據,從而污染整個測試數據集。

由于采用的方式格外嚴謹,起初項目的進展十分緩慢。

為了加快進度,Glazer推動Epoch AI 在5月17日(周六)和18日(周日)這兩天,舉辦了這場線下會議。

在會上,數學家們將敲定最后一批最高階的數學難題。

絞盡腦汁,誓要難倒AI

弗吉尼亞大學數學家、會議領導者兼評委Ken Ono將30名與會者分為六人一組。


在為期兩天的會議中,這些頂尖學者需要相互比拼,看誰能設計出自己能解、卻又能難倒 AI推理機器人的題目。

這個項目的獎勵,也是十分誘人。

o4-mini每解不出一道題,該題的出題人便能獲得7500美元的獎勵。

結果誰都沒想到,o4-mini給了數學家們致命一擊!

在周六深夜,全場數學家,都感覺十分挫敗——o4-mini出人意料的數學天賦,直接讓整個小組的努力付諸東流。

Ono出了一道題,是他專業領域內的專家都公認的數論開放性問題,可以說是一道非常不錯的考題,已經達到了博士生的水平。

他充滿信心地把這道題給了o4-mini,結果在接下來的十分鐘里,他直接遭受了暴擊!

只見o4-mini如行云流水一般,實時演算出了完整的解法,還同步展示出了自己的推理過程。

它先花了兩分鐘,檢索并吃透了相關領域的文獻,然后在屏幕上寫道,為了學習,它想先嘗試一個簡化的「玩具」版本。

幾分鐘后,它寫道,自己已準備好解決那個更難的原題。

又過了五分鐘,o4-mini 給出了一個正確卻又俏皮得意的解答。

Ono描述道:它開始變得得意洋洋,甚至還加上一句,「無需引用,因為這個神秘數字由我算出!」

數學家大受打擊:我以為AGI永遠不會到來

大受打擊的Ono在周日一大早就趕緊登上Signal,向所有與會者通報了情況。

我完全沒料到,要跟這樣的LLM交手,也從未在模型中見過如此強大的推理能力。這分明是科學家的工作方式。這太可怕了。

最終,團隊還是成功找到了10道難倒機器人的題,但AI的驚人能力,仍然讓所有研究人員驚嘆不已。

Ono感覺,與它共事就好像與一位「強大的合作者」協作。

倫敦數學科學研究所的數學家、AI數學應用先驅之一的Yang Hui He說:「這是一個頂尖優秀的研究生才能做到的事——不,實際上它做得更多?!?/p>


而且,o4-mini的速度也令人驚異。它遠遠超越了專業的數學家,人類專家需要數周甚至數月才能完成的工作,它只需要幾分鐘。

不僅如此,這次o4-mini的進步,也給人類敲響了警鐘。

Ono和He都擔心,o4-mini給出的結果可能會被人們過度信賴。

「證明方法有歸納法、反證法,現在又多了個恐嚇法。」Yang Hui He說。

「當某人用足夠權威的口吻說話時,人們會感到敬畏。我認為o4-mini已經掌握了恐嚇式證明的精髓,因為它說每句話時都帶著不容置疑的自信?!?/p>

會議臨近結束時,整個團隊也開始思考,數學家的未來將何去何從。

討論轉向了那個無法回避的T5——那些連最頂尖的數學家也無法解決的問題。

如果最終,AI達到了那個層次,那么顯然,數學家的角色將經歷劇變。

到那時,數學家或許將轉向只負責提出問題,并與推理機器人互動,引導它們發現新的數學真理,就像教授指導研究生一樣。

因此,Ono預測,在高等教育中培養創造力,將是讓數學這門學科薪火相傳的關鍵。

「我一直告訴我的同事們,那種認為AGI永遠不會到來,認為它不過是臺計算機的想法,是大錯特錯的。」Ono說。

「我不想渲染恐慌,但在許多方面,這些LLM已經超越了我們世界上絕大多數最優秀的研究生。

陶哲軒:早就知道了

其實AI做數學研究的這種超絕能力,陶哲軒早就心知肚明了。

最近,他一直在社交平臺上做出密集分享,給我們匯報AI解數學題的驚人進展。

比如就在幾天前,他剛剛分享了這個消息。


6月2日,Fan Zheng在arXiv亮出的最新論文——又又又一次把和差集指數θ紀錄往上推了0.000027,從1.173050提升到了1.173077。

0.000027——一個在顯微鏡下才分辨得出的跨度,卻把加法組合學的天花板又往上頂了一寸。


論文地址:https://arxiv.org/abs/2506.01896

如此迅速、連續的取得進展,都離不開數學家與AI(AlphaEvolve)的相互配合。

這種突破讓陶哲軒都驚嘆:「對我而言,這是一個引人入勝的例證。」

陶哲軒認為,這展示了未來的數學研究中,高度計算機輔助、中度計算機輔助與傳統「紙筆」方法之間將如何相互作用。

這些范式各有優劣。

例如,當前的AlphaEvolve還極難用上后續論文中使用的漸近構造;但另一方面,若沒有AlphaEvolve的暴力搜索,人類方法也很難發現這些改進的切入點。


GitHub Copilot在幫助新手入門和處理基礎任務時表現得相當不錯。

它能幫助用戶快速上手Lean語言,提供語法提示,并智能補全基本定義和聲明。

在比較簡單的證明,比如函數極限的和定理中,Copilot還能準確預測證明結構和關鍵步驟,表現得就像個得力助手一樣。

但當證明變得復雜時,Copilot的短板就暴露出來了。

比如在處理函數極限的差和積定理時,它在復雜的代數推導、尋找合適的數學引理(比如與絕對值相關的引理)等方面顯得力不從心。

Copilot有時還會出現「幻覺」,生成壓根不存在的策略,或者犯一些低級錯誤,導致證明過程亂成一團。

這時,陶哲軒不得不親自出馬,修正錯誤,甚至完全接管證明。


但總之,現在LLM的發展,已經讓我們愈發接近曾經陶哲軒的那個預言了——

在2026年,AI將與搜索和符號數學工具相結合,成為數學研究中值得信賴的合著者。

參考資料:

https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

責任編輯:郜雪丹_NT5097

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗要變天了

伊朗要變天了

戰爭研究所
2025-06-13 23:40:34
國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

小嵩
2025-06-14 08:49:51
曝清華博士后出軌多名女性,女方高顏值照流出,事發全過程披露

曝清華博士后出軌多名女性,女方高顏值照流出,事發全過程披露

博士觀察
2025-06-14 19:54:04
國家電力局長意外被捕!居然早成美國間諜,被捕時叫囂我是美國人,被判5年監禁后驅離出境

國家電力局長意外被捕!居然早成美國間諜,被捕時叫囂我是美國人,被判5年監禁后驅離出境

大白聊IT
2025-06-14 22:40:59
上海航空突發!機艙內冒出濃煙!有人涉嫌違規…乘客礦泉水接力撲救,“劫后余生的感覺”

上海航空突發!機艙內冒出濃煙!有人涉嫌違規…乘客礦泉水接力撲救,“劫后余生的感覺”

上觀新聞
2025-06-14 11:57:34
鳳凰傳奇出事了,曾毅手表事件后又被爆出新料,青島演唱會要涼?

鳳凰傳奇出事了,曾毅手表事件后又被爆出新料,青島演唱會要涼?

陳博世財經
2025-06-14 14:28:17
最新戰況:以色列損失慘重,F-35被擊落,到處都是爆炸聲

最新戰況:以色列損失慘重,F-35被擊落,到處都是爆炸聲

時時有聊
2025-06-14 11:54:59
伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

看看新聞Knews
2025-06-14 20:25:47
打不過就加入?印度網紅模仿豪哥哥穿唐裝、用咖喱味中文嘲諷國足

打不過就加入?印度網紅模仿豪哥哥穿唐裝、用咖喱味中文嘲諷國足

史書無明
2025-06-14 15:53:27
身處異國他鄉的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

身處異國他鄉的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

南山青松
2025-06-11 17:01:44
30歲韋世豪6秒無解一條龍:華麗1V2單干+對手被晃暈 暴力抽射破門

30歲韋世豪6秒無解一條龍:華麗1V2單干+對手被晃暈 暴力抽射破門

風過鄉
2025-06-14 20:12:14
伊朗稱逮捕以色列F-35戰機飛行員

伊朗稱逮捕以色列F-35戰機飛行員

國際在線
2025-06-14 21:03:25
馬斯克吐槽:香港法官佩戴過時的假發,像是在清倉甩賣時買的!網友:28年了辮子都還沒剪掉

馬斯克吐槽:香港法官佩戴過時的假發,像是在清倉甩賣時買的!網友:28年了辮子都還沒剪掉

大白聊IT
2025-06-14 22:41:29
鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

妮妮玩不夠
2025-06-14 07:47:04
三航母時代即將到來!官方披露福建艦最新消息

三航母時代即將到來!官方披露福建艦最新消息

政知新媒體
2025-06-14 16:53:19
上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
憑什么以色列可以這樣,而俄羅斯卻不行?

憑什么以色列可以這樣,而俄羅斯卻不行?

清濱酒客
2025-06-13 15:28:28
恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

柳絮憶史
2025-06-14 07:10:03
印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

不掉線電波
2025-06-14 21:25:56
國防大學的教授也是一個水貨

國防大學的教授也是一個水貨

回旋鏢
2025-06-14 15:59:57
2025-06-15 04:32:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12876文章數 66068關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

藝術
本地
時尚
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久久久久久久毛片精品| 一二三四在线视频社区3| 亚洲2019av无码网站在线| 国产放荡av剧情演绎麻豆| 性色欲网站人妻丰满中文久久不卡| 级r片内射在线视频播放| 国产饥渴孕妇在线播放| 久久和欧洲码一码二码三码| 色偷偷av一区二区三区| 色狠狠色狠狠综合天天| 欧美激情做真爱牲交视频| 亚洲精品一区二区三区婷婷月| 国精品无码一区二区三区在线a片| 色猫咪免费人成网站在线观看| 波多野结av在线无码中文免费| 男人的天堂在线无码观看视频| 久久久久久久综合狠狠综合| 欧洲成人一区二区三区| 亚洲成av人片在线观看无码| 精品熟女少妇av久久免费软件| 三年片在线视频中国| 日本三级香港三级三级人!妇久| 成人无码h动漫在线网站免费| 亚洲午夜福利av一区二区无码| 成人午夜特黄aaaaa片男男| 精品精品国产男人的天堂| 韩国午夜理伦三级在线观看| 人妻少妇熟女javhd| av无码中文字幕不卡一区二区三区| 亚洲综合成人婷婷五月网址| 中国精学生妹品射精久久| 美女被?到高潮喷出白浆漫画入口| 少妇邻居内射在线| 午夜dv内射一区区| 久久久久久久99精品免费观看| 亚洲小说春色综合另类| 欧洲亚洲国产成人综合色婷婷| 久久精品岛国av一区二区无码| 国产精品视频观看裸模| 国产在线观看免费视频软件| 国产精品看高国产精品不卡|