新智元報道
編輯:桃子
【新智元導讀】不到兩年,我們會見證AI數學家的重大突破!最新實驗中,o4-mini與40位數學家,一同挑戰300道菲爾茲獎級難題。o4-mini一舉擊敗6組團隊,超越人類平均水平。
八支「數學家天團」和o4-mini-medium同臺競技,誰會最終勝出?
最近,Epoch AI團隊舉辦了一場競賽,專門考察AI數學能力的進展。
這場比賽邀請了約40位數學精英,分成8組,每組由學科專家和優秀本科生組成。
他們要與AI一同在陶哲軒等人提出的FrontierMath基準上,展開終極對決。
比賽一共23題,限時4.5小時,實驗最終得出:
o4-mini-medium碾壓人類平均水平(19%),解決了約22%題目。
不過,o4-mini能夠解決的問題,至少被一組數學家團隊破解。由此,人類團隊總體上解決了約35%的題目。
結果顯示,o4-mini一共擊敗六組團隊,在數學領域展現了驚人的潛力。
谷歌前CEO Eric Schmidt預測,未來1-2年內,「超級程序員」和「AI數學家」將取得重大突破。
o4-mini,作為AI的代表,便是一個很好的開始。
菲爾茲獎得主出題,AI擊敗6隊
提及FrontierMath,想必圈內人無人不知。
這一基準于24年11月首次亮相,由菲爾茲獎得主與業內多位著名數學家共同出題,挑戰AI數學能力的極限。
它包含300個問題,難度從高年級本科生水平到菲爾茲獎得主都認為具有挑戰性的問題。
那么,這么多數學難題,人類在其表現中如何呢?
為了確定人類極限,Epoch AI便在MIT組織了這場比賽——FrontierMath Competition。
如上所述,每組被分成4-5人的8組團隊,在聯網情況下,最多用4.5h去解決23個數學題。最后,再與o4-mini-medium進行比拼。
o4-mini-medium的表現雖超過了平均人類團隊,但不如所有團隊的綜合得分。
因此,在FrontierMath上,AI尚未完全超越人類,但Epoch AI認為頂尖模型很快就會做到。
目前,這份數據僅代表FrontierMath的一個小型非代表性子集。
若綜合考慮,人類整體基準大約在30-50%之間。
接下來,Epoch AI詳細解釋了關于人類基準結果的四個關鍵點,包括其中來源和含義。
人類選手,并不代表數學SOTA
人類團隊的表現,因團隊而異構成。
由于參賽者主要來自波士頓數學社區,分析領域的專家較少,導致了整體專長分布不均。
每隊雖至少有一名某一領域的專家,但也沒有哪支隊伍在所有高級領域,如拓撲學、代數幾何、組合數學、數論等都有專家覆蓋。
這使得人類平均分,可能低估了真實水平。
最重要的是,比賽4.5小時時間,可能限制了人類的表現。AI解決每題只需5-20分鐘,而人類平均耗時約40分鐘。
此前研究表明,人類在長時間任務上表現更具潛力,而AI性能可能在一定時間后趨于平穩。
為了更全面評估,研究團隊采用了兩種方式計算人類基準:
1. 團隊平均得分:每支隊伍獨立表現,得分約19%
2. 綜合得分:如果任一隊答對某題就算正確,得分提升至約35%
若要為整個FrontierMath設定人類基準,還需解決第二個問題:比賽問題的難度分布與完整 FrontierMath數據集不同。
為此,研究人員按難度層級拆分結果,并根據完整基準的難度分布加權總體得分。
結果,按整體難度分布加權后,人類基準提升到約30%,基于「多次嘗試」方法,更是刷新到了52%。
而此時,AI的加權得分約為37%。
Epoch AI指出,o4-mini-medium得分提升,是因為比賽中的Tier 1/Tier 2問題相對完整基準的同級問題較簡單,說明了這一調整方法仍不理想。
設計巧思:推理而非知識
FrontierMath比賽的獨特之處在于,它更注重數學推理能力,而非單純的知識儲備。
當前,AI在知識廣度上遠超人類——可以輕松調用數學、微分幾何等龐大知識庫,而人類很難精通所有領域。
因此,比賽題目被精心設計,盡量減少對背景知識的依賴。
比如,研究人員選用了7道適合優秀本科生的「通用問題」,以及16道專為專家定制的「高級問題」。
這些題目主要覆蓋了四大類:拓撲學、代數幾何、組合數學和數論。
為了激勵參賽者挑戰高難度題目,比賽還采用了特殊計分規則:
高級題目每題2分,通用題目每題1分;每個領域至少答對一題可額外加1分。
此外,獎金池也非常誘人,第一名1000美元,第二名800美元,第三名400美元。
全面超越人類,指日可待?
盡管o4-mini-medium在FrontierMath上,尚未完全超越人類,但其表現已令人矚目。
它在比賽的得分不僅于人類頂尖團隊相當,而且在知識廣度上占據巨大優勢。
Epoch AI預測,到2025年底,AI和可能明確超越30%-50%的人類基準。
有網友對此表示,要讓AI成為超人的存在,必須定期解決人類數學家無法解決的問題。
然而,AI的成功機制依然是一道謎題。
它們究竟是靠猜測解題,還是真正掌握了數學推理?與人類的方法相比,有何不同?
在研究人員看來,這些問題有待進一步探索。
此外,FrontierMath的題目并非實際數學研究的直接代表,o4-mini的超人表現是否會轉化為研究突破,仍需要時間來驗證。
參考資料:
https://x.com/EpochAIResearch/status/1926031207482953794
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.