網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

30位數(shù)學(xué)家出題也差點(diǎn)沒(méi)難倒AI，但這似乎還不意味著它“懂?dāng)?shù)學(xué)”

2025-06-08 22:25:50　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

據(jù)知名科普雜志《科學(xué)美國(guó)人》的報(bào)道，今年五月中旬，一場(chǎng)由非營(yíng)利組織 Epoch AI 主辦的 FrontierMath 研討會(huì)在加州伯克利秘密舉行。三十位被稱(chēng)為“全球最負(fù)盛名的數(shù)學(xué)家”齊聚一堂，他們的任務(wù)只有一個(gè)：設(shè)計(jì)出人類(lèi)專(zhuān)家能夠解決、但最先進(jìn)的 AI 卻會(huì)束手無(wú)策的數(shù)學(xué)難題。

（來(lái)源：Epoch AI）

這場(chǎng)對(duì)決的主角，是來(lái)自 OpenAI 的推理大語(yǔ)言模型 o4-mini。與早期版本的 ChatGPT 相比，o4-mini 在專(zhuān)門(mén)的數(shù)據(jù)集上進(jìn)行訓(xùn)練，得到了更強(qiáng)的人類(lèi)反饋強(qiáng)化，能夠進(jìn)行更加復(fù)雜和深入的數(shù)學(xué)推理。

與會(huì)的數(shù)學(xué)家們，包括弗吉尼亞大學(xué)的著名數(shù)學(xué)家 Ken Ono，在兩天的時(shí)間里，向這個(gè)數(shù)字大腦拋出了一系列教授級(jí)別的難題。

然而，結(jié)果令所有人驚訝。

報(bào)道提到，Ken Ono 在會(huì)議中遇到了一個(gè)令他十分難忘的時(shí)刻。他設(shè)計(jì)了一個(gè)在他所在領(lǐng)域（數(shù)論）被認(rèn)為是“開(kāi)放性問(wèn)題”的博士級(jí)別難題，并將其交給了 o4-mini。在接下來(lái)的十分鐘里，Ono 和其他與會(huì)者在驚愕中見(jiàn)證了 AI 實(shí)時(shí)展開(kāi)解題過(guò)程。模型首先花了大約兩分鐘，迅速檢索并“掌握”了該領(lǐng)域的相關(guān)文獻(xiàn)。緊接著，它提出先解決一個(gè)簡(jiǎn)化的“玩具版本”問(wèn)題以進(jìn)行學(xué)習(xí)。幾分鐘后，它宣布已準(zhǔn)備好應(yīng)對(duì)真正的挑戰(zhàn)。最終，在總共不到十分鐘的時(shí)間里，o4-mini 不僅給出了正確答案，其輸出的文字甚至帶有一種俏皮的自信，結(jié)尾寫(xiě)道：“無(wú)需引用，因?yàn)檫@個(gè)神秘?cái)?shù)字是由我計(jì)算出來(lái)的！”

圖丨Ken Ono（來(lái)源：University of Virginia）

這一幕給 Ono 帶來(lái)相當(dāng)大的沖擊，他坦言：“我從未在模型中見(jiàn)過(guò)那種推理方式。那是科學(xué)家的工作方式。這太嚇人了?！彼踔猎谥苋涨宄烤推炔患按赝ㄟ^(guò)加密通訊軟件 Signal 提醒其他與會(huì)者，他感覺(jué)自己面對(duì)的不再是一個(gè)程序，而是一個(gè)“強(qiáng)大的合作者”。

類(lèi)似的震撼場(chǎng)面在會(huì)議期間反復(fù)上演。其他數(shù)學(xué)家發(fā)現(xiàn)，即使是涉及最近研究成果的問(wèn)題，AI 也表現(xiàn)出驚人的文獻(xiàn)檢索和應(yīng)用能力。它能夠迅速找到、引用并應(yīng)用相關(guān)的研究結(jié)果，這種速度和準(zhǔn)確性遠(yuǎn)超人類(lèi)專(zhuān)家的預(yù)期。倫敦?cái)?shù)學(xué)科學(xué)研究所的 Yang-Hui He 也給出了極高的評(píng)價(jià)，認(rèn)為 AI 的表現(xiàn)“比一個(gè)非常非常優(yōu)秀的博士生做得還要多”。

在這場(chǎng)挑戰(zhàn)中，o4-mini 在處理需要深度幾何直覺(jué)和拓?fù)淅斫獾膯?wèn)題時(shí)表現(xiàn)尤其出色，而且其速度遠(yuǎn)超人類(lèi)，能在幾分鐘內(nèi)完成人類(lèi)專(zhuān)家需要數(shù)周甚至數(shù)月才能完成的工作。盡管最終與會(huì)者們還是成功找到了 10 個(gè)能夠難住 AI 的問(wèn)題，但這個(gè)結(jié)果本身還是給數(shù)學(xué)家們帶來(lái)極大沖擊——相比于傳統(tǒng)語(yǔ)言模型在類(lèi)似基準(zhǔn)測(cè)試中不到 2% 的成功率，o4-mini 展現(xiàn)出的數(shù)學(xué)推理能力已經(jīng)達(dá)到了前所未有的水平。

不過(guò)在這篇文章引發(fā)熱烈討論后，一位參與了此次研討會(huì)的數(shù)學(xué)家、Hyperbolic 創(chuàng)始人 Jasper Zhang 提出了一些異議，他表示，雖然 AI 的進(jìn)步確實(shí)驚人，但原始報(bào)道在某些方面“有些夸張，需要澄清”。

圖丨相關(guān)推文（來(lái)源：X）

Jasper 首先指出了一個(gè)被報(bào)道淡化，卻對(duì)整個(gè)挑戰(zhàn)性質(zhì)有決定性影響的關(guān)鍵約束：“每個(gè)問(wèn)題都需要一個(gè)數(shù)值答案”。他解釋說(shuō)，這與高等數(shù)學(xué)的核心有顯著區(qū)別。現(xiàn)代數(shù)學(xué)研究的中心通常是推理與證明，而非純粹的計(jì)算。一個(gè)問(wèn)題可以有復(fù)雜的邏輯結(jié)構(gòu)和深刻的理論內(nèi)涵，但最終被要求輸出一個(gè)具體的數(shù)字，這本身就改變了問(wèn)題的性質(zhì)，使得它更偏向于一個(gè)可以被計(jì)算工具優(yōu)化的任務(wù)。

Jasper 所在的幾何與拓?fù)湫〗M，最初的策略是設(shè)計(jì)一些需要深刻幾何直覺(jué)和關(guān)鍵定理理解的博士級(jí)別問(wèn)題。他們相信，這是當(dāng)前 AI 模型的弱點(diǎn)。但令他們驚訝的是，o4-mini 模型成功解決了他們提出的大部分問(wèn)題。但這里的“解決”需要打上引號(hào)。Jasper 特別提到：“盡管其推理過(guò)程有時(shí)是錯(cuò)誤的，但它仍然設(shè)法得出了正確的數(shù)值答案?！?/p>

這就說(shuō)明，AI 可能并非通過(guò)類(lèi)似人類(lèi)的、嚴(yán)謹(jǐn)?shù)倪壿嬐蒲輥?lái)“理解”問(wèn)題，而是利用其強(qiáng)大的模式匹配和計(jì)算能力，找到了一條通往正確數(shù)字的路徑，哪怕這條路徑在數(shù)學(xué)邏輯上并不完美。

基于這一發(fā)現(xiàn)，Jasper 和他的同事調(diào)整了策略。他從一篇數(shù)學(xué)論文中提取了幾個(gè)中間定理，然后設(shè)計(jì)了一個(gè)新問(wèn)題，要求將這些定理綜合起來(lái)，形成一種計(jì)算方法。這一次，AI“正如預(yù)期地陷入了困境”。Jasper 寫(xiě)道：“它無(wú)法將中間步驟聯(lián)系起來(lái)，也無(wú)法有效地進(jìn)行邏輯鏈條的推理。”這次失敗，恰恰揭示了當(dāng)前 LLM 的深層局限：在需要從零開(kāi)始進(jìn)行多步驟、跨概念的邏輯綜合與創(chuàng)造時(shí)，它仍然力不從心。

除了個(gè)別非常吸引眼球的案例，這次會(huì)議還揭示了 AI 數(shù)學(xué)能力的其他重要特征。參與者們發(fā)現(xiàn)，o4-mini 在處理涉及最新研究成果的問(wèn)題時(shí)表現(xiàn)出色，能夠有效地搜索、理解并應(yīng)用最新的學(xué)術(shù)文獻(xiàn)。這種能力在某種程度上彌補(bǔ)了人類(lèi)專(zhuān)家在信息處理速度上的不足。

同時(shí)，會(huì)議也暴露出 AI 系統(tǒng)的一個(gè)潛在風(fēng)險(xiǎn)：過(guò)度自信的表達(dá)方式。Ono 和 He 都表達(dá)了對(duì) o4-mini 結(jié)果可能被過(guò)度信任的擔(dān)憂(yōu)?！坝袣w納證明、反證法，然后還有恐嚇證明，”He 說(shuō)，“如果你用足夠的權(quán)威說(shuō)某件事，人們就會(huì)感到害怕。我認(rèn)為 o4-mini 已經(jīng)掌握了恐嚇證明；它說(shuō)每件事都充滿(mǎn)自信?！?/p>

從那 10 個(gè)成功“難倒”AI 的問(wèn)題來(lái)看，它們往往需要復(fù)雜的多步驟推理和創(chuàng)新性的概念綜合，而這也說(shuō)明，當(dāng)前 AI 系統(tǒng)的局限還是主要體現(xiàn)在原創(chuàng)性思維和深度邏輯綜合能力上。

最后，我們可以用 Jasper 的幾點(diǎn)核心看法作為總結(jié)：AI 在過(guò)去兩年確實(shí)取得了巨大進(jìn)步，但目前的 LLM 在很大程度上仍然依賴(lài)于模式匹配，其深度推理能力有限。它們尚不具備生成全新數(shù)學(xué)成果的能力，但極其擅長(zhǎng)收集相關(guān)文獻(xiàn)和起草初步解決方案。人類(lèi)的監(jiān)督，尤其是在驗(yàn)證和綜合方面，仍然是不可或缺的。

他的預(yù)測(cè)也更為溫和：在未來(lái)一到兩年內(nèi)，AI 將主要作為數(shù)學(xué)家的“助手”，幫助發(fā)現(xiàn)新理論和解決開(kāi)放問(wèn)題，就像陶哲軒與 DeepMind 的合作那樣。之后，AI 才會(huì)開(kāi)始作為“合作者”，并最終獨(dú)立地推動(dòng)數(shù)學(xué)前沿。

參考資料：

1.https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

2.https://x.com/zjasper666/status/1931481071952293930

排版：溪樹(shù)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.