據(jù)知名科普雜志《科學(xué)美國(guó)人》的報(bào)道,今年五月中旬,一場(chǎng)由非營(yíng)利組織 Epoch AI 主辦的 FrontierMath 研討會(huì)在加州伯克利秘密舉行。三十位被稱(chēng)為“全球最負(fù)盛名的數(shù)學(xué)家”齊聚一堂,他們的任務(wù)只有一個(gè):設(shè)計(jì)出人類(lèi)專(zhuān)家能夠解決、但最先進(jìn)的 AI 卻會(huì)束手無(wú)策的數(shù)學(xué)難題。
(來(lái)源:Epoch AI)
這場(chǎng)對(duì)決的主角,是來(lái)自 OpenAI 的推理大語(yǔ)言模型 o4-mini。與早期版本的 ChatGPT 相比,o4-mini 在專(zhuān)門(mén)的數(shù)據(jù)集上進(jìn)行訓(xùn)練,得到了更強(qiáng)的人類(lèi)反饋強(qiáng)化,能夠進(jìn)行更加復(fù)雜和深入的數(shù)學(xué)推理。
與會(huì)的數(shù)學(xué)家們,包括弗吉尼亞大學(xué)的著名數(shù)學(xué)家 Ken Ono,在兩天的時(shí)間里,向這個(gè)數(shù)字大腦拋出了一系列教授級(jí)別的難題。
然而,結(jié)果令所有人驚訝。
報(bào)道提到,Ken Ono 在會(huì)議中遇到了一個(gè)令他十分難忘的時(shí)刻。他設(shè)計(jì)了一個(gè)在他所在領(lǐng)域(數(shù)論)被認(rèn)為是“開(kāi)放性問(wèn)題”的博士級(jí)別難題,并將其交給了 o4-mini。在接下來(lái)的十分鐘里,Ono 和其他與會(huì)者在驚愕中見(jiàn)證了 AI 實(shí)時(shí)展開(kāi)解題過(guò)程。模型首先花了大約兩分鐘,迅速檢索并“掌握”了該領(lǐng)域的相關(guān)文獻(xiàn)。緊接著,它提出先解決一個(gè)簡(jiǎn)化的“玩具版本”問(wèn)題以進(jìn)行學(xué)習(xí)。幾分鐘后,它宣布已準(zhǔn)備好應(yīng)對(duì)真正的挑戰(zhàn)。最終,在總共不到十分鐘的時(shí)間里,o4-mini 不僅給出了正確答案,其輸出的文字甚至帶有一種俏皮的自信,結(jié)尾寫(xiě)道:“無(wú)需引用,因?yàn)檫@個(gè)神秘?cái)?shù)字是由我計(jì)算出來(lái)的!”
圖丨Ken Ono(來(lái)源:University of Virginia)
這一幕給 Ono 帶來(lái)相當(dāng)大的沖擊,他坦言:“我從未在模型中見(jiàn)過(guò)那種推理方式。那是科學(xué)家的工作方式。這太嚇人了?!彼踔猎谥苋涨宄烤推炔患按赝ㄟ^(guò)加密通訊軟件 Signal 提醒其他與會(huì)者,他感覺(jué)自己面對(duì)的不再是一個(gè)程序,而是一個(gè)“強(qiáng)大的合作者”。
類(lèi)似的震撼場(chǎng)面在會(huì)議期間反復(fù)上演。其他數(shù)學(xué)家發(fā)現(xiàn),即使是涉及最近研究成果的問(wèn)題,AI 也表現(xiàn)出驚人的文獻(xiàn)檢索和應(yīng)用能力。它能夠迅速找到、引用并應(yīng)用相關(guān)的研究結(jié)果,這種速度和準(zhǔn)確性遠(yuǎn)超人類(lèi)專(zhuān)家的預(yù)期。倫敦?cái)?shù)學(xué)科學(xué)研究所的 Yang-Hui He 也給出了極高的評(píng)價(jià),認(rèn)為 AI 的表現(xiàn)“比一個(gè)非常非常優(yōu)秀的博士生做得還要多”。
在這場(chǎng)挑戰(zhàn)中,o4-mini 在處理需要深度幾何直覺(jué)和拓?fù)淅斫獾膯?wèn)題時(shí)表現(xiàn)尤其出色,而且其速度遠(yuǎn)超人類(lèi),能在幾分鐘內(nèi)完成人類(lèi)專(zhuān)家需要數(shù)周甚至數(shù)月才能完成的工作。盡管最終與會(huì)者們還是成功找到了 10 個(gè)能夠難住 AI 的問(wèn)題,但這個(gè)結(jié)果本身還是給數(shù)學(xué)家們帶來(lái)極大沖擊——相比于傳統(tǒng)語(yǔ)言模型在類(lèi)似基準(zhǔn)測(cè)試中不到 2% 的成功率,o4-mini 展現(xiàn)出的數(shù)學(xué)推理能力已經(jīng)達(dá)到了前所未有的水平。
不過(guò)在這篇文章引發(fā)熱烈討論后,一位參與了此次研討會(huì)的數(shù)學(xué)家、Hyperbolic 創(chuàng)始人 Jasper Zhang 提出了一些異議,他表示,雖然 AI 的進(jìn)步確實(shí)驚人,但原始報(bào)道在某些方面“有些夸張,需要澄清”。
圖丨相關(guān)推文(來(lái)源:X)
Jasper 首先指出了一個(gè)被報(bào)道淡化,卻對(duì)整個(gè)挑戰(zhàn)性質(zhì)有決定性影響的關(guān)鍵約束:“每個(gè)問(wèn)題都需要一個(gè)數(shù)值答案”。他解釋說(shuō),這與高等數(shù)學(xué)的核心有顯著區(qū)別。現(xiàn)代數(shù)學(xué)研究的中心通常是推理與證明,而非純粹的計(jì)算。一個(gè)問(wèn)題可以有復(fù)雜的邏輯結(jié)構(gòu)和深刻的理論內(nèi)涵,但最終被要求輸出一個(gè)具體的數(shù)字,這本身就改變了問(wèn)題的性質(zhì),使得它更偏向于一個(gè)可以被計(jì)算工具優(yōu)化的任務(wù)。
Jasper 所在的幾何與拓?fù)湫〗M,最初的策略是設(shè)計(jì)一些需要深刻幾何直覺(jué)和關(guān)鍵定理理解的博士級(jí)別問(wèn)題。他們相信,這是當(dāng)前 AI 模型的弱點(diǎn)。但令他們驚訝的是,o4-mini 模型成功解決了他們提出的大部分問(wèn)題。但這里的“解決”需要打上引號(hào)。Jasper 特別提到:“盡管其推理過(guò)程有時(shí)是錯(cuò)誤的,但它仍然設(shè)法得出了正確的數(shù)值答案?!?/p>
這就說(shuō)明,AI 可能并非通過(guò)類(lèi)似人類(lèi)的、嚴(yán)謹(jǐn)?shù)倪壿嬐蒲輥?lái)“理解”問(wèn)題,而是利用其強(qiáng)大的模式匹配和計(jì)算能力,找到了一條通往正確數(shù)字的路徑,哪怕這條路徑在數(shù)學(xué)邏輯上并不完美。
基于這一發(fā)現(xiàn),Jasper 和他的同事調(diào)整了策略。他從一篇數(shù)學(xué)論文中提取了幾個(gè)中間定理,然后設(shè)計(jì)了一個(gè)新問(wèn)題,要求將這些定理綜合起來(lái),形成一種計(jì)算方法。這一次,AI“正如預(yù)期地陷入了困境”。Jasper 寫(xiě)道:“它無(wú)法將中間步驟聯(lián)系起來(lái),也無(wú)法有效地進(jìn)行邏輯鏈條的推理。”這次失敗,恰恰揭示了當(dāng)前 LLM 的深層局限:在需要從零開(kāi)始進(jìn)行多步驟、跨概念的邏輯綜合與創(chuàng)造時(shí),它仍然力不從心。
除了個(gè)別非常吸引眼球的案例,這次會(huì)議還揭示了 AI 數(shù)學(xué)能力的其他重要特征。參與者們發(fā)現(xiàn),o4-mini 在處理涉及最新研究成果的問(wèn)題時(shí)表現(xiàn)出色,能夠有效地搜索、理解并應(yīng)用最新的學(xué)術(shù)文獻(xiàn)。這種能力在某種程度上彌補(bǔ)了人類(lèi)專(zhuān)家在信息處理速度上的不足。
同時(shí),會(huì)議也暴露出 AI 系統(tǒng)的一個(gè)潛在風(fēng)險(xiǎn):過(guò)度自信的表達(dá)方式。Ono 和 He 都表達(dá)了對(duì) o4-mini 結(jié)果可能被過(guò)度信任的擔(dān)憂(yōu)?!坝袣w納證明、反證法,然后還有恐嚇證明,”He 說(shuō),“如果你用足夠的權(quán)威說(shuō)某件事,人們就會(huì)感到害怕。我認(rèn)為 o4-mini 已經(jīng)掌握了恐嚇證明;它說(shuō)每件事都充滿(mǎn)自信?!?/p>
從那 10 個(gè)成功“難倒”AI 的問(wèn)題來(lái)看,它們往往需要復(fù)雜的多步驟推理和創(chuàng)新性的概念綜合,而這也說(shuō)明,當(dāng)前 AI 系統(tǒng)的局限還是主要體現(xiàn)在原創(chuàng)性思維和深度邏輯綜合能力上。
最后,我們可以用 Jasper 的幾點(diǎn)核心看法作為總結(jié):AI 在過(guò)去兩年確實(shí)取得了巨大進(jìn)步,但目前的 LLM 在很大程度上仍然依賴(lài)于模式匹配,其深度推理能力有限。它們尚不具備生成全新數(shù)學(xué)成果的能力,但極其擅長(zhǎng)收集相關(guān)文獻(xiàn)和起草初步解決方案。人類(lèi)的監(jiān)督,尤其是在驗(yàn)證和綜合方面,仍然是不可或缺的。
他的預(yù)測(cè)也更為溫和:在未來(lái)一到兩年內(nèi),AI 將主要作為數(shù)學(xué)家的“助手”,幫助發(fā)現(xiàn)新理論和解決開(kāi)放問(wèn)題,就像陶哲軒與 DeepMind 的合作那樣。之后,AI 才會(huì)開(kāi)始作為“合作者”,并最終獨(dú)立地推動(dòng)數(shù)學(xué)前沿。
參考資料:
1.https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/
2.https://x.com/zjasper666/status/1931481071952293930
排版:溪樹(shù)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.