大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

30位數(shù)學(xué)家出題也差點(diǎn)沒(méi)難倒AI,但這似乎還不意味著它“懂?dāng)?shù)學(xué)”

0
分享至

據(jù)知名科普雜志《科學(xué)美國(guó)人》的報(bào)道,今年五月中旬,一場(chǎng)由非營(yíng)利組織 Epoch AI 主辦的 FrontierMath 研討會(huì)在加州伯克利秘密舉行。三十位被稱(chēng)為“全球最負(fù)盛名的數(shù)學(xué)家”齊聚一堂,他們的任務(wù)只有一個(gè):設(shè)計(jì)出人類(lèi)專(zhuān)家能夠解決、但最先進(jìn)的 AI 卻會(huì)束手無(wú)策的數(shù)學(xué)難題。


(來(lái)源:Epoch AI)

這場(chǎng)對(duì)決的主角,是來(lái)自 OpenAI 的推理大語(yǔ)言模型 o4-mini。與早期版本的 ChatGPT 相比,o4-mini 在專(zhuān)門(mén)的數(shù)據(jù)集上進(jìn)行訓(xùn)練,得到了更強(qiáng)的人類(lèi)反饋強(qiáng)化,能夠進(jìn)行更加復(fù)雜和深入的數(shù)學(xué)推理。

與會(huì)的數(shù)學(xué)家們,包括弗吉尼亞大學(xué)的著名數(shù)學(xué)家 Ken Ono,在兩天的時(shí)間里,向這個(gè)數(shù)字大腦拋出了一系列教授級(jí)別的難題。

然而,結(jié)果令所有人驚訝。

報(bào)道提到,Ken Ono 在會(huì)議中遇到了一個(gè)令他十分難忘的時(shí)刻。他設(shè)計(jì)了一個(gè)在他所在領(lǐng)域(數(shù)論)被認(rèn)為是“開(kāi)放性問(wèn)題”的博士級(jí)別難題,并將其交給了 o4-mini。在接下來(lái)的十分鐘里,Ono 和其他與會(huì)者在驚愕中見(jiàn)證了 AI 實(shí)時(shí)展開(kāi)解題過(guò)程。模型首先花了大約兩分鐘,迅速檢索并“掌握”了該領(lǐng)域的相關(guān)文獻(xiàn)。緊接著,它提出先解決一個(gè)簡(jiǎn)化的“玩具版本”問(wèn)題以進(jìn)行學(xué)習(xí)。幾分鐘后,它宣布已準(zhǔn)備好應(yīng)對(duì)真正的挑戰(zhàn)。最終,在總共不到十分鐘的時(shí)間里,o4-mini 不僅給出了正確答案,其輸出的文字甚至帶有一種俏皮的自信,結(jié)尾寫(xiě)道:“無(wú)需引用,因?yàn)檫@個(gè)神秘?cái)?shù)字是由我計(jì)算出來(lái)的!”


圖丨Ken Ono(來(lái)源:University of Virginia)

這一幕給 Ono 帶來(lái)相當(dāng)大的沖擊,他坦言:“我從未在模型中見(jiàn)過(guò)那種推理方式。那是科學(xué)家的工作方式。這太嚇人了?!彼踔猎谥苋涨宄烤推炔患按赝ㄟ^(guò)加密通訊軟件 Signal 提醒其他與會(huì)者,他感覺(jué)自己面對(duì)的不再是一個(gè)程序,而是一個(gè)“強(qiáng)大的合作者”。

類(lèi)似的震撼場(chǎng)面在會(huì)議期間反復(fù)上演。其他數(shù)學(xué)家發(fā)現(xiàn),即使是涉及最近研究成果的問(wèn)題,AI 也表現(xiàn)出驚人的文獻(xiàn)檢索和應(yīng)用能力。它能夠迅速找到、引用并應(yīng)用相關(guān)的研究結(jié)果,這種速度和準(zhǔn)確性遠(yuǎn)超人類(lèi)專(zhuān)家的預(yù)期。倫敦?cái)?shù)學(xué)科學(xué)研究所的 Yang-Hui He 也給出了極高的評(píng)價(jià),認(rèn)為 AI 的表現(xiàn)“比一個(gè)非常非常優(yōu)秀的博士生做得還要多”。

在這場(chǎng)挑戰(zhàn)中,o4-mini 在處理需要深度幾何直覺(jué)和拓?fù)淅斫獾膯?wèn)題時(shí)表現(xiàn)尤其出色,而且其速度遠(yuǎn)超人類(lèi),能在幾分鐘內(nèi)完成人類(lèi)專(zhuān)家需要數(shù)周甚至數(shù)月才能完成的工作。盡管最終與會(huì)者們還是成功找到了 10 個(gè)能夠難住 AI 的問(wèn)題,但這個(gè)結(jié)果本身還是給數(shù)學(xué)家們帶來(lái)極大沖擊——相比于傳統(tǒng)語(yǔ)言模型在類(lèi)似基準(zhǔn)測(cè)試中不到 2% 的成功率,o4-mini 展現(xiàn)出的數(shù)學(xué)推理能力已經(jīng)達(dá)到了前所未有的水平。

不過(guò)在這篇文章引發(fā)熱烈討論后,一位參與了此次研討會(huì)的數(shù)學(xué)家、Hyperbolic 創(chuàng)始人 Jasper Zhang 提出了一些異議,他表示,雖然 AI 的進(jìn)步確實(shí)驚人,但原始報(bào)道在某些方面“有些夸張,需要澄清”。


圖丨相關(guān)推文(來(lái)源:X)

Jasper 首先指出了一個(gè)被報(bào)道淡化,卻對(duì)整個(gè)挑戰(zhàn)性質(zhì)有決定性影響的關(guān)鍵約束:“每個(gè)問(wèn)題都需要一個(gè)數(shù)值答案”。他解釋說(shuō),這與高等數(shù)學(xué)的核心有顯著區(qū)別。現(xiàn)代數(shù)學(xué)研究的中心通常是推理與證明,而非純粹的計(jì)算。一個(gè)問(wèn)題可以有復(fù)雜的邏輯結(jié)構(gòu)和深刻的理論內(nèi)涵,但最終被要求輸出一個(gè)具體的數(shù)字,這本身就改變了問(wèn)題的性質(zhì),使得它更偏向于一個(gè)可以被計(jì)算工具優(yōu)化的任務(wù)。

Jasper 所在的幾何與拓?fù)湫〗M,最初的策略是設(shè)計(jì)一些需要深刻幾何直覺(jué)和關(guān)鍵定理理解的博士級(jí)別問(wèn)題。他們相信,這是當(dāng)前 AI 模型的弱點(diǎn)。但令他們驚訝的是,o4-mini 模型成功解決了他們提出的大部分問(wèn)題。但這里的“解決”需要打上引號(hào)。Jasper 特別提到:“盡管其推理過(guò)程有時(shí)是錯(cuò)誤的,但它仍然設(shè)法得出了正確的數(shù)值答案?!?/p>

這就說(shuō)明,AI 可能并非通過(guò)類(lèi)似人類(lèi)的、嚴(yán)謹(jǐn)?shù)倪壿嬐蒲輥?lái)“理解”問(wèn)題,而是利用其強(qiáng)大的模式匹配和計(jì)算能力,找到了一條通往正確數(shù)字的路徑,哪怕這條路徑在數(shù)學(xué)邏輯上并不完美。

基于這一發(fā)現(xiàn),Jasper 和他的同事調(diào)整了策略。他從一篇數(shù)學(xué)論文中提取了幾個(gè)中間定理,然后設(shè)計(jì)了一個(gè)新問(wèn)題,要求將這些定理綜合起來(lái),形成一種計(jì)算方法。這一次,AI“正如預(yù)期地陷入了困境”。Jasper 寫(xiě)道:“它無(wú)法將中間步驟聯(lián)系起來(lái),也無(wú)法有效地進(jìn)行邏輯鏈條的推理。”這次失敗,恰恰揭示了當(dāng)前 LLM 的深層局限:在需要從零開(kāi)始進(jìn)行多步驟、跨概念的邏輯綜合與創(chuàng)造時(shí),它仍然力不從心。

除了個(gè)別非常吸引眼球的案例,這次會(huì)議還揭示了 AI 數(shù)學(xué)能力的其他重要特征。參與者們發(fā)現(xiàn),o4-mini 在處理涉及最新研究成果的問(wèn)題時(shí)表現(xiàn)出色,能夠有效地搜索、理解并應(yīng)用最新的學(xué)術(shù)文獻(xiàn)。這種能力在某種程度上彌補(bǔ)了人類(lèi)專(zhuān)家在信息處理速度上的不足。

同時(shí),會(huì)議也暴露出 AI 系統(tǒng)的一個(gè)潛在風(fēng)險(xiǎn):過(guò)度自信的表達(dá)方式。Ono 和 He 都表達(dá)了對(duì) o4-mini 結(jié)果可能被過(guò)度信任的擔(dān)憂(yōu)?!坝袣w納證明、反證法,然后還有恐嚇證明,”He 說(shuō),“如果你用足夠的權(quán)威說(shuō)某件事,人們就會(huì)感到害怕。我認(rèn)為 o4-mini 已經(jīng)掌握了恐嚇證明;它說(shuō)每件事都充滿(mǎn)自信?!?/p>

從那 10 個(gè)成功“難倒”AI 的問(wèn)題來(lái)看,它們往往需要復(fù)雜的多步驟推理和創(chuàng)新性的概念綜合,而這也說(shuō)明,當(dāng)前 AI 系統(tǒng)的局限還是主要體現(xiàn)在原創(chuàng)性思維和深度邏輯綜合能力上。

最后,我們可以用 Jasper 的幾點(diǎn)核心看法作為總結(jié):AI 在過(guò)去兩年確實(shí)取得了巨大進(jìn)步,但目前的 LLM 在很大程度上仍然依賴(lài)于模式匹配,其深度推理能力有限。它們尚不具備生成全新數(shù)學(xué)成果的能力,但極其擅長(zhǎng)收集相關(guān)文獻(xiàn)和起草初步解決方案。人類(lèi)的監(jiān)督,尤其是在驗(yàn)證和綜合方面,仍然是不可或缺的。

他的預(yù)測(cè)也更為溫和:在未來(lái)一到兩年內(nèi),AI 將主要作為數(shù)學(xué)家的“助手”,幫助發(fā)現(xiàn)新理論和解決開(kāi)放問(wèn)題,就像陶哲軒與 DeepMind 的合作那樣。之后,AI 才會(huì)開(kāi)始作為“合作者”,并最終獨(dú)立地推動(dòng)數(shù)學(xué)前沿。

參考資料:

1.https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

2.https://x.com/zjasper666/status/1931481071952293930

排版:溪樹(shù)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
楊瀚森加盟尼克斯,NBA總決賽即將上演

楊瀚森加盟尼克斯,NBA總決賽即將上演

老蝣說(shuō)體育
2025-06-14 19:53:51
伊朗稱(chēng)逮捕以色列F-35戰(zhàn)機(jī)飛行員

伊朗稱(chēng)逮捕以色列F-35戰(zhàn)機(jī)飛行員

國(guó)際在線(xiàn)
2025-06-14 21:03:25
HarmonyOS 6.0 突襲曝光,華為這是要全面起飛呀!

HarmonyOS 6.0 突襲曝光,華為這是要全面起飛呀!

明美無(wú)限
2025-06-14 18:02:41
兩面派賴(lài)清德人后又下毒手? 蔣萬(wàn)安:行動(dòng)勝于空談,人民大于朝野

兩面派賴(lài)清德人后又下毒手? 蔣萬(wàn)安:行動(dòng)勝于空談,人民大于朝野

海峽導(dǎo)報(bào)社
2025-06-15 11:19:14
梁洛施有了新戀情和李澤楷無(wú)復(fù)合可能,郭嘉文這下可以放心了

梁洛施有了新戀情和李澤楷無(wú)復(fù)合可能,郭嘉文這下可以放心了

農(nóng)村教育光哥
2025-06-14 10:59:34
伊朗最高領(lǐng)袖高級(jí)顧問(wèn)沙姆哈尼因傷勢(shì)過(guò)重離世

伊朗最高領(lǐng)袖高級(jí)顧問(wèn)沙姆哈尼因傷勢(shì)過(guò)重離世

觀(guān)察者網(wǎng)
2025-06-15 11:02:04
太開(kāi)放了!凌晨2點(diǎn)多,老外帶07年女孩打車(chē)約會(huì),被司機(jī)成功制止

太開(kāi)放了!凌晨2點(diǎn)多,老外帶07年女孩打車(chē)約會(huì),被司機(jī)成功制止

火山詩(shī)話(huà)
2025-06-14 07:08:28
郭晶晶霍啟剛逛首飾店,霍啟剛大方付款,郭晶晶穿回力鞋逛街舒服

郭晶晶霍啟剛逛首飾店,霍啟剛大方付款,郭晶晶穿回力鞋逛街舒服

逍遙史記
2025-06-14 17:23:33
跳水冠軍孫淑偉:16歲一跳成名,退役強(qiáng)迫師妹與他結(jié)婚,現(xiàn)今如何

跳水冠軍孫淑偉:16歲一跳成名,退役強(qiáng)迫師妹與他結(jié)婚,現(xiàn)今如何

逍遙史記
2025-06-14 15:46:54
以色列女兵為何總穿緊身褲?人人網(wǎng)紅,堪比大片!

以色列女兵為何總穿緊身褲?人人網(wǎng)紅,堪比大片!

健身迷
2025-05-12 09:58:09
瀘州江邊3人溺亡:一位家長(zhǎng)帶4個(gè)孩子,誤入深水區(qū),親屬透露細(xì)節(jié)

瀘州江邊3人溺亡:一位家長(zhǎng)帶4個(gè)孩子,誤入深水區(qū),親屬透露細(xì)節(jié)

娜烏和西卡
2025-06-15 09:20:40
“夏季不補(bǔ)鈣,骨質(zhì)疏松快”,夏季多食這3種養(yǎng)鈣菜,補(bǔ)鈣強(qiáng)身!

“夏季不補(bǔ)鈣,骨質(zhì)疏松快”,夏季多食這3種養(yǎng)鈣菜,補(bǔ)鈣強(qiáng)身!

江江食研社
2025-06-14 10:30:12
觸目驚心的數(shù)據(jù),房?jī)r(jià)的加速下跌即將失控

觸目驚心的數(shù)據(jù),房?jī)r(jià)的加速下跌即將失控

重遠(yuǎn)投資觀(guān)
2025-06-14 11:22:33
館長(zhǎng)訪(fǎng)問(wèn)四行倉(cāng)庫(kù)后震撼感慨2段話(huà),諷刺統(tǒng)派代表,飆罵獨(dú)派代表

館長(zhǎng)訪(fǎng)問(wèn)四行倉(cāng)庫(kù)后震撼感慨2段話(huà),諷刺統(tǒng)派代表,飆罵獨(dú)派代表

史潎的生活日記
2025-06-15 02:21:37
總決賽還沒(méi)結(jié)束就交易!KD太任性!搶總決賽風(fēng)頭,蕭華也阻止不了

總決賽還沒(méi)結(jié)束就交易!KD太任性!搶總決賽風(fēng)頭,蕭華也阻止不了

張家大院趣說(shuō)天下事
2025-06-15 09:45:03
鳳凰傳奇曾毅塌房:戴“性暗示”手表,機(jī)場(chǎng)踹女員工,玲花受牽連

鳳凰傳奇曾毅塌房:戴“性暗示”手表,機(jī)場(chǎng)踹女員工,玲花受牽連

春序娛樂(lè)
2025-06-14 13:15:28
臺(tái)網(wǎng)紅“館長(zhǎng)”赴陸強(qiáng)化兩岸和平!最新街訪(fǎng)臺(tái)北年輕人“偏見(jiàn)變了”

臺(tái)網(wǎng)紅“館長(zhǎng)”赴陸強(qiáng)化兩岸和平!最新街訪(fǎng)臺(tái)北年輕人“偏見(jiàn)變了”

海峽導(dǎo)報(bào)社
2025-06-15 09:23:03
奔馳GLC降到26.5萬(wàn)還是干不過(guò)Q5L?我替奔馳急了

奔馳GLC降到26.5萬(wàn)還是干不過(guò)Q5L?我替奔馳急了

橙心說(shuō)車(chē)
2025-06-15 08:27:13
AI這條鯰魚(yú),終結(jié)了志愿填報(bào)的信息暴利

AI這條鯰魚(yú),終結(jié)了志愿填報(bào)的信息暴利

吐槽青年
2025-06-14 10:32:23
楊冪Labubu包包炸街!時(shí)尚女王秒殺全場(chǎng),漫畫(huà)腿帥到窒息!

楊冪Labubu包包炸街!時(shí)尚女王秒殺全場(chǎng),漫畫(huà)腿帥到窒息!

開(kāi)心熬夜觀(guān)影
2025-06-14 17:07:24
2025-06-15 11:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15294文章數(shù) 513782關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷(xiāo):不再?lài)?yán)重缺貨

頭條要聞

清華高顏值美女學(xué)霸走紅 本人最新發(fā)聲

頭條要聞

清華高顏值美女學(xué)霸走紅 本人最新發(fā)聲

體育要聞

裁判可以噴,但也從步行者自身找找問(wèn)題?

娛樂(lè)要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財(cái)經(jīng)要聞

以伊沖突持續(xù)升級(jí),對(duì)全球市場(chǎng)影響多大

汽車(chē)要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤(pán)大棋!

態(tài)度原創(chuàng)

家居
房產(chǎn)
手機(jī)
藝術(shù)
公開(kāi)課

家居要聞

森林幾何 極簡(jiǎn)灰調(diào)原木風(fēng)

房產(chǎn)要聞

又一城購(gòu)房補(bǔ)貼!買(mǎi)房就發(fā)錢(qián),正在海南樓市瘋狂擴(kuò)散!

手機(jī)要聞

消息稱(chēng)小米 MIX Flip2、魅族 22 系列等機(jī)型 6 月-7 月發(fā)布

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 色综合天天综合网国产成人网| 亚洲国内自拍愉拍| 久久久久亚洲av片无码下载蜜桃| 樱桃视频影视在线观看免费| 欧美色欧美亚洲高清在线观看| 久久久久久久久久久久久9999| 欧美丰满熟妇bbbbbb百度| 国产亚洲色视频在线| 免费人妻无码不卡中文字幕18禁| 精品国品一二三产品区别在线观看| 国产70老熟女重口小伙子| 亚欧日韩欧美网站在线看| 亚洲精品伊人久久久大香| 国产婷婷精品av在线| 污污内射在线观看一区二区少妇| 亚洲精品成a人在线观看| 艳妇乳肉豪妇荡乳av无码福利| 久久久国产打桩机| 午夜精品久久久久久久99老熟妇| 影音先锋男人站| 性欧美老肥妇喷水| 亚洲 成人 无码 在线观看| 成人午夜福利视频镇东影视| 亚洲另类激情综合偷自拍图| 国产色爱av资源综合区| 欧美激情性做爰免费视频| 成人性生交大片免费看r| 精品人妻少妇嫩草AV无码专区| 一本到亚洲中文无码av| 少妇被又大又粗又爽毛片久久黑人| 动漫精品啪啪一区二区三区| a级毛片无码免费真人久久| 亚欧中文字幕久久精品无码| 麻豆aⅴ精品无码一区二区| 国产又色又爽又刺激在线播放| 亚洲精品综合五月久久小说| 99久久99久久免费精品蜜桃| 色偷偷av男人的天堂| 亚洲欧洲精品成人久久曰| 久久精品国产99国产精品澳门| av电影在线观看|