大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

數學圈地震!o3靠直覺刷爆人類頂尖難題,14位專家集體破防

0
分享至

  

  新智元報道

  編輯:桃子 犀牛

  【新智元導讀】推理模型如何攻克數學難題?Epoch AI新研究發現,o3-mini-high不僅具備淵博學識,還會基于直覺解題。然而,它的推理風格過于依賴直覺,缺乏嚴謹性和創造力,甚至偶爾「投機取巧」。

  推理模型不會推理,一夜成為硅谷最熱門的話題。

  來自Epoch AI最新報告稱,o3-mini-high不僅會推理,還能破解頂尖數學難題。

  

  14位數學家組團,共同評估o3在29道FrontierMath推理能力。

  結果驚奇地發現,o3-mini-high完全憑借「數學直覺」破解了難題,并非依靠單純死記硬背完成。

  

  他們還發現,o3具備一種類似物理學家思維方式,許多推理步驟缺少嚴格的論證、精確的證明。

  一位數學家稱之為,「基于直覺的歸納推理器」。

  缺乏創造力和深入的理解,成為o3最大的弱點。

  

  在29道數學題考試中,o3-mini-high都有哪些表現,以下是報告所有細節。

  o3攻克13題,學識直覺兼具

  在29個推理過程中,有13個得出了正確答案——o3-mini-high到底是怎么搞定這些數學難題的呢?

  超強學識——不只是死記硬背

  一個關鍵因素是它那驚人的學識,這一點毫不意外,畢竟它接受了海量數據的訓練。

  o3-mini-high能應對各種領域的FrontierMath問題,數學家們一致認為它的知識儲備非常豐富。

  一位數學家評價說:「o3-mini-high能準確擴展問題的數學背景,涉及一些非常高深的概念。它的通用知識和對問題的理解完全不是瓶頸。」

  而且,這可不是單純的死記硬背。

  即使問題設計者故意隱藏了解題所需的關鍵技術,數學家們普遍發現,o3-mini-high依然有不錯的能力調用正確的定理來推進解題。

  特別是在大約66%的推理中,數學家們對模型調用相關數學結果的能力給出了至少3分(滿分5分)的高評價。

  

  評審數學家普遍發現,o3-mini-high在調用數學文獻中的相關結果方面表現尚可,在約三分之二的問題上獲得了3/5或更高的評分

  全憑直覺,缺少精確

  如前所述,o3-mini-high推理過程,更傾向于非正式的風格。

  簡言之,它是一個「基于直覺的歸納推理器」,并且擁有類似數學家好奇心,找出解決問題的最簡單的方法。

  不過,在數學家看來,o3思考過程略顯隨意,不夠精確。

  而且,其初始思路表述往往很粗糙,用語也不夠嚴謹。存在一些在正式數學論文中不被接受的特殊情況。

  o3-mini-high為何不采用更形式化的推理?

  Epoch尚未完全弄清其中緣由,但至少可以確定,并不僅僅是「模型偷懶」那么簡單。

  比如,他們發現,o3在需要的時候,會毫不猶豫地進行計算和寫代碼。

  這一看似并不起眼的繁瑣步驟,卻可以讓模型能夠保持更扎實、更少抽象的風格。

  不可否認,其推理依舊依賴的是直覺。

  而且,另一種可能是,預訓練中「形式化推理」數據集占比少,后期難以完美激發o3所有潛力。

  三大短板曝出

  缺乏精確性

  上面提到的形式化精確性不足問題,是o3-mini-high的主要短板之一。

  比如,一位數學家指出:「o3-mini-high相比人類數學家的一個明顯不足在于,它不會在發現某個結論后嘗試去證明它。」

  在一個案例中,o3-mini-high通過非正式推理提出了一個正確的猜想,但完全沒有嘗試去證明這個猜想,而是直接用這個猜想來解決問題。

  最后還得到了正確答案。

  他們把這種情況稱之為「投機取巧」(cheesing)。

  也就是說,模型基本上是靠猜答案,而沒有經過完整的推理過程,完整的推理應該包括去證明相關的猜想。

  在模型得出正確答案的推理過程中,投機取巧的情況占了相當少的部分:

  

  「投機取巧」現象相對常見,但o3-mini-high在絕大多數情況下都能正確解決問題,且沒有任何投機取巧行為(即得分為5)。該圖僅適用于o3-mini-high正確回答所提問題的推理軌跡

  有時,o3-mini-high的思路大致是對的,但未能得出正確答案,僅僅是因為它未能建立起最后關鍵的聯系。

  比如,在一個關于劃分理論的問題中,模型只差一步就能答對,作者評論說:「如果它把n=0到某個數的輸出求和,答案就對了。我對它的表現真的很佩服。」

  不過,更多時候,o3-mini-high并沒有這么接近解決問題,如下圖所示:

  

  只有大約18%的情況下,o3-mini-high得到錯誤解的情況非常接近正確解——總體而言,推理的正確程度分布更為廣泛

  缺乏創造力和深刻理解

  數學家們認為,o3-mini-high最大的局限性在于缺乏創造力和深刻的理解,尤其是與具有同等知識水平的人類相比。

  一位數學家這樣總結道:

  這個模型就像一個勤奮的研究生,讀了很多書,能隨口說出很多結果和作者的名字。初看之下挺厲害,但專家很快就會發現,這個「學生」并沒有真正深入理解這些內容,大多只是鸚鵡學舌般地復述。

  模型的表現也是如此——它擅長識別相關內容,但無法以創新的方式擴展或應用這些知識。

  另一位數學家則說:

  這個模型有幾個它偏愛的思路,總是試圖套用這些想法。

  一旦這幾個思路用盡,就沒有實質性進展了。

  我覺得這挺讓人失望的,作為一個專業組合數學家,我會期待它能更具創造性地解決問題,或者換個角度去思考(即便這些嘗試可能會失敗)。

  有位數學家甚至打趣道:「讓AI解一道需要新思路的八年級數學競賽題,可能比算一個大有限域上的超橢圓曲線有多少個點還難。」

  雖然這話聽起來夸張,但它反映的情況和大多數數學家的觀察差不多。

  幻覺問題

  模型還表現出許多其他失敗模式。

  一個顯著問題是,大約75%的推理過程包含「幻覺」,經常記錯數學術語和公式。

  例如,一位數學家指出:「雖然它常常能回憶起相關公式的名字,但卻無法準確復現,經常在無法回憶細節的地方插入占位符,如(…)。」

  o3-mini-high在使用工具和資源(如網絡搜索)時也存在問題。

  比如,有人描述它「試圖從許多它幻想出來的不存在的URL中獲取信息」。這類問題在需要準確表達非常冷門的數學結果時就顯得尤為關鍵。

  的確,有一位受訪者認為:「一個能夠執行類似瀏覽Google或arXiv,以查找潛在相關結果的智能體系統將大大提高它們在實際問題中的表現。」

  推理像人,又不像人,為何?

  o3-mini-high推理過程,與人類數學家有相似之處嗎?

  對此,Epoch AI針對模型CoT和人類數學家進行了比對。整體講,最終答案因不同數學家、推理過程而異。

  如下圖所示,數學家對o3-mini-high推理像人程度,進行了打分。

  雖沒有達到完全無法區分的程度,但AI在解答四道題目中,拿下了與人類數學家思維過程類似的成績。

  

  1分表示推理完全不像人類,5分表示推理與人類數學家無法區分

  此外,在其他區間,o3均有涉及。為何跨度如此廣泛?

  研究團隊分析稱,之所以有這么大的差異,與o3-mini-high具備多樣化能力組合有關,至少對于人類來說是這樣。

  一方面,它似乎非常擅長像人類一樣推理問題,表現出好奇心并探索問題的不同解決路徑。

  另一方面,它似乎知識過于淵博,缺乏創造力和嚴謹性,而且還有一些奇怪的「怪癖」。

  做題過程中,o3-mini-high推理過程往往非常冗長。甚至數學家形象地將其比作——口試中長篇大論的學生,倒也不是壞事。

  然而,并非所有的冗長推理細節,都明顯有用。有時,AI在提交最終答案時,會出現類人的「焦慮」情緒。

  舉個例子,o3-mini-high會最終陷入一種「反復重述」的循環怪圈——

  已完成解答,上面推理過程就是最終答案,還夾雜著自我懷疑的內心OS,然后又重新一步步計算得出最終公式的某些算術。

  不僅是o3,任何一個推理模型,都會陷入這類的死循環。

  至少在這種情況下,模型的推理過程明顯不像一個冷靜的人類數學家。

  

  基于以上內容,我們可以簡單地將o3-mini-high總結為「一個博學但基于感覺的推理者,缺乏專業數學家的創造力和嚴謹性,且傾向于奇怪地冗長或重復」。

  這似乎與我們在網上看到的數學家的觀點大體一致。

  他們認為,這一分析自然而然地引出了兩個關鍵問題。

  第一個問題是:為什么像o3-mini-high這樣的推理模型會展現出這些特性?

  一部分原因顯而易見——這些模型之所以博學,是因為它們在大量數據上接受了訓練,其中包括了大量公開的數學文獻。

  但更讓人好奇的是,為什么這些模型并不能更深入地利用已有知識,在不同數學子領域之間建立更多聯系,或者更具創造性地提出新想法?

  這個問題的答案仍不明朗。

  第二個問題是:這些推理模型在目前的弱項(比如創造力和形式化推理)方面,未來還能改進到什么程度?而這樣的進步,又會怎樣重塑整個數學推理的方式?

  比如,我們可以把o3-mini-high的推理方式和AlphaProof這樣的系統作比較——后者主要甚至完全基于合成數據訓練,因此它「見過」的數學世界可能完全不同。

  考慮到數學本身對合成數據的高度適應性,有理由認為,未來的推理模型在思維方式上可能會和人類數學家越來越不一樣。

  當然,我們現在的理解還只是剛剛觸及這些模型工作機制的表層。希望未來能有更多類似的分析,來揭示這些系統背后的深層邏輯。

  參考資料:

  https://x.com/EpochAIResearch/status/1931746761221025914

  https://epoch.ai/gradient-updates/beyond-benchmark-scores-analysing-o3-mini-math-reasoning

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
多名院士呼吁停止食用,比肥肉還傷血管,轉告父母,趁早撤下餐桌

多名院士呼吁停止食用,比肥肉還傷血管,轉告父母,趁早撤下餐桌

溫讀史
2025-06-14 11:49:31
汪小菲說出“櫻桃是紅的”,陳之漢破防:一場直播,打醒太多人!

汪小菲說出“櫻桃是紅的”,陳之漢破防:一場直播,打醒太多人!

眼界縱橫
2025-06-14 09:33:36
最新:以伊持續互襲!近200枚導彈飛向以色列,伊朗多個核設施遭襲…普京特朗普緊急通話50分鐘

最新:以伊持續互襲!近200枚導彈飛向以色列,伊朗多個核設施遭襲…普京特朗普緊急通話50分鐘

上觀新聞
2025-06-15 08:11:30
火藥味拉滿喬丹-克勞福德將手指插入師弟鼻子 后者揮拳反擊!

火藥味拉滿喬丹-克勞福德將手指插入師弟鼻子 后者揮拳反擊!

直播吧
2025-06-15 08:16:46
扁擔女孩后續:哥哥給學費,爸爸給生活費,長相與網傳的有差距!

扁擔女孩后續:哥哥給學費,爸爸給生活費,長相與網傳的有差距!

大笑江湖史
2025-06-14 07:47:18
《醬園弄》上海首映章子怡造型翻車!“蛋糕裙、微商頭”撞臉向太

《醬園弄》上海首映章子怡造型翻車!“蛋糕裙、微商頭”撞臉向太

小娛樂悠悠
2025-06-15 10:12:31
6月買菜,建議少買這4樣蔬菜,都是反季節的,不好吃還沒營養!

6月買菜,建議少買這4樣蔬菜,都是反季節的,不好吃還沒營養!

愛生活的陶哥
2025-06-15 09:09:43
36歲林書豪當選中國臺灣職業籃球大聯盟本賽季MVP 生涯首奪MVP!

36歲林書豪當選中國臺灣職業籃球大聯盟本賽季MVP 生涯首奪MVP!

直播吧
2025-06-14 16:15:03
馬拉松中簽了,酒店卻住不起了…

馬拉松中簽了,酒店卻住不起了…

馬拉松跑步健身
2025-06-14 16:53:32
荔枝再次成為關注對象!醫生提醒:吃荔枝時,要多注意這7點!

荔枝再次成為關注對象!醫生提醒:吃荔枝時,要多注意這7點!

男女那點事兒兒
2025-06-13 18:56:38
將執法世俱杯,馬寧社媒曬觀看世俱杯開幕式照:Let’s go!

將執法世俱杯,馬寧社媒曬觀看世俱杯開幕式照:Let’s go!

直播吧
2025-06-15 08:58:20
以色列一科學研究院遭伊朗襲擊,以媒稱可能有人員被困

以色列一科學研究院遭伊朗襲擊,以媒稱可能有人員被困

澎湃新聞
2025-06-15 12:02:36
浙江一家3人確診癌癥!醫生:早期沒癥狀,發現時已嚴重耽誤

浙江一家3人確診癌癥!醫生:早期沒癥狀,發現時已嚴重耽誤

FM93浙江交通之聲
2025-06-15 06:35:36
43歲知名主持人金昀離世!產后4個月患病,閨蜜曝最后搶救細節

43歲知名主持人金昀離世!產后4個月患病,閨蜜曝最后搶救細節

葉公子
2025-06-14 17:25:07
單打4強全部出爐!國乒3人晉級,日本全軍覆沒,產生2個意想不到

單打4強全部出爐!國乒3人晉級,日本全軍覆沒,產生2個意想不到

知軒體育
2025-06-14 22:13:34
本季打13場&場均14.1分!蜂記預測特雷-曼恩合同:年薪800-1000萬

本季打13場&場均14.1分!蜂記預測特雷-曼恩合同:年薪800-1000萬

直播吧
2025-06-15 15:00:10
楊冪劉德華紅毯挽手引尖叫!楊冪:感謝導演給機會,電影想看就看

楊冪劉德華紅毯挽手引尖叫!楊冪:感謝導演給機會,電影想看就看

未曾青梅
2025-06-15 09:03:19
聚餐報銷一千六,電信高管被罷官!黨內嚴重警告!

聚餐報銷一千六,電信高管被罷官!黨內嚴重警告!

運營商段子手
2025-06-15 00:58:24
人民日報表揚3天后,惡心的一幕出現了,扁擔女孩被冒充官方出手

人民日報表揚3天后,惡心的一幕出現了,扁擔女孩被冒充官方出手

阿銍武器裝備科普
2025-06-14 17:39:20
不再擔任湖南省紀委書記后,王雙全已任浙江省領導

不再擔任湖南省紀委書記后,王雙全已任浙江省領導

政知新媒體
2025-06-14 17:22:36
2025-06-15 15:16:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12880文章數 66068關注度
往期回顧 全部

教育要聞

三年級計算題難倒了很多大學生,教你一個方法,簡單易上手

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現場大約有10具尸體

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現場大約有10具尸體

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

手機
數碼
本地
游戲
公開課

手機要聞

小米 REDMI Turbo 4 Pro 手機 2.0.206.0 版本屏幕失靈問題已優化

數碼要聞

全球獨此一份!黃仁勛簽名RTX 5090黃金版拍出17萬元天價

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

《馬里奧賽車世界》大金剛服裝太少 玩家猜測會有DLC

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本中文字幕一区二区有码在线| 亚洲中文字幕无码爆乳| 99久久久无码国产精品古装| 97国产超碰一区二区三区| 亚洲人成色99999在线观看| 日韩国产成人无码av毛片蜜柚| 蜜桃av久久久一区二区三区麻豆| 99久久精品美女高潮喷水| 大肉大捧一进一出好爽视色大师| 欲香欲色天天综合和网| 热99re久久国免费超精品首页| 日本熟妇色xxxxx日本免费看| 国模裸体无码xxxx视频| 日韩精品一区二区三区免费视频| 亚洲加勒比少妇无码av| 色八区人妻在线视频| 先锋影音男人av资源| 天天爽夜夜爽人人爽曰| 久久综合色之久久综合| 亚洲人成无码网站| 四虎国产精品永久一区高清| 亚洲成aⅴ人在线视频| 少妇久久久久久被弄到高潮| 欧美又黄又嫩大片a级| 国产欧美精品一区二区色综合| 精品一二三区久久aaa片| 亚洲精品沙发午睡系列| 国产精品涩涩涩视频网站| 国产乱人偷精品人妻a片| av人摸人人人澡人人超碰手机版| 国产精品无码dvd在线观看| 欧美自拍亚洲综合在线| 永久免费不卡在线观看黄网站| 久久国产精品偷任你爽任你| 国产一区二区三区无码免费| 无码中出人妻中文字幕av| 精品无码综合一区二区三区| 午夜福利午夜福利1000| 久久99亚洲精品久久频| 亚洲情a成黄在线观看| 亚洲欧洲成人a∨在线观看|