大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

蘋果拆解AI大腦,推理模型全是「裝」的?Bengio兄弟合著

0
分享至


新智元報道

編輯:定慧

【新智元導讀】蘋果最新研究揭示大推理模型(LRM)在高復雜度任務中普遍「推理崩潰」:思考路徑雖長,卻常在關鍵時刻放棄。即便給予明確算法提示,模型亦無法穩定執行,暴露推理機制的局限性。

AI「思考」只是假象?

剛剛,一項來自蘋果的重磅研究揭示了「大推理模型(LRM)」背后的驚人真相——這些看似聰明的模型,在面對稍復雜點的題目時,準確率居然會全面崩潰!

隨著問題變難,推理模型初始會延長思考,但隨后思考深度反而下降,盡管仍有充足token預算——它們恰在最需要深入思考時選擇了放棄!

這太違背直覺了,似乎Scaling Law在推理時完全失效了。

值得一提的是,論文作者中還有Samy Bengio,他也是圖靈三巨頭Yoshua Bengio的兄弟。


論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

LRM模型因能「寫出思考過程」而備受期待,被認為是AI推理能力躍升的關鍵。


DeepSeek-R1 模式的開源開啟了LLM進化到LRM的進程

但研究人員通過可控游戲環境的系統實驗證明:現有LRMs不僅在高復雜度任務上力不從心,甚至還展現出一種「反常的推理崩潰曲線」——題目越難,它們反而越不「努力」。

研究還通過在相同計算token預算下對比思考模型與普通模型,發現:

  • 簡單題目,反而是傳統大模型(LLMs)更強;

  • 中等復雜度,LRMs憑借「思考路徑」勝出;

  • 一旦太復雜,兩類模型準確率同時坍塌至0%

不同于大多數僅衡量最終性能的研究,這項最新研究分析了它們實際的推理軌跡——深入觀察其冗長的「思考」過程。

三種不同的性能區間

與以往主要依賴數學問題來評估語言模型推理能力的研究不同,本研究引入了可控的解謎環境。

這種環境可以精確調節問題的復雜度,同時保持邏輯過程的一致性,從而更嚴謹地分析模型的推理模式和局限性。


頂部的「LLM Response」部分表示研究設置了可以驗證模型的最終答案和中間推理過程,從而能夠更細致地分析模型的思維行為。

左下準確率和中間的回答長度表示:在任務復雜度較低時,不進行推理的模型表現得更準確,也更節省Token。

隨著復雜度提升,具備推理能力的模型開始表現更好,但也消耗更多Token——直到復雜度超過某個臨界點后,兩類模型的表現都會迅速下降,同時推理過程變得更簡短。

右下表示在成功解題的情況下,Claude 3.7 Thinking 通常會在任務復雜度低時較早找到正確答案,而在復雜度高時則更晚得出答案。

而在失敗案例中,它往往會在一開始就陷入錯誤答案,之后繼續浪費剩余的 Token 預算。這兩種情況都暴露了推理過程中存在的效率問題。

數學和謎題環境


對思考型與非思考型模型在數學基準測試中的對比分析顯示出模型的性能表現并不一致。

在MATH-500數據集上,兩類模型的表現相近;但在AIME24和AIME25基準上,思考模型的表現明顯更優。

此外,從AIME24到AIME25的性能下降也揭示出這些基準數據易受到數據污染問題的影響。


研究設置了四種謎題環境。

每列展示一個謎題從初始狀態(頂部)、中間狀態(中部)到目標狀態(底部)的變化過程。

四個謎題分別是:漢諾塔(將圓盤在柱子間移動)、跳跳棋(交換不同顏色棋子的位置信息)、過河(將多個對象安全運送過河)、積木世界(重新排列積木的堆疊結構)。


在所有謎題環境中,不同復雜度問題下,思考型模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思考型對應模型(Claude 3.7 Sonnet、DeepSeek-V3)的準確率對比。

最明顯的依然是,當問題復雜度突破一定閾值后,所有模型的準確率同時坍塌至0%!

實驗和結果


上圖為在tokens預算相同的情況下,思考型模型與非思考型模型在低、中、高三種復雜度謎題環境中的 pass@k表現對比。

結果顯示:

  • 非思考型模型在簡單問題上表現更佳;

  • 思考型模型在中等復雜度問題中展現出優勢;

  • 而在高復雜度問題中,無論計算資源分配如何,兩個模型的表現都未能取得明顯突破。


推理模型的崩潰


上圖表示推理模型在不同謎題環境中,準確率與思考token使用量隨問題復雜度變化的趨勢圖。

隨著復雜度上升,模型在一開始會投入更多思考token,準確率則逐漸下降;

但當復雜度達到某個臨界點時,模型的推理能力開始崩潰——表現急劇下降,同時思考token的使用量也隨之減少。

深入「思考模型內部」


左圖與中圖展示了在不同復雜度下,四種謎題中推理過程中間解的出現位置及其正確性。? 表示中間解正確,? 表示錯誤,陰影表示分布密度。

右圖則顯示了在不同復雜度下,漢諾塔謎題中解決方案的準確率隨思考過程位置的變化情況。

結果顯示:

  • 對于簡單問題(N=1-3),準確率在思考初期較高,但隨著推理繼續反而下降,出現「過度思考」的現象;

  • 對于中等難度問題(N=4-7),推理的持續略微提升了準確率;

  • 對于復雜問題(N≥8),準確率始終接近于零,表明模型在這類問題上推理完全失敗。


未解之謎:推理模型的異常行為


如上圖a和b所示,在漢諾塔游戲環境中,即便在提示中直接提供了解法算法,讓模型只需按步驟執行,模型的表現仍未改善,推理崩潰的現象依然出現在大致相同的位置。

這一點非常值得注意,因為設計并找到一個解法通常比僅僅執行一個已知算法需要更多的計算(比如搜索與驗證)。這一現象進一步突顯了推理模型在「驗證」以及按邏輯步驟解決問題方面的能力局限。

如圖c和d所示,觀察到Claude 3.7 Sonnet思考模型在不同環境中表現出明顯不同的行為。

在漢諾塔環境中,當N=10時,模型通常直到大約第100步才會出現第一處錯誤;

而在過河環境中,同一個模型卻只能正確地完成前4步,之后便無法繼續生成有效解。

這種差異非常顯著。

值得注意的是,當 N=5(即需要31步解)時,模型幾乎可以完美解決漢諾塔問題;但在 N=3(僅需11步解)的過河謎題中,模型卻完全失敗。

這一現象很可能說明:在網絡數據中,N>2 的過河問題案例非常稀少,因此大語言模型(LRMs)在訓練中幾乎沒有見過或記住這類實例。

這項研究系統性地評估了大推理模型(LRMs),低復雜度下,標準LLM反而更穩;中等復雜度時,LRM暫時領先;可一旦問題變得復雜到一定程度——兩者雙雙崩盤。

分析推理軌跡后,研究者發現模型在簡單問題上「過度思考」,在復雜問題上則徹底罷工。

甚至連直接提供解題算法都救不了它們——比如漢諾塔問題,算法提示給到位了,模型卻依然原地打轉。

模型在漢諾塔中可連續操作100步不出錯,到了過河問題里,卻五步都撐不過去!

這背后的原因成謎,但無疑為后續探索AI推理極限打開了一個新的突破口。

眼下的LRM,距離「通用推理」這座大山,顯然還有不少路要走。

參考資料:

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
俄羅斯一情報部門,公開稱中國為“敵人”,普京或要另謀出路?

俄羅斯一情報部門,公開稱中國為“敵人”,普京或要另謀出路?

允華說
2025-06-12 16:03:44
伊朗這個大內奸不除,很難取得勝利

伊朗這個大內奸不除,很難取得勝利

海格講
2025-06-15 05:45:05
美媒爆料:以色列過去48小時內要求美國加入針對伊朗的軍事行動,但美國尚未考慮這一選項

美媒爆料:以色列過去48小時內要求美國加入針對伊朗的軍事行動,但美國尚未考慮這一選項

環球網資訊
2025-06-15 09:09:47
浙江一婚席吃掉50萬元,結賬嫌太貴拒付款,餐具供應商:我的錢也沒給

浙江一婚席吃掉50萬元,結賬嫌太貴拒付款,餐具供應商:我的錢也沒給

極目新聞
2025-06-14 10:52:54
啪啪打臉!買房圖便宜后悔了,深圳一樓盤業主掛“吵”字橫幅抗議

啪啪打臉!買房圖便宜后悔了,深圳一樓盤業主掛“吵”字橫幅抗議

火山詩話
2025-06-15 06:07:29
伊朗不打倒神棍政權,國家將永無希望

伊朗不打倒神棍政權,國家將永無希望

廖保平
2025-06-14 09:19:25
1-2!鄭欽文輸球內情曝光,賽后眼眶含淚,對手采訪說到了關鍵

1-2!鄭欽文輸球內情曝光,賽后眼眶含淚,對手采訪說到了關鍵

侃球熊弟
2025-06-15 00:02:53
抽到下下簽!鄭欽文可能首輪出局,拿冠軍也難了,鮑里妮天堂好簽

抽到下下簽!鄭欽文可能首輪出局,拿冠軍也難了,鮑里妮天堂好簽

侃球熊弟
2025-06-15 00:01:50
伊朗軍方高官:將繼續打擊以色列,目標將擴大至美軍基地

伊朗軍方高官:將繼續打擊以色列,目標將擴大至美軍基地

參考消息
2025-06-14 20:44:15
以色列國家安全總局局長巴爾宣布辭職

以色列國家安全總局局長巴爾宣布辭職

新京報
2025-06-15 07:30:02
打不過就加入?印度網紅模仿豪哥哥穿唐裝、用咖喱味中文嘲諷國足

打不過就加入?印度網紅模仿豪哥哥穿唐裝、用咖喱味中文嘲諷國足

史書無明
2025-06-14 15:53:27
外媒:駐有美軍的伊拉克空軍基地遭無人機襲擊,尚無組織宣布對此負責

外媒:駐有美軍的伊拉克空軍基地遭無人機襲擊,尚無組織宣布對此負責

環球網資訊
2025-06-15 10:24:38
已確認!是知名演員朱一龍!

已確認!是知名演員朱一龍!

掌中邯鄲
2025-06-15 07:04:44
李連杰宣布跟41歲兒子父親節重聚,久別30年攬實眼濕濕

李連杰宣布跟41歲兒子父親節重聚,久別30年攬實眼濕濕

快樂的小青瓦
2025-06-14 15:03:39
伊朗要變天了

伊朗要變天了

戰爭研究所
2025-06-13 23:40:34
單位出現奇怪現象:領導和同事像集體約好的一樣,一過55歲就開始喜歡獨來獨往了

單位出現奇怪現象:領導和同事像集體約好的一樣,一過55歲就開始喜歡獨來獨往了

職場火鍋
2025-06-14 20:33:22
7國加入戰場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

7國加入戰場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

阿傖說事
2025-06-14 23:10:38
伊朗不再藏后手,2000枚導彈已搬上發射架?以色列領導層經不起炸

伊朗不再藏后手,2000枚導彈已搬上發射架?以色列領導層經不起炸

梁訊
2025-06-15 09:10:07
南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
伊朗或在數小時內再次發動襲擊 以色列進入“前所未有緊急狀態”

伊朗或在數小時內再次發動襲擊 以色列進入“前所未有緊急狀態”

環球網資訊
2025-06-15 05:59:29
2025-06-15 10:48:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12877文章數 66068關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

游戲
時尚
教育
房產
公開課

《誅仙世界》首次回應銀價暴跌;騰訊網易紛紛做出違背祖訓的決定

夏天最值得入手的6件單品,全在這了

教育要聞

一張圖掌握五年級下的數學知識

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品自偷自拍无码忘忧| 久久成人麻豆午夜电影| 丰满熟妇人妻中文字幕| 高潮喷水抽搐无码免费| 一区国产传媒国产精品| 亚洲欧洲日韩在线电影| 无码国产玉足脚交极品网站| 亚洲精品国产成人| 亚洲经典三级| 美女毛片一区二区三区四区| 亚洲精品一区二区三区四区久久| 亚洲国产一二三精品无码| 国产狂喷水潮免费网站www| 中文字幕爆乳julia女教师| 精品国产乱码久久久久久免费| 亚洲精品一区二区三区在线| 欧美肥胖老妇做爰videos| 国产成人av一区二区三区在线观看| 欧美丰满少妇xxxx性| 不卡一区二区视频日本| 经典三级欧美在线播放| 成人cosplay福利网站18禁| 欧美日韩一区二区视频不卡| 青青狠狠噜天天噜日日噜| 性色av极品无码专区亚洲| 日本少妇毛茸茸高潮| 国产97视频人人做人人爱| 丁香婷婷综合激情五月色| 成人网站在线免费观看| 天天狠天天透天天伊人| 国产精品aⅴ在线观看| 亚洲xxxx做受欧美| 337p日本欧洲亚洲大胆精品| 中文字幕免费视频| 国产精品无码无片在线观看3d| 漂亮人妻熟睡中被公侵犯中文版| 国产精品午夜爆乳美女视频| 国产69精品久久久久久人妻精品| 国产成人一区二区视频免费| 国产精品任我爽爆在线播放| 色 综合 欧美 亚洲 国产|