大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

<input id="gq8ac"><tbody id="gq8ac"></tbody></input>

<strike id="gq8ac"><input id="gq8ac"></input></strike>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

蘋果拆解AI大腦，推理模型全是「裝」的？Bengio兄弟合著

2025-06-06 13:16:46　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：定慧

【新智元導讀】蘋果最新研究揭示大推理模型（LRM）在高復雜度任務中普遍「推理崩潰」：思考路徑雖長，卻常在關鍵時刻放棄。即便給予明確算法提示，模型亦無法穩定執行，暴露推理機制的局限性。

AI「思考」只是假象？

剛剛，一項來自蘋果的重磅研究揭示了「大推理模型（LRM）」背后的驚人真相——這些看似聰明的模型，在面對稍復雜點的題目時，準確率居然會全面崩潰！

隨著問題變難，推理模型初始會延長思考，但隨后思考深度反而下降，盡管仍有充足token預算——它們恰在最需要深入思考時選擇了放棄！

這太違背直覺了，似乎Scaling Law在推理時完全失效了。

值得一提的是，論文作者中還有Samy Bengio，他也是圖靈三巨頭Yoshua Bengio的兄弟。

論文地址：https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

LRM模型因能「寫出思考過程」而備受期待，被認為是AI推理能力躍升的關鍵。

DeepSeek-R1 模式的開源開啟了LLM進化到LRM的進程

但研究人員通過可控游戲環境的系統實驗證明：現有LRMs不僅在高復雜度任務上力不從心，甚至還展現出一種「反常的推理崩潰曲線」——題目越難，它們反而越不「努力」。

研究還通過在相同計算token預算下對比思考模型與普通模型，發現：

簡單題目，反而是傳統大模型（LLMs）更強；
中等復雜度，LRMs憑借「思考路徑」勝出；
一旦太復雜，兩類模型準確率同時坍塌至0%

不同于大多數僅衡量最終性能的研究，這項最新研究分析了它們實際的推理軌跡——深入觀察其冗長的「思考」過程。

三種不同的性能區間

與以往主要依賴數學問題來評估語言模型推理能力的研究不同，本研究引入了可控的解謎環境。

這種環境可以精確調節問題的復雜度，同時保持邏輯過程的一致性，從而更嚴謹地分析模型的推理模式和局限性。

頂部的「LLM Response」部分表示研究設置了可以驗證模型的最終答案和中間推理過程，從而能夠更細致地分析模型的思維行為。

左下準確率和中間的回答長度表示：在任務復雜度較低時，不進行推理的模型表現得更準確，也更節省Token。

隨著復雜度提升，具備推理能力的模型開始表現更好，但也消耗更多Token——直到復雜度超過某個臨界點后，兩類模型的表現都會迅速下降，同時推理過程變得更簡短。

右下表示在成功解題的情況下，Claude 3.7 Thinking 通常會在任務復雜度低時較早找到正確答案，而在復雜度高時則更晚得出答案。

而在失敗案例中，它往往會在一開始就陷入錯誤答案，之后繼續浪費剩余的 Token 預算。這兩種情況都暴露了推理過程中存在的效率問題。

數學和謎題環境

對思考型與非思考型模型在數學基準測試中的對比分析顯示出模型的性能表現并不一致。

在MATH-500數據集上，兩類模型的表現相近；但在AIME24和AIME25基準上，思考模型的表現明顯更優。

此外，從AIME24到AIME25的性能下降也揭示出這些基準數據易受到數據污染問題的影響。

研究設置了四種謎題環境。

每列展示一個謎題從初始狀態（頂部）、中間狀態（中部）到目標狀態（底部）的變化過程。

四個謎題分別是：漢諾塔（將圓盤在柱子間移動）、跳跳棋（交換不同顏色棋子的位置信息）、過河（將多個對象安全運送過河）、積木世界（重新排列積木的堆疊結構）。

在所有謎題環境中，不同復雜度問題下，思考型模型（Claude 3.7 Sonnet with thinking、DeepSeek-R1）與其非思考型對應模型（Claude 3.7 Sonnet、DeepSeek-V3）的準確率對比。

最明顯的依然是，當問題復雜度突破一定閾值后，所有模型的準確率同時坍塌至0%！

實驗和結果

上圖為在tokens預算相同的情況下，思考型模型與非思考型模型在低、中、高三種復雜度謎題環境中的 pass@k表現對比。

結果顯示：

非思考型模型在簡單問題上表現更佳；
思考型模型在中等復雜度問題中展現出優勢；
而在高復雜度問題中，無論計算資源分配如何，兩個模型的表現都未能取得明顯突破。

推理模型的崩潰

上圖表示推理模型在不同謎題環境中，準確率與思考token使用量隨問題復雜度變化的趨勢圖。

隨著復雜度上升，模型在一開始會投入更多思考token，準確率則逐漸下降；

但當復雜度達到某個臨界點時，模型的推理能力開始崩潰——表現急劇下降，同時思考token的使用量也隨之減少。

深入「思考模型內部」

左圖與中圖展示了在不同復雜度下，四種謎題中推理過程中間解的出現位置及其正確性。? 表示中間解正確，? 表示錯誤，陰影表示分布密度。

右圖則顯示了在不同復雜度下，漢諾塔謎題中解決方案的準確率隨思考過程位置的變化情況。

結果顯示：

對于簡單問題（N=1-3），準確率在思考初期較高，但隨著推理繼續反而下降，出現「過度思考」的現象；
對于中等難度問題（N=4-7），推理的持續略微提升了準確率；
對于復雜問題（N≥8），準確率始終接近于零，表明模型在這類問題上推理完全失敗。

未解之謎：推理模型的異常行為

如上圖a和b所示，在漢諾塔游戲環境中，即便在提示中直接提供了解法算法，讓模型只需按步驟執行，模型的表現仍未改善，推理崩潰的現象依然出現在大致相同的位置。

這一點非常值得注意，因為設計并找到一個解法通常比僅僅執行一個已知算法需要更多的計算（比如搜索與驗證）。這一現象進一步突顯了推理模型在「驗證」以及按邏輯步驟解決問題方面的能力局限。

如圖c和d所示，觀察到Claude 3.7 Sonnet思考模型在不同環境中表現出明顯不同的行為。

在漢諾塔環境中，當N=10時，模型通常直到大約第100步才會出現第一處錯誤；

而在過河環境中，同一個模型卻只能正確地完成前4步，之后便無法繼續生成有效解。

這種差異非常顯著。

值得注意的是，當 N=5（即需要31步解）時，模型幾乎可以完美解決漢諾塔問題；但在 N=3（僅需11步解）的過河謎題中，模型卻完全失敗。

這一現象很可能說明：在網絡數據中，N>2 的過河問題案例非常稀少，因此大語言模型（LRMs）在訓練中幾乎沒有見過或記住這類實例。

這項研究系統性地評估了大推理模型（LRMs），低復雜度下，標準LLM反而更穩；中等復雜度時，LRM暫時領先；可一旦問題變得復雜到一定程度——兩者雙雙崩盤。

分析推理軌跡后，研究者發現模型在簡單問題上「過度思考」，在復雜問題上則徹底罷工。

甚至連直接提供解題算法都救不了它們——比如漢諾塔問題，算法提示給到位了，模型卻依然原地打轉。

模型在漢諾塔中可連續操作100步不出錯，到了過河問題里，卻五步都撐不過去！

這背后的原因成謎，但無疑為后續探索AI推理極限打開了一個新的突破口。

眼下的LRM，距離「通用推理」這座大山，顯然還有不少路要走。

參考資料：

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

o3-pro答高難題文字游戲引圍觀，OpenAI前員工諷刺蘋果

量子位 2025-06-13 11:31:08
0 跟貼 0
類比的長河，為何流到大模型就被截流？

鈦媒體APP 2025-04-30 16:09:25
0 跟貼 0

線性擴散模型LiT，極簡線性注意力助力擴散模型AIPC時代端側部署

機器之心Pro 2025-02-01 15:01:13
2 跟貼 2

視頻生成模型無損加速兩倍，秘訣是「抓住attention時空稀疏性」

機器之心Pro 2025-05-07 19:05:34
2 跟貼 2
中國團隊提出SRDA，一種專為AI大模型訓推設計的下一代計算架構

量子位 2025-06-09 17:50:16
14 跟貼 14

全面評測圖像編輯模型推理能力：所有模型在程序性推理方面表現差

量子位 2025-06-13 14:20:11
0 跟貼 0

AI智能體上線，營銷人下線？ | AI無悖論

虎嗅APP 2025-06-15 01:00:27
0 跟貼 0
AI云，火山引擎如何“激進”？

鈦媒體APP 2025-06-13 19:09:03
0 跟貼 0

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1
科大訊飛：AI孫悟空用日語回答日本老爺爺的提問

智東西 2025-04-18 23:31:04
0 跟貼 0
谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0
老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
昇騰AI算力集群有多穩？萬卡可用度98%，秒級恢復故障不用愁

每日經濟新聞 2025-06-10 18:35:17
1 跟貼 1
全球程序員炸鍋！老黃倫敦放豪言：編程語言的未來是「Human」

新智元 2025-06-15 09:12:25
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
當大模型接入玩具 AI硬件與情緒消費殊途同歸？

財聯社 2025-06-15 08:24:12
0 跟貼 0
AI壓低創新門檻！不會“低成本迭代”的人正在掉隊

吳曉波頻道 2025-06-15 08:31:25
0 跟貼 0
拆華為！搶港口！美國在巴拿馬步步緊逼，中方強力介入

評論員杜平 2025-06-14 17:37:24
0 跟貼 0
小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
405 跟貼 405
砸下800萬美元，想將華為基站踢出局，美國這事能搞成嗎？

老喬嘚吧嘚 2025-06-14 12:28:14
2 跟貼 2
本科生推翻姚期智40年前的猜想，提出哈希表算法突破搜索效率極限

DeepTech深科技 2025-02-11 13:24:34
16 跟貼 16
還拿芯片當籌碼？介文汲：華為打臉美國，芯片被卡脖子已經突破了

青杉依舊啊啊 2025-06-13 01:54:45
0 跟貼 0
科學家提出動力學擴展定律，支持更長的文本生成

DeepTech深科技 2025-06-14 19:20:34
11 跟貼 11
小鵬絕地翻盤，頭號功臣是她！

華商韜略 2025-03-28 14:19:16
0 跟貼 0
比亞迪李云飛：要忙在正道上，拒絕陰陽

每日經濟新聞 2025-06-06 17:55:12
150 跟貼 150
洛杉磯騷亂出現“零元購”，蘋果、阿迪達斯等店遭到洗劫

海峽網 2025-06-12 19:44:52
0 跟貼 0
臺名嘴談印度客機墜毀謝寒冰：波音的股價絕對不會好！

正經娛閱 2025-06-12 22:23:47
1 跟貼 1
1407高中數學應會題，求函數解析式。用換元+方程組消元

我服子佩 2025-06-14 21:11:37
1 跟貼 1
河南安陽林州一中數學題求三者平方之和！

三樂大掌柜 2025-06-11 22:19:39
1 跟貼 1
華為pura80拍攝，就這畫面，蘋果提鞋都不配

小朱笑笑 2025-06-13 11:52:14
1 跟貼 1
蔡崇信∶很幸運能為蘋果提供AI服務

財聯社 2025-02-13 16:19:09
1 跟貼 1
特朗普一句話，定調“波音無罪”，這次空難，印度吃了啞巴虧

南湖70后大叔 2025-06-14 01:41:41
0 跟貼 0
美國沒想到，德法俄也沒想到！中國石油如今竟成為“遙遙領先”

君笙拂兮啊 2025-06-13 16:43:03
0 跟貼 0
美國干脆挑明，拒絕停飛波音，關鍵時刻，莫迪收到中方一份大禮？

快樂彼岸 2025-06-15 01:00:12
0 跟貼 0
送百億訂單給波音！第一個對美妥協的，為何是英國？特朗普

百態新說 2025-06-14 17:15:50
1 跟貼 1
果粉醒來天塌了，iOS 26啥也不是，流暢度也被趕上來了

數科先驅 2025-06-13 11:45:25
0 跟貼 0
最快下個月，中方或訂購百架空客，波音也重獲訂單，美國突然變卦

掌悅君視 2025-06-14 00:09:32
0 跟貼 0
這位大哥屬實牛，能跳到坑里，估計已經是普通人的極限！

搞笑大眼妹 2025-06-11 11:59:58
34 跟貼 34
印度戰機吃完敗仗，客機又出大事，還和波音有關？莫迪這回咋收場

快樂彼岸 2025-06-14 01:01:46
0 跟貼 0

俄羅斯一情報部門，公開稱中國為“敵人”，普京或要另謀出路？

俄羅斯一情報部門，公開稱中國為“敵人”，普京或要另謀出路？

允華說

2025-06-12 16:03:44

伊朗這個大內奸不除，很難取得勝利

伊朗這個大內奸不除，很難取得勝利

海格講

2025-06-15 05:45:05

美媒爆料：以色列過去48小時內要求美國加入針對伊朗的軍事行動，但美國尚未考慮這一選項

美媒爆料：以色列過去48小時內要求美國加入針對伊朗的軍事行動，但美國尚未考慮這一選項

環球網資訊

2025-06-15 09:09:47

浙江一婚席吃掉50萬元，結賬嫌太貴拒付款，餐具供應商：我的錢也沒給

浙江一婚席吃掉50萬元，結賬嫌太貴拒付款，餐具供應商：我的錢也沒給

極目新聞

2025-06-14 10:52:54

啪啪打臉！買房圖便宜后悔了，深圳一樓盤業主掛“吵”字橫幅抗議

啪啪打臉！買房圖便宜后悔了，深圳一樓盤業主掛“吵”字橫幅抗議

火山詩話

2025-06-15 06:07:29

伊朗不打倒神棍政權，國家將永無希望

伊朗不打倒神棍政權，國家將永無希望

廖保平

2025-06-14 09:19:25

1-2！鄭欽文輸球內情曝光，賽后眼眶含淚，對手采訪說到了關鍵

1-2！鄭欽文輸球內情曝光，賽后眼眶含淚，對手采訪說到了關鍵

侃球熊弟

2025-06-15 00:02:53

抽到下下簽！鄭欽文可能首輪出局，拿冠軍也難了，鮑里妮天堂好簽

抽到下下簽！鄭欽文可能首輪出局，拿冠軍也難了，鮑里妮天堂好簽

侃球熊弟

2025-06-15 00:01:50

伊朗軍方高官：將繼續打擊以色列，目標將擴大至美軍基地

伊朗軍方高官：將繼續打擊以色列，目標將擴大至美軍基地

參考消息

2025-06-14 20:44:15

以色列國家安全總局局長巴爾宣布辭職

以色列國家安全總局局長巴爾宣布辭職

新京報

2025-06-15 07:30:02

打不過就加入？印度網紅模仿豪哥哥穿唐裝、用咖喱味中文嘲諷國足

打不過就加入？印度網紅模仿豪哥哥穿唐裝、用咖喱味中文嘲諷國足

史書無明

2025-06-14 15:53:27

外媒：駐有美軍的伊拉克空軍基地遭無人機襲擊，尚無組織宣布對此負責

外媒：駐有美軍的伊拉克空軍基地遭無人機襲擊，尚無組織宣布對此負責

環球網資訊

2025-06-15 10:24:38

已確認！是知名演員朱一龍！

掌中邯鄲

2025-06-15 07:04:44

李連杰宣布跟41歲兒子父親節重聚，久別30年攬實眼濕濕

李連杰宣布跟41歲兒子父親節重聚，久別30年攬實眼濕濕

快樂的小青瓦

2025-06-14 15:03:39

伊朗要變天了

戰爭研究所

2025-06-13 23:40:34

單位出現奇怪現象：領導和同事像集體約好的一樣，一過55歲就開始喜歡獨來獨往了

單位出現奇怪現象：領導和同事像集體約好的一樣，一過55歲就開始喜歡獨來獨往了

職場火鍋

2025-06-14 20:33:22

7國加入戰場，伊朗要被群毆？局勢變成5對2，中方不再靜觀其變

7國加入戰場，伊朗要被群毆？局勢變成5對2，中方不再靜觀其變

阿傖說事

2025-06-14 23:10:38

伊朗不再藏后手，2000枚導彈已搬上發射架？以色列領導層經不起炸

伊朗不再藏后手，2000枚導彈已搬上發射架？以色列領導層經不起炸

梁訊

2025-06-15 09:10:07

南航“美女經理”：除了生理期就沒閑過，兩年半和上級開房410次

南航“美女經理”：除了生理期就沒閑過，兩年半和上級開房410次

就一點

2025-06-13 16:45:25

伊朗或在數小時內再次發動襲擊以色列進入“前所未有緊急狀態”

伊朗或在數小時內再次發動襲擊以色列進入“前所未有緊急狀態”

環球網資訊

2025-06-15 05:59:29

AI產業主平臺領航智能+時代

12877文章數 66068關注度

往期回顧全部

科技要聞

華為Pura80系列首銷：不再嚴重缺貨

頭條要聞

印度空難幸存者：機身撞出巨大裂口爬出去后發生爆炸

頭條要聞

印度空難幸存者：機身撞出巨大裂口爬出去后發生爆炸

體育要聞

約戰天王山，步行者G4輸在了哪？

娛樂要聞

鳳凰傳奇曾毅塌房？網友：別連累玲花

財經要聞

以伊沖突持續升級，對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

時尚

教育

房產

公開課

《誅仙世界》首次回應銀價暴跌；騰訊網易紛紛做出違背祖訓的決定

夏天最值得入手的6件單品，全在這了

教育要聞

一張圖掌握五年級下的數學知識

房產要聞

又一城購房補貼！買房就發錢，正在海南樓市瘋狂擴散！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：亚洲精品自偷自拍无码忘忧| 久久成人麻豆午夜电影| 丰满熟妇人妻中文字幕| 高潮喷水抽搐无码免费| 一区国产传媒国产精品| 亚洲欧洲日韩在线电影| 无码国产玉足脚交极品网站| 亚洲精品国产成人| 亚洲经典三级| 美女毛片一区二区三区四区| 亚洲精品一区二区三区四区久久| 亚洲国产一二三精品无码| 国产狂喷水潮免费网站www| 中文字幕爆乳julia女教师| 精品国产乱码久久久久久免费| 亚洲精品一区二区三区在线| 欧美肥胖老妇做爰videos| 国产成人av一区二区三区在线观看| 欧美丰满少妇xxxx性| 不卡一区二区视频日本| 经典三级欧美在线播放| 成人cosplay福利网站18禁| 欧美日韩一区二区视频不卡| 青青狠狠噜天天噜日日噜| 性色av极品无码专区亚洲| 日本少妇毛茸茸高潮| 国产97视频人人做人人爱| 丁香婷婷综合激情五月色| 成人网站在线免费观看| 天天狠天天透天天伊人| 国产精品aⅴ在线观看| 亚洲xxxx做受欧美| 337p日本欧洲亚洲大胆精品| 中文字幕免费视频| 国产精品无码无片在线观看3d| 漂亮人妻熟睡中被公侵犯中文版| 国产精品午夜爆乳美女视频| 国产69精品久久久久久人妻精品| 国产成人一区二区视频免费| 国产精品任我爽爆在线播放| 色综合欧美亚洲国产|