網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

天塌了！蘋果剛剛證明：DeepSeek，o3，Claude等“推理”模型根本沒(méi)有推理能力

2025-06-08 06:44:01　來(lái)源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

最新重磅研究：蘋果并不認(rèn)為推理模型比標(biāo)準(zhǔn) LLM有重大突破

最新研究《思考的幻覺(jué)：通過(guò)問(wèn)題復(fù)雜性視角理解推理模型的優(yōu)勢(shì)與局限》中，蘋果對(duì)“大型語(yǔ)言模型已經(jīng)具備真正的邏輯思維能力——即真正的“推理能力”——這一普遍存在的假設(shè)提出了質(zhì)疑。蘋果公司的研究人員看到的并非認(rèn)知領(lǐng)域的突破，而是一種幻覺(jué)：這些模型僅僅創(chuàng)造了思考的印象，而實(shí)際上并沒(méi)有穩(wěn)定、可理解的思維過(guò)程

這篇研究批評(píng)的核心點(diǎn)是：當(dāng)前最前沿的推理模型，在面對(duì)真正復(fù)雜的問(wèn)題時(shí)，其推理能力會(huì)“斷崖式”崩潰，并且暴露出一種反直覺(jué)的“思考退化”現(xiàn)象，甚至連“照著算法抄作業(yè)”都做不好

現(xiàn)有評(píng)測(cè)方法的“陷阱”：為何需要新的實(shí)驗(yàn)場(chǎng)？

目前，評(píng)估AI推理能力主要依賴于數(shù)學(xué)（如MATH、AIME）和編程等基準(zhǔn)測(cè)試。然而，研究人員指出，這種方法存在兩大弊端：

數(shù)據(jù)污染（Data Contamination）：這些基準(zhǔn)測(cè)試的題目和答案很可能已經(jīng)大量存在于模型的訓(xùn)練數(shù)據(jù)中。模型可能只是“記住”了答案，而非真正“推理”出答案。論文中的數(shù)據(jù)顯示，模型在更新的AIME25數(shù)據(jù)集上的表現(xiàn)反而不如更早的AIME24，這與人類表現(xiàn)恰恰相反，強(qiáng)烈暗示了數(shù)據(jù)污染對(duì)評(píng)測(cè)結(jié)果的干擾

缺乏對(duì)“思考過(guò)程”的洞察：最終答案的正確與否，無(wú)法告訴我們模型是如何思考的，其思維鏈?zhǔn)歉咝А?yán)謹(jǐn)還是充滿了冗余和錯(cuò)誤

為了擺脫這些“陷阱”，蘋果的研究團(tuán)隊(duì)轉(zhuǎn)向了一個(gè)更“純凈”的實(shí)驗(yàn)場(chǎng)——可控的解謎環(huán)境

精巧的實(shí)驗(yàn)設(shè)計(jì)：在“謎題”中量化AI的思考能力

研究團(tuán)隊(duì)選取了四個(gè)經(jīng)典的、邏輯結(jié)構(gòu)穩(wěn)定但復(fù)雜度可控的謎題：

漢諾塔（Tower of Hanoi）：測(cè)試遞歸和規(guī)劃能力

跳棋（Checker Jumping）：測(cè)試序列規(guī)劃

過(guò)河問(wèn)題（River Crossing）：測(cè)試約束滿足和規(guī)劃能力

積木世界（Blocks World）：測(cè)試規(guī)劃和狀態(tài)管理

通過(guò)改變謎題的參數(shù)（如漢諾塔的盤子數(shù)量、過(guò)河問(wèn)題的人數(shù)），研究人員可以精確地控制問(wèn)題的組合復(fù)雜度，同時(shí)利用模擬器驗(yàn)證模型生成的每一步操作是否合規(guī)，從而深入剖析其完整的“思考軌跡”

如圖示意：研究人員不僅評(píng)估最終答案，還提取并分析模型在標(biāo)簽內(nèi)的中間步驟，以洞察其思維過(guò)程

核心發(fā)現(xiàn)

通過(guò)對(duì)一系列前沿模型（包括Claude 3.7 Sonnet、DeepSeek-R1及其對(duì)應(yīng)的非思考版本）的詳盡測(cè)試，研究得到了幾個(gè)顛覆性的發(fā)現(xiàn)：

發(fā)現(xiàn)一：性能的三種“境界”——“思考”并非總是更優(yōu)

當(dāng)比較“思考”模型（LRM）和其標(biāo)準(zhǔn)LLM版本時(shí)，研究人員發(fā)現(xiàn)了三個(gè)截然不同的性能區(qū)間：

低復(fù)雜度區(qū)：對(duì)于簡(jiǎn)單問(wèn)題，標(biāo)準(zhǔn)模型反而更準(zhǔn)確、更高效。LRM的“思考”顯得多余和累贅

中等復(fù)雜度區(qū)：隨著問(wèn)題變難，LRM生成長(zhǎng)思維鏈的優(yōu)勢(shì)開始顯現(xiàn)，其性能超越標(biāo)準(zhǔn)模型

高復(fù)雜度區(qū)：當(dāng)問(wèn)題復(fù)雜度超過(guò)某個(gè)臨界點(diǎn)，兩種模型雙雙“崩潰”，準(zhǔn)確率降至零。這表明，“思考”機(jī)制只是延緩了失敗的到來(lái)，并未解決根本性的能力瓶頸

如圖5所示：在低、中、高三種復(fù)雜度下，思考模型與非思考模型的性能對(duì)比，清晰地展示了三個(gè)不同區(qū)間的表現(xiàn)

發(fā)現(xiàn)二：“思考”的崩潰點(diǎn)與反直覺(jué)的“努力退化”

這是整篇論文最令人震驚的發(fā)現(xiàn)之一。研究顯示：

準(zhǔn)確率斷崖式下跌：所有受測(cè)的LRM，在問(wèn)題復(fù)雜度達(dá)到某個(gè)閾值后，準(zhǔn)確率都會(huì)急劇下降至零

反直覺(jué)的“思考退化”：更奇怪的是，在接近這個(gè)“崩潰點(diǎn)”時(shí)，模型用于思考的計(jì)算量（即生成的思考token數(shù)量）非但沒(méi)有因問(wèn)題變難而增加，反而開始顯著減少

如圖示意：隨著復(fù)雜度增加（橫軸），模型準(zhǔn)確率（上排）最終歸零。與此同時(shí)，其思考長(zhǎng)度（下排，以token計(jì)）在達(dá)到峰值后不增反降，仿佛在難題面前主動(dòng)“放棄思考”

這表明，模型似乎存在一個(gè)內(nèi)在的“縮放限制”。當(dāng)它“預(yù)感到”問(wèn)題過(guò)于困難無(wú)法解決時(shí)，即便有充足的計(jì)算預(yù)算（token limit），它也會(huì)選擇“躺平”，減少思考的努力

發(fā)現(xiàn)三：思維軌跡揭示的低效與掙扎

通過(guò)分析模型生成的“思考過(guò)程”，研究人員發(fā)現(xiàn)了其思維模式的深層問(wèn)題：

簡(jiǎn)單問(wèn)題“過(guò)度思考”（Overthinking）：在解決簡(jiǎn)單謎題時(shí)，模型常常在很早的步驟就找到了正確答案，但之后仍會(huì)繼續(xù)生成大量冗余甚至錯(cuò)誤的探索，浪費(fèi)了大量計(jì)算資源

復(fù)雜問(wèn)題“早期固執(zhí)”（Early Fixation）：在面對(duì)難題時(shí)，如果模型在早期犯了一個(gè)錯(cuò)誤，它往往會(huì)固執(zhí)地沿著錯(cuò)誤的路徑繼續(xù)探索，很難自我糾正，最終導(dǎo)致失敗。

發(fā)現(xiàn)四：令人困惑的“執(zhí)行”無(wú)能

研究人員還進(jìn)行了一項(xiàng)關(guān)鍵實(shí)驗(yàn)，其結(jié)果進(jìn)一步暴露了模型推理能力的脆弱性

“抄作業(yè)”都不會(huì)：在漢諾塔任務(wù)中，研究人員直接在提示（prompt）中提供了完整的、一步不錯(cuò)的解題算法，要求模型僅僅是“執(zhí)行”這個(gè)算法。結(jié)果顯示，模型的表現(xiàn)沒(méi)有任何改善，依然在相同的復(fù)雜度點(diǎn)上崩潰。這表明，模型的瓶頸不僅在于“規(guī)劃”和“尋找”解決方案，更在于基礎(chǔ)的、符號(hào)化的邏輯步驟執(zhí)行與驗(yàn)證能力的缺失

能力極度不均衡：Claude 3.7 Sonnet模型能正確解決需要上百步的漢諾塔問(wèn)題，但在一個(gè)僅需11步的過(guò)河問(wèn)題上卻早早失敗。這強(qiáng)烈暗示，模型的“推理能力”可能嚴(yán)重依賴于訓(xùn)練數(shù)據(jù)中的常見模式（漢諾塔是教科書級(jí)的經(jīng)典問(wèn)題），而非通用的、可泛化的邏輯推理能力

蘋果的這項(xiàng)研究很明顯是潑冷水

當(dāng)前LRM的“思考”機(jī)制，更像是一種復(fù)雜的啟發(fā)式搜索或模式匹配，而非人類意義上的、可泛化的邏輯推理，這些模型在處理高組合復(fù)雜度問(wèn)題時(shí)，會(huì)遭遇性能和“思考努力”的雙重崩潰，這可能源于其架構(gòu)的根本限制，

最后蘋果強(qiáng)烈建議：

當(dāng)前大模型的評(píng)估范式亟待革新：我們必須超越依賴于可能被污染的基準(zhǔn)測(cè)試和最終答案準(zhǔn)確率的評(píng)估方法，轉(zhuǎn)向更可控、更深入的過(guò)程分析，才能真正理解AI的能力邊界

大家怎么看這篇研究？

參考：

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

?星標(biāo)AI寒武紀(jì)，好內(nèi)容不錯(cuò)過(guò)?

用你的贊和在看告訴我～

求贊

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.