最新重磅研究:蘋果并不認(rèn)為推理模型比標(biāo)準(zhǔn) LLM有重大突破
最新研究《思考的幻覺(jué):通過(guò)問(wèn)題復(fù)雜性視角理解推理模型的優(yōu)勢(shì)與局限》中,蘋果對(duì)“大型語(yǔ)言模型已經(jīng)具備真正的邏輯思維能力——即真正的“推理能力”——這一普遍存在的假設(shè)提出了質(zhì)疑。蘋果公司的研究人員看到的并非認(rèn)知領(lǐng)域的突破,而是一種幻覺(jué):這些模型僅僅創(chuàng)造了思考的印象,而實(shí)際上并沒(méi)有穩(wěn)定、可理解的思維過(guò)程
這篇研究批評(píng)的核心點(diǎn)是:當(dāng)前最前沿的推理模型,在面對(duì)真正復(fù)雜的問(wèn)題時(shí),其推理能力會(huì)“斷崖式”崩潰,并且暴露出一種反直覺(jué)的“思考退化”現(xiàn)象,甚至連“照著算法抄作業(yè)”都做不好
現(xiàn)有評(píng)測(cè)方法的“陷阱”:為何需要新的實(shí)驗(yàn)場(chǎng)?
目前,評(píng)估AI推理能力主要依賴于數(shù)學(xué)(如MATH、AIME)和編程等基準(zhǔn)測(cè)試。然而,研究人員指出,這種方法存在兩大弊端:
數(shù)據(jù)污染(Data Contamination):這些基準(zhǔn)測(cè)試的題目和答案很可能已經(jīng)大量存在于模型的訓(xùn)練數(shù)據(jù)中。模型可能只是“記住”了答案,而非真正“推理”出答案。論文中的數(shù)據(jù)顯示,模型在更新的AIME25數(shù)據(jù)集上的表現(xiàn)反而不如更早的AIME24,這與人類表現(xiàn)恰恰相反,強(qiáng)烈暗示了數(shù)據(jù)污染對(duì)評(píng)測(cè)結(jié)果的干擾
缺乏對(duì)“思考過(guò)程”的洞察:最終答案的正確與否,無(wú)法告訴我們模型是如何思考的,其思維鏈?zhǔn)歉咝А?yán)謹(jǐn)還是充滿了冗余和錯(cuò)誤
為了擺脫這些“陷阱”,蘋果的研究團(tuán)隊(duì)轉(zhuǎn)向了一個(gè)更“純凈”的實(shí)驗(yàn)場(chǎng)——可控的解謎環(huán)境
精巧的實(shí)驗(yàn)設(shè)計(jì):在“謎題”中量化AI的思考能力
研究團(tuán)隊(duì)選取了四個(gè)經(jīng)典的、邏輯結(jié)構(gòu)穩(wěn)定但復(fù)雜度可控的謎題:
漢諾塔(Tower of Hanoi):測(cè)試遞歸和規(guī)劃能力
跳棋(Checker Jumping):測(cè)試序列規(guī)劃
過(guò)河問(wèn)題(River Crossing):測(cè)試約束滿足和規(guī)劃能力
積木世界(Blocks World):測(cè)試規(guī)劃和狀態(tài)管理
通過(guò)改變謎題的參數(shù)(如漢諾塔的盤子數(shù)量、過(guò)河問(wèn)題的人數(shù)),研究人員可以精確地控制問(wèn)題的組合復(fù)雜度,同時(shí)利用模擬器驗(yàn)證模型生成的每一步操作是否合規(guī),從而深入剖析其完整的“思考軌跡”
如圖示意:研究人員不僅評(píng)估最終答案,還提取并分析模型在
標(biāo)簽內(nèi)的中間步驟,以洞察其思維過(guò)程
核心發(fā)現(xiàn)
通過(guò)對(duì)一系列前沿模型(包括Claude 3.7 Sonnet、DeepSeek-R1及其對(duì)應(yīng)的非思考版本)的詳盡測(cè)試,研究得到了幾個(gè)顛覆性的發(fā)現(xiàn):
發(fā)現(xiàn)一:性能的三種“境界”——“思考”并非總是更優(yōu)
當(dāng)比較“思考”模型(LRM)和其標(biāo)準(zhǔn)LLM版本時(shí),研究人員發(fā)現(xiàn)了三個(gè)截然不同的性能區(qū)間:
低復(fù)雜度區(qū):對(duì)于簡(jiǎn)單問(wèn)題,標(biāo)準(zhǔn)模型反而更準(zhǔn)確、更高效。LRM的“思考”顯得多余和累贅
中等復(fù)雜度區(qū):隨著問(wèn)題變難,LRM生成長(zhǎng)思維鏈的優(yōu)勢(shì)開始顯現(xiàn),其性能超越標(biāo)準(zhǔn)模型
高復(fù)雜度區(qū):當(dāng)問(wèn)題復(fù)雜度超過(guò)某個(gè)臨界點(diǎn),兩種模型雙雙“崩潰”,準(zhǔn)確率降至零。這表明,“思考”機(jī)制只是延緩了失敗的到來(lái),并未解決根本性的能力瓶頸
如圖5所示:在低、中、高三種復(fù)雜度下,思考模型與非思考模型的性能對(duì)比,清晰地展示了三個(gè)不同區(qū)間的表現(xiàn)
發(fā)現(xiàn)二:“思考”的崩潰點(diǎn)與反直覺(jué)的“努力退化”
這是整篇論文最令人震驚的發(fā)現(xiàn)之一。研究顯示:
準(zhǔn)確率斷崖式下跌:所有受測(cè)的LRM,在問(wèn)題復(fù)雜度達(dá)到某個(gè)閾值后,準(zhǔn)確率都會(huì)急劇下降至零
反直覺(jué)的“思考退化”:更奇怪的是,在接近這個(gè)“崩潰點(diǎn)”時(shí),模型用于思考的計(jì)算量(即生成的思考token數(shù)量)非但沒(méi)有因問(wèn)題變難而增加,反而開始顯著減少
如圖示意:隨著復(fù)雜度增加(橫軸),模型準(zhǔn)確率(上排)最終歸零。與此同時(shí),其思考長(zhǎng)度(下排,以token計(jì))在達(dá)到峰值后不增反降,仿佛在難題面前主動(dòng)“放棄思考”
這表明,模型似乎存在一個(gè)內(nèi)在的“縮放限制”。當(dāng)它“預(yù)感到”問(wèn)題過(guò)于困難無(wú)法解決時(shí),即便有充足的計(jì)算預(yù)算(token limit),它也會(huì)選擇“躺平”,減少思考的努力
發(fā)現(xiàn)三:思維軌跡揭示的低效與掙扎
通過(guò)分析模型生成的“思考過(guò)程”,研究人員發(fā)現(xiàn)了其思維模式的深層問(wèn)題:
簡(jiǎn)單問(wèn)題“過(guò)度思考”(Overthinking):在解決簡(jiǎn)單謎題時(shí),模型常常在很早的步驟就找到了正確答案,但之后仍會(huì)繼續(xù)生成大量冗余甚至錯(cuò)誤的探索,浪費(fèi)了大量計(jì)算資源
復(fù)雜問(wèn)題“早期固執(zhí)”(Early Fixation):在面對(duì)難題時(shí),如果模型在早期犯了一個(gè)錯(cuò)誤,它往往會(huì)固執(zhí)地沿著錯(cuò)誤的路徑繼續(xù)探索,很難自我糾正,最終導(dǎo)致失敗。
發(fā)現(xiàn)四:令人困惑的“執(zhí)行”無(wú)能
研究人員還進(jìn)行了一項(xiàng)關(guān)鍵實(shí)驗(yàn),其結(jié)果進(jìn)一步暴露了模型推理能力的脆弱性
“抄作業(yè)”都不會(huì):在漢諾塔任務(wù)中,研究人員直接在提示(prompt)中提供了完整的、一步不錯(cuò)的解題算法,要求模型僅僅是“執(zhí)行”這個(gè)算法。結(jié)果顯示,模型的表現(xiàn)沒(méi)有任何改善,依然在相同的復(fù)雜度點(diǎn)上崩潰。這表明,模型的瓶頸不僅在于“規(guī)劃”和“尋找”解決方案,更在于基礎(chǔ)的、符號(hào)化的邏輯步驟執(zhí)行與驗(yàn)證能力的缺失
能力極度不均衡:Claude 3.7 Sonnet模型能正確解決需要上百步的漢諾塔問(wèn)題,但在一個(gè)僅需11步的過(guò)河問(wèn)題上卻早早失敗。這強(qiáng)烈暗示,模型的“推理能力”可能嚴(yán)重依賴于訓(xùn)練數(shù)據(jù)中的常見模式(漢諾塔是教科書級(jí)的經(jīng)典問(wèn)題),而非通用的、可泛化的邏輯推理能力
蘋果的這項(xiàng)研究很明顯是潑冷水
當(dāng)前LRM的“思考”機(jī)制,更像是一種復(fù)雜的啟發(fā)式搜索或模式匹配,而非人類意義上的、可泛化的邏輯推理,這些模型在處理高組合復(fù)雜度問(wèn)題時(shí),會(huì)遭遇性能和“思考努力”的雙重崩潰,這可能源于其架構(gòu)的根本限制,
最后蘋果強(qiáng)烈建議:
當(dāng)前大模型的評(píng)估范式亟待革新:我們必須超越依賴于可能被污染的基準(zhǔn)測(cè)試和最終答案準(zhǔn)確率的評(píng)估方法,轉(zhuǎn)向更可控、更深入的過(guò)程分析,才能真正理解AI的能力邊界
大家怎么看這篇研究?
參考:
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過(guò)?
用你的贊和在看告訴我~
求贊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.