大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

天塌了!蘋果剛剛證明:DeepSeek,o3,Claude等“推理”模型根本沒(méi)有推理能力

0
分享至


最新重磅研究:蘋果并不認(rèn)為推理模型比標(biāo)準(zhǔn) LLM有重大突破

最新研究《思考的幻覺(jué):通過(guò)問(wèn)題復(fù)雜性視角理解推理模型的優(yōu)勢(shì)與局限》中,蘋果對(duì)“大型語(yǔ)言模型已經(jīng)具備真正的邏輯思維能力——即真正的“推理能力”——這一普遍存在的假設(shè)提出了質(zhì)疑。蘋果公司的研究人員看到的并非認(rèn)知領(lǐng)域的突破,而是一種幻覺(jué):這些模型僅僅創(chuàng)造了思考的印象,而實(shí)際上并沒(méi)有穩(wěn)定、可理解的思維過(guò)程


這篇研究批評(píng)的核心點(diǎn)是:當(dāng)前最前沿的推理模型,在面對(duì)真正復(fù)雜的問(wèn)題時(shí),其推理能力會(huì)“斷崖式”崩潰,并且暴露出一種反直覺(jué)的“思考退化”現(xiàn)象,甚至連“照著算法抄作業(yè)”都做不好

現(xiàn)有評(píng)測(cè)方法的“陷阱”:為何需要新的實(shí)驗(yàn)場(chǎng)?

目前,評(píng)估AI推理能力主要依賴于數(shù)學(xué)(如MATH、AIME)和編程等基準(zhǔn)測(cè)試。然而,研究人員指出,這種方法存在兩大弊端:

數(shù)據(jù)污染(Data Contamination):這些基準(zhǔn)測(cè)試的題目和答案很可能已經(jīng)大量存在于模型的訓(xùn)練數(shù)據(jù)中。模型可能只是“記住”了答案,而非真正“推理”出答案。論文中的數(shù)據(jù)顯示,模型在更新的AIME25數(shù)據(jù)集上的表現(xiàn)反而不如更早的AIME24,這與人類表現(xiàn)恰恰相反,強(qiáng)烈暗示了數(shù)據(jù)污染對(duì)評(píng)測(cè)結(jié)果的干擾

缺乏對(duì)“思考過(guò)程”的洞察:最終答案的正確與否,無(wú)法告訴我們模型是如何思考的,其思維鏈?zhǔn)歉咝А?yán)謹(jǐn)還是充滿了冗余和錯(cuò)誤

為了擺脫這些“陷阱”,蘋果的研究團(tuán)隊(duì)轉(zhuǎn)向了一個(gè)更“純凈”的實(shí)驗(yàn)場(chǎng)——可控的解謎環(huán)境

精巧的實(shí)驗(yàn)設(shè)計(jì):在“謎題”中量化AI的思考能力

研究團(tuán)隊(duì)選取了四個(gè)經(jīng)典的、邏輯結(jié)構(gòu)穩(wěn)定但復(fù)雜度可控的謎題:

漢諾塔(Tower of Hanoi):測(cè)試遞歸和規(guī)劃能力

跳棋(Checker Jumping):測(cè)試序列規(guī)劃

過(guò)河問(wèn)題(River Crossing):測(cè)試約束滿足和規(guī)劃能力

積木世界(Blocks World):測(cè)試規(guī)劃和狀態(tài)管理

通過(guò)改變謎題的參數(shù)(如漢諾塔的盤子數(shù)量、過(guò)河問(wèn)題的人數(shù)),研究人員可以精確地控制問(wèn)題的組合復(fù)雜度,同時(shí)利用模擬器驗(yàn)證模型生成的每一步操作是否合規(guī),從而深入剖析其完整的“思考軌跡”

如圖示意:研究人員不僅評(píng)估最終答案,還提取并分析模型在 標(biāo)簽內(nèi)的中間步驟,以洞察其思維過(guò)程


核心發(fā)現(xiàn)

通過(guò)對(duì)一系列前沿模型(包括Claude 3.7 Sonnet、DeepSeek-R1及其對(duì)應(yīng)的非思考版本)的詳盡測(cè)試,研究得到了幾個(gè)顛覆性的發(fā)現(xiàn):

發(fā)現(xiàn)一:性能的三種“境界”——“思考”并非總是更優(yōu)

當(dāng)比較“思考”模型(LRM)和其標(biāo)準(zhǔn)LLM版本時(shí),研究人員發(fā)現(xiàn)了三個(gè)截然不同的性能區(qū)間:

低復(fù)雜度區(qū):對(duì)于簡(jiǎn)單問(wèn)題,標(biāo)準(zhǔn)模型反而更準(zhǔn)確、更高效。LRM的“思考”顯得多余和累贅

中等復(fù)雜度區(qū):隨著問(wèn)題變難,LRM生成長(zhǎng)思維鏈的優(yōu)勢(shì)開始顯現(xiàn),其性能超越標(biāo)準(zhǔn)模型

高復(fù)雜度區(qū):當(dāng)問(wèn)題復(fù)雜度超過(guò)某個(gè)臨界點(diǎn),兩種模型雙雙“崩潰”,準(zhǔn)確率降至零。這表明,“思考”機(jī)制只是延緩了失敗的到來(lái),并未解決根本性的能力瓶頸

如圖5所示:在低、中、高三種復(fù)雜度下,思考模型與非思考模型的性能對(duì)比,清晰地展示了三個(gè)不同區(qū)間的表現(xiàn)


發(fā)現(xiàn)二:“思考”的崩潰點(diǎn)與反直覺(jué)的“努力退化”

這是整篇論文最令人震驚的發(fā)現(xiàn)之一。研究顯示:

準(zhǔn)確率斷崖式下跌:所有受測(cè)的LRM,在問(wèn)題復(fù)雜度達(dá)到某個(gè)閾值后,準(zhǔn)確率都會(huì)急劇下降至零

反直覺(jué)的“思考退化”:更奇怪的是,在接近這個(gè)“崩潰點(diǎn)”時(shí),模型用于思考的計(jì)算量(即生成的思考token數(shù)量)非但沒(méi)有因問(wèn)題變難而增加,反而開始顯著減少

如圖示意:隨著復(fù)雜度增加(橫軸),模型準(zhǔn)確率(上排)最終歸零。與此同時(shí),其思考長(zhǎng)度(下排,以token計(jì))在達(dá)到峰值后不增反降,仿佛在難題面前主動(dòng)“放棄思考”


這表明,模型似乎存在一個(gè)內(nèi)在的“縮放限制”。當(dāng)它“預(yù)感到”問(wèn)題過(guò)于困難無(wú)法解決時(shí),即便有充足的計(jì)算預(yù)算(token limit),它也會(huì)選擇“躺平”,減少思考的努力

發(fā)現(xiàn)三:思維軌跡揭示的低效與掙扎

通過(guò)分析模型生成的“思考過(guò)程”,研究人員發(fā)現(xiàn)了其思維模式的深層問(wèn)題:

簡(jiǎn)單問(wèn)題“過(guò)度思考”(Overthinking):在解決簡(jiǎn)單謎題時(shí),模型常常在很早的步驟就找到了正確答案,但之后仍會(huì)繼續(xù)生成大量冗余甚至錯(cuò)誤的探索,浪費(fèi)了大量計(jì)算資源

復(fù)雜問(wèn)題“早期固執(zhí)”(Early Fixation):在面對(duì)難題時(shí),如果模型在早期犯了一個(gè)錯(cuò)誤,它往往會(huì)固執(zhí)地沿著錯(cuò)誤的路徑繼續(xù)探索,很難自我糾正,最終導(dǎo)致失敗。

發(fā)現(xiàn)四:令人困惑的“執(zhí)行”無(wú)能

研究人員還進(jìn)行了一項(xiàng)關(guān)鍵實(shí)驗(yàn),其結(jié)果進(jìn)一步暴露了模型推理能力的脆弱性

“抄作業(yè)”都不會(huì):在漢諾塔任務(wù)中,研究人員直接在提示(prompt)中提供了完整的、一步不錯(cuò)的解題算法,要求模型僅僅是“執(zhí)行”這個(gè)算法。結(jié)果顯示,模型的表現(xiàn)沒(méi)有任何改善,依然在相同的復(fù)雜度點(diǎn)上崩潰。這表明,模型的瓶頸不僅在于“規(guī)劃”和“尋找”解決方案,更在于基礎(chǔ)的、符號(hào)化的邏輯步驟執(zhí)行與驗(yàn)證能力的缺失

能力極度不均衡:Claude 3.7 Sonnet模型能正確解決需要上百步的漢諾塔問(wèn)題,但在一個(gè)僅需11步的過(guò)河問(wèn)題上卻早早失敗。這強(qiáng)烈暗示,模型的“推理能力”可能嚴(yán)重依賴于訓(xùn)練數(shù)據(jù)中的常見模式(漢諾塔是教科書級(jí)的經(jīng)典問(wèn)題),而非通用的、可泛化的邏輯推理能力

蘋果的這項(xiàng)研究很明顯是潑冷水

當(dāng)前LRM的“思考”機(jī)制,更像是一種復(fù)雜的啟發(fā)式搜索或模式匹配,而非人類意義上的、可泛化的邏輯推理,這些模型在處理高組合復(fù)雜度問(wèn)題時(shí),會(huì)遭遇性能和“思考努力”的雙重崩潰,這可能源于其架構(gòu)的根本限制,

最后蘋果強(qiáng)烈建議:

當(dāng)前大模型的評(píng)估范式亟待革新:我們必須超越依賴于可能被污染的基準(zhǔn)測(cè)試和最終答案準(zhǔn)確率的評(píng)估方法,轉(zhuǎn)向更可控、更深入的過(guò)程分析,才能真正理解AI的能力邊界

大家怎么看這篇研究?

參考:

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過(guò)?

用你的在看告訴我~

求贊

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
飛天茅臺(tái)價(jià)格持續(xù)走低,有網(wǎng)友分析若到1900元,多數(shù)經(jīng)銷商要賠錢

飛天茅臺(tái)價(jià)格持續(xù)走低,有網(wǎng)友分析若到1900元,多數(shù)經(jīng)銷商要賠錢

愛(ài)看劇的阿峰
2025-06-15 00:51:33
鄧紫棋前公司此刻恐怕是如坐針氈,誰(shuí)能想到她竟直接重錄整張專輯

鄧紫棋前公司此刻恐怕是如坐針氈,誰(shuí)能想到她竟直接重錄整張專輯

玫瑰講娛
2025-06-14 17:07:55
雷霆2-2扳平!一場(chǎng)丑陋的勝利,誰(shuí)是贏球最大功臣?數(shù)據(jù)不會(huì)說(shuō)謊

雷霆2-2扳平!一場(chǎng)丑陋的勝利,誰(shuí)是贏球最大功臣?數(shù)據(jù)不會(huì)說(shuō)謊

籃球掃地僧
2025-06-14 11:31:19
伊朗:打擊美軍基地 下一輪對(duì)以襲擊導(dǎo)彈數(shù)是20倍

伊朗:打擊美軍基地 下一輪對(duì)以襲擊導(dǎo)彈數(shù)是20倍

看看新聞Knews
2025-06-14 20:25:47
F1加拿大站:邁凱倫強(qiáng)勢(shì)反彈,諾里斯強(qiáng)勢(shì)奪下第1,勒克萊爾第2

F1加拿大站:邁凱倫強(qiáng)勢(shì)反彈,諾里斯強(qiáng)勢(shì)奪下第1,勒克萊爾第2

體育妞世界
2025-06-15 08:05:22
那爾那茜父母參加的飯局!

那爾那茜父母參加的飯局!

八卦瘋叔
2025-06-15 08:50:19
學(xué)醫(yī)后才明白,增強(qiáng)骨密度最好的運(yùn)動(dòng),并非散步游泳,或許是它!

學(xué)醫(yī)后才明白,增強(qiáng)骨密度最好的運(yùn)動(dòng),并非散步游泳,或許是它!

荷蘭豆愛(ài)健康
2025-06-14 08:39:34
新總理剛上臺(tái),邀請(qǐng)函立馬遞到北京!解放軍行動(dòng),美軍也下場(chǎng)了?

新總理剛上臺(tái),邀請(qǐng)函立馬遞到北京!解放軍行動(dòng),美軍也下場(chǎng)了?

寰球視聽
2025-06-14 10:32:57
CBS評(píng)李月汝交易:飛翼獲評(píng)B+,李月汝有望直接進(jìn)入首發(fā)陣容

CBS評(píng)李月汝交易:飛翼獲評(píng)B+,李月汝有望直接進(jìn)入首發(fā)陣容

雷速體育
2025-06-15 07:33:16
緬甸戰(zhàn)機(jī)又被擊落,從中方買回來(lái)12架戰(zhàn)機(jī),為何常常淪為活靶子?

緬甸戰(zhàn)機(jī)又被擊落,從中方買回來(lái)12架戰(zhàn)機(jī),為何常常淪為活靶子?

一個(gè)有靈魂的作者
2025-06-12 11:29:23
這14個(gè)地方長(zhǎng)痣的女性比較開放,尤其是這一處有痣,桃花最旺

這14個(gè)地方長(zhǎng)痣的女性比較開放,尤其是這一處有痣,桃花最旺

山九
2023-08-26 20:22:22
打入關(guān)鍵進(jìn)球!15歲中國(guó)小將弗朗西斯科-王隨本菲卡獲U15聯(lián)賽冠軍

打入關(guān)鍵進(jìn)球!15歲中國(guó)小將弗朗西斯科-王隨本菲卡獲U15聯(lián)賽冠軍

直播吧
2025-06-14 14:42:39
美國(guó)精心培養(yǎng)的棋子倒了!黃之鋒再被捕,不到2小時(shí)美國(guó)急發(fā)聲明

美國(guó)精心培養(yǎng)的棋子倒了!黃之鋒再被捕,不到2小時(shí)美國(guó)急發(fā)聲明

蘭妮搞笑分享
2025-06-14 21:38:24
潛伏我國(guó)30年美國(guó)辣醬巨頭,年入450億擊敗老干媽,被誤認(rèn)是國(guó)貨

潛伏我國(guó)30年美國(guó)辣醬巨頭,年入450億擊敗老干媽,被誤認(rèn)是國(guó)貨

南權(quán)先生
2025-06-12 16:40:46
兩年狂撈32億,這對(duì)抖音頂流夫婦決定躺平

兩年狂撈32億,這對(duì)抖音頂流夫婦決定躺平

野山歷史
2025-06-06 17:29:52
37歲男子資助女孩上學(xué),18年后博士畢業(yè)上門,男子:我沒(méi)錢給你了

37歲男子資助女孩上學(xué),18年后博士畢業(yè)上門,男子:我沒(méi)錢給你了

溫情郵局
2025-06-14 09:36:56
爆料廣東隊(duì)重磅引援,頂級(jí)前鋒要加入,杜鋒有幫手了

爆料廣東隊(duì)重磅引援,頂級(jí)前鋒要加入,杜鋒有幫手了

宗介說(shuō)體育
2025-06-15 10:21:59
7月起,我國(guó)將明令禁止收取這5種物業(yè)費(fèi),業(yè)主們還需早知道!

7月起,我國(guó)將明令禁止收取這5種物業(yè)費(fèi),業(yè)主們還需早知道!

詩(shī)詞中國(guó)
2025-06-14 14:09:57
上海網(wǎng)友:上午還在安排工作,下午突然全員解散!

上海網(wǎng)友:上午還在安排工作,下午突然全員解散!

小人物看盡人間百態(tài)
2025-06-14 15:29:06
以色列激怒俄羅斯,俄高官警告:只要打擊以色列,俄先進(jìn)導(dǎo)彈管夠

以色列激怒俄羅斯,俄高官警告:只要打擊以色列,俄先進(jìn)導(dǎo)彈管夠

龍炎校尉
2025-06-11 09:28:59
2025-06-15 11:59:00
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
717文章數(shù) 313關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴(yán)重缺貨

頭條要聞

清華高顏值美女學(xué)霸走紅 本人最新發(fā)聲

頭條要聞

清華高顏值美女學(xué)霸走紅 本人最新發(fā)聲

體育要聞

裁判可以噴,但也從步行者自身找找問(wèn)題?

娛樂(lè)要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財(cái)經(jīng)要聞

以伊沖突持續(xù)升級(jí),對(duì)全球市場(chǎng)影響多大

汽車要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

游戲
本地
家居
公開課
軍事航空

《誅仙世界》首次回應(yīng)銀價(jià)暴跌;騰訊網(wǎng)易紛紛做出違背祖訓(xùn)的決定

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場(chǎng)小技巧

家居要聞

森林幾何 極簡(jiǎn)灰調(diào)原木風(fēng)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗最高領(lǐng)袖高級(jí)顧問(wèn)沙姆哈尼 因傷勢(shì)過(guò)重離世

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久成人麻豆午夜电影| 久久综合亚洲欧美成人| 亚洲无人区码suv| 精品国产乱码久久久久久下载| 亚洲欧洲无码一区二区三区| 99久久国产综合精品swag| 久久精品99国产精品日本| 人人妻人人妻人人人人妻人人| 国产精品无码成人午夜电影| 国产激情视频一区二区三区| 亚洲爆乳大丰满无码专区| 亚洲中文字幕久久精品无码app| 亚洲av乱码中文一区二区三区| 欧美大屁股xxxxhd黑色| 丰满少妇被粗大猛烈进人高清| 欧美喷潮久久久xxxxx| 日韩欧美在线观看一区二区视频| 成人国内精品久久久久影院| 久久久久久人妻一区精品| 精品午夜福利1000在线观看| 丰满人妻翻云覆雨呻吟视频| 欧美黑人疯狂性受xxxxx喷水| 国产亚洲精品久久久久久牛牛| 久久综合九色综合国产| 国语自产偷拍在线观看| 天天做天天爱夜夜夜爽毛片| 日韩精品人妻系列无码专区免费| 韩国精品一区二区三区无码视频| 亚洲 自拍 欧美 小说 综合| 一本一道av中文字幕无码| 久久精品成人免费国产片小草| 国产精品igao视频网| 又大又硬又爽免费视频| 亚洲 自拍 另类小说综合图区| 被窝影院午夜无码国产| 成 人 黄 色 免费 网站无毒| 成 人片 黄 色 大 片| 中文字幕日韩精品无码内射| 国产精品人妻一码二码尿失禁| 国产免费人成视频在线观看| 久久久无码人妻精品无码|