研究爭議焦點(diǎn)
2025年6月13日,Open Philanthropy研究員Alex Lawsen發(fā)表論文《思考錯(cuò)覺的錯(cuò)覺》,對蘋果公司AI研究團(tuán)隊(duì)此前發(fā)布的《思考的錯(cuò)覺》報(bào)告提出系統(tǒng)性反駁。蘋果原報(bào)告聲稱,即使最先進(jìn)的大語言模型(LRM)在復(fù)雜任務(wù)中也會出現(xiàn)"推理崩潰"。
實(shí)驗(yàn)設(shè)計(jì)質(zhì)疑
Lawsen指出蘋果研究的三大方法論缺陷:首先,模型在解決"河內(nèi)塔"8層以上問題時(shí)遭遇的失敗,實(shí)因輸出令牌數(shù)限制被忽略;其次,測試中混入數(shù)學(xué)上無解的"渡河難題"樣本;最后,自動化評估腳本未能區(qū)分真正的推理失敗與輸出截?cái)唷Q芯刻貏e提到,Anthropic的Claude Opus模型在遇到無解問題時(shí)曾明確提示"為節(jié)省令牌將終止輸出"。
替代實(shí)驗(yàn)驗(yàn)證
為驗(yàn)證觀點(diǎn),Lawsen團(tuán)隊(duì)改用Lua遞歸函數(shù)生成方式重新測試。結(jié)果顯示,Claude、Gemini等模型能成功生成解決15層河內(nèi)塔問題的算法,遠(yuǎn)超蘋果報(bào)告中宣稱的失效閾值。該實(shí)驗(yàn)證實(shí),當(dāng)解除輸出限制后,模型展現(xiàn)的算法推理能力顯著優(yōu)于原結(jié)論。
學(xué)術(shù)爭議意義
這場辯論關(guān)乎對AI能力的本質(zhì)評估。Lawsen強(qiáng)調(diào),當(dāng)前評估體系需要區(qū)分"真實(shí)推理缺陷"與"工程限制",建議未來研究應(yīng)改進(jìn)復(fù)雜度度量標(biāo)準(zhǔn),并采用多元化的解決方案表征方式。不過其論文也承認(rèn),大語言模型在算法泛化方面仍存在挑戰(zhàn)。
(消息來源:9to5Mac,2025年6月13日報(bào)道)
參考鏈接:
https://9to5mac.com/2025/06/13/new-paper-pushes-back-on-apples-llm-reasoning-collapse-study/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.