IT之家 6 月 14 日消息,科技媒體 9to5Mac 昨日(6 月 13 日)發(fā)布博文,報(bào)道稱蘋果公司 6 月 6 日發(fā)布的 AI 研究論文《The Illusion of Thinking》引發(fā)爭(zhēng)議,專家質(zhì)疑評(píng)估方法。
蘋果公司在論文中指出,即便是當(dāng)前最先進(jìn)的大型推理模型(LRMs),在復(fù)雜任務(wù)中也會(huì)崩潰。不過 Open Philanthropy 的研究員 Alex Lawsen 對(duì)此提出詳細(xì)反駁,認(rèn)為蘋果的結(jié)論源于實(shí)驗(yàn)設(shè)計(jì)缺陷,而非模型推理能力的根本性局限。
爭(zhēng)議的焦點(diǎn)是蘋果論文指出,即便是當(dāng)前最先進(jìn)的大型推理模型,在處理漢諾塔問題(Tower of Hanoi)等復(fù)雜任務(wù)時(shí),也會(huì)出現(xiàn)徹底失敗的情況。
IT之家注:漢諾塔問題是一個(gè)經(jīng)典的遞歸算法問題:上帝創(chuàng)造了三根柱子,并在第一根柱子上按順序套有 N 個(gè)大小不同的圓盤(自下而上,圓盤由大到小,呈金字形)。
規(guī)定每次只能移動(dòng)最頂端的一個(gè)圓盤,并且保證整個(gè)過程中大圓盤不能放在小圓盤之上。欲將所有圓盤從第一根柱子移動(dòng)到第三根柱子,試給出解決方案。
Open Philanthropy 的研究員 Alex Lawsen 近日發(fā)布反駁文章《The Illusion of the Illusion of Thinking》,認(rèn)為蘋果的研究結(jié)果更多反映了實(shí)驗(yàn)設(shè)計(jì)的缺陷,而非模型推理能力的真正局限。他在文章中直言,蘋果的研究混淆了輸出限制和評(píng)估設(shè)置問題,與實(shí)際推理失敗無關(guān)。
Lawsen 提出了三個(gè)核心問題,挑戰(zhàn)蘋果的結(jié)論。首先,他指出蘋果忽略了模型的 Token 預(yù)算限制。在處理 8 盤以上的河內(nèi)塔問題時(shí),如 Anthropic 的 Claude Opus 等模型已接近輸出上限,甚至明確表示“為節(jié)省 Token 而停止”。
其次,蘋果的 River Crossing(過河)測(cè)試中包含無解謎題,例如 6 個(gè)以上角色搭配無法滿足的船只容量限制,模型因拒絕解答而被扣分。
最后,蘋果的自動(dòng)化評(píng)估腳本僅以完整步驟列表為標(biāo)準(zhǔn),未能區(qū)分推理失敗與輸出截?cái)啵瑢?dǎo)致部分策略性輸出被誤判為失敗。Lawsen 認(rèn)為,這種僵硬的評(píng)估方式有失公允。
為支持觀點(diǎn),Lawsen 重新設(shè)計(jì)了河內(nèi)塔測(cè)試,要求模型生成遞歸 Lua 函數(shù)來打印解法,而非逐一列出所有步驟。
結(jié)果令人驚訝:Claude、Gemini 和 OpenAI 的 o3 模型均能正確生成 15 盤問題的算法解法,遠(yuǎn)超蘋果報(bào)告的“零成功”復(fù)雜性界限。
Lawsen 得出結(jié)論:去除人為輸出限制后,LRMs 展現(xiàn)出處理高復(fù)雜任務(wù)的推理能力,至少在算法生成層面是如此。這表明,問題可能不在于模型本身,而在于評(píng)估方式。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.