新智元報道
編輯:KingHZ
【新智元導讀】最近,蘋果再次發文指出LLM推理的根本缺陷。相關解讀,一夜刷屏。然而,GitHub高級軟件工程師怒不可遏,怒斥相關「流言」。
最近,蘋果公司發表了預印本論文,指出推理大模型存在重大缺陷。
昨天,Ruben Hassid發布了相關解讀的X帖子,認為這是項突破性研究:
蘋果證明了Claude等AI推理模型,根本不會思考。
這種解讀在社交平臺上廣泛傳播,瀏覽量已超過1000萬,且仍在持續增長。
但這種解讀翻車了!
在Reddit和黑客新聞,網友紛紛表示論文爭議太大。
左右滑動查看
GitHub高級工程師Sean Goedecke,對該論文持保留態度,盡管他也認為語言模型不是通往超級智能(ASI)的理想路徑。
最直接的例證是:當用DeepSeek-V3測試時,模型直接拒絕了要執行上千步的謎題推演
——這并非推理能力崩潰,反而說明模型具備對自身能力邊界的認知!
雖然Samy沒有獲得圖靈獎,聲望不及Yoshua,但其在谷歌學術上的引用次數已超過九萬次,是Jeff Dean等知名學者的合作者。
這也不是蘋果第一次指出LLM推理有問題,但這次在各大社交平臺上得到了廣泛傳播。
左右滑動查看
那么蘋果的新論文到底展示了什么?我們又該如何看待語言模型?
要理解這場爭議的核心,我們先看看蘋果論文到底說了什么。
蘋果到底說了什么?
這篇論文開篇就提出,在數學和編程基準測試中,大家不要太在意推理模型的表現,因為:
(a)這些基準測試存在污染;
(b)在數學和編程任務上,無法運行高質量實驗,因為這些任務缺乏簡明的復雜度量標準。
因此,蘋果的研究團隊選擇使用四種人工謎題(puzzle)環境(漢諾塔的變體),再次評估了推理模型,難度從最簡單的單盤漢諾塔逐步上升到二十盤漢諾塔。
漢諾塔(Tower of Hanoi)是根據一個傳說形成的數學問題:
有三根桿子A,B,C。A桿上有N個(N>1)穿孔圓盤,盤的尺寸由下到上依次變小。
要求按下列規則將所有圓盤移至C桿:
(1)每次只能移動一個圓盤;
(2)大盤不能疊在小盤上面。可將圓盤臨時置于B桿,也可將從A桿移出的圓盤重新移回A桿,但都必須遵循上述兩條規則。
問題為:應該以何種方式移動?最少要移動多少次?
例如,他們對比了非推理模型DeepSeek-V3與推理模型DeepSeek-R1:
這個對比模式在所有推理/非推理模型對、以及所有謎題任務中基本一致。
論文得出以下幾個核心結論:
對非常簡單的謎題,非推理模型表現相當甚至更好,因為推理模型有時會「想太多」而導致錯誤。
對中等難度的謎題,推理模型明顯更強。
一旦任務復雜度足夠高,即使是推理模型也無法給出正確答案,不管你給它多長時間。
接下來,論文分析了推理模型的內部思維軌跡,驗證了上述結論:
在簡單問題中,正確答案幾乎立刻出現;
在中等問題中,需要更多推理步驟;
而在最困難的問題中,則根本不會出現。
論文還指出,隨著問題復雜度增加,一旦模型無法解決問題,開始「躺平摸魚」:
模型不會繼續投入更多token來解題,而是直接「放棄」,停止推理。
最后,論文嘗試直接將正確的謎題求解算法輸入模型,期望這能提高其推理能力。
結果只是「有一點用」:部分模型可以多解出一個盤,但整體效果并不顯著。
總結來看,該論文得出以下結論:
推理模型存在復雜度「天花板」,一旦超出,性能明顯下降。
推理模型可能存在「內在計算擴展上限」,證據是:模型在達到一定復雜度時,會選擇放棄。
推理模型不擅長計算性任務,因為即使將算法直接給它們,也沒用。
這樣理解:不對
對蘋果的這篇論文,Sean Goedecke有三大質疑:
首先,漢諾塔這類謎題不是判斷「推理能力」的好例子;
其次,推理模型的復雜性閾值,不一定是固定的;
最后,存在復雜度閾值≠模型「并不真正具備推理能力」。
謎題不是好例子
相比數學和編程,漢諾塔是一個更糟糕的推理測試案例。
如果擔心數學和編程基準測試存在訓練數據污染,那為何選擇訓練數據中存在解法的知名謎題?
這是Sean Goedecke對論文最主要的不滿。
論文卻得出結論「給模型提供解法,也沒有提高效果」。
這件事讓他感到驚訝:
漢諾塔算法在模型訓練數據中反復出現。
所以,給模型算法幫助當然不大——
模型早已經知道算法是什么了!
另外,推理模型是有針對性地被訓練用于數學和編程任務的,而不是用于謎題。
也許謎題在某種程度上可以代表推理能力,但也可能根本不相關。
從另一個角度,他完全可以相信:模型在處理數學題或寫代碼時具備更完善的內部工具鏈,而不具備用于謎題的工具。
用謎題來測推理能力,等同于說「GPT-3.5之后,寫彼特拉克式十四行詩沒有明顯進步,所以語言模型并沒真正取得進展」。
彼得拉克式十四行,又稱意大利十四行詩。詩標準意式十四行詩由14個十一音節詩行組成,分為前后兩部分:前八行(octave)與后六行(sestet)
漢諾塔確實比數學問題更容易縮放復雜度,但正因為這個原因就選它,給人一種「路燈效應」的感覺
——不是因為它最好,而是因為它最方便。
路燈效應,指人們傾向于只在最容易尋找的地方進行搜索
復雜度閾值未必固定
假設語言模型在超過一定復雜性點后確實會放棄,就像它們在超過十個盤子的漢諾塔時一樣。
換言之,假設之前對謎題作為測試例子的質疑是錯誤的,而蘋果的論文確實具有普適性。
那么,這是否意味著模型無法處理超出某一復雜度的問題?
Sean Goedecke將蘋果論文中的一些提示詞輸入DeepSeek-R1,以下是簡化版的推理軌跡開頭:
好的,我需要解一個有10個盤的漢諾塔問題。
讓我思考如何處理這個問題。我記得經典解法是遞歸步驟……
n個盤的標準解法需要2^n-1步。對于10個盤是1023步。但手動列出每一步幾乎不可能。
所以我需要一種系統化方法來逐步列出每一步。讓我回憶一下漢諾塔的迭代解法……
請注意,模型立即決定「手動生成所有這些步驟是不可能的」,因為這需要跟蹤上千個步驟。
于是它開始尋找「聰明的捷徑」,但最終失敗。
這里的關鍵見解是,超過一定復雜性閾值后,模型決定有太多的步驟需要推理,于是開始尋找巧妙的捷徑。
模型所面對的任務其實已悄然轉變:從「逐步推理完成」變為「發明一種能跳過推理的通用方案」。
從測試來看,即使在較低的盤子數量下,DeepSeek-R1也會抱怨幾句,說「這會很繁瑣」,即使你明確要求它逐步列出解法。
這是可以理解的:推理模型是為推理而訓練的,不是為執行數千次機械步驟而訓練的。
那么,對于漢諾塔謎題來說,真的存在復雜性閾值嗎?
實際上,大家并不知道模型是否能夠堅持完成千步序列。
我們所知道的是,模型不想這樣做。
順帶一提,這也解釋了一個「奇怪」的發現:
當問題變得更難時,模型使用的推理token反而減少。
因為任務如果只需幾十步,它會積極推理;如果需要幾百甚至上千步,它就選擇放棄。
注意:Sean Goedecke沒有訪問其他推理模型軌跡的權限——
如果它們表現不同,那么他愿意承認在這個觀點上他是錯誤的。
復雜任務失敗≠0推理能力
假設到目前為止的一切都是錯誤的:
謎題真的是測試推理的好例子,推理模型真的有個固定的復雜性閾值。
這是否意味著模型不能推理?
當然,這并不意味著模型不能推理!
當然不是!
看到網絡上的一些熱評,Sean Goedecke情難自禁,簡直要瘋了。
多少人能真正坐下來,準確寫出一千步的漢諾塔解法?
肯定有一些人可以,但也有很多人完全不行。
我們會因此說那些人「不具備推理能力」嗎?
當然不會!
他們只是缺乏足夠的耐心與專注,從而無法做到手動執行一千次算法而已。
即便只能推理到第十步,未能完成第十一步,也依然體現了推理能力。
能推理三步,也依然是推理,哪怕你無法看清第四步。
這也許不是「超人級」的推理,但絕對屬于人類推理能力。
嚴格說來,這對論文可能不太公平——
它本身并沒有明確說模型「根本不能推理」(除非你把標題當真)。
然而,互聯網上這么說的人太多了,所以他認為值得討論一下。
總結
蘋果的論文《思維的幻覺》,不是特別好。
Sean Goedecke的主要反對意見是,他不認為推理模型像論文暗示的那樣不擅長這些謎題:
從我自己的測試來看,模型早早決定幾百個算法步驟太多,甚至不值得嘗試,所以它們拒絕開始。
你不能比較八盤漢諾塔和十盤漢諾塔,因為你比較的是「模型能否完成算法」和「模型能否想出一個避免完成算法的解決方案」。
更加一般性地,他不相信謎題是評估推理能力的好試驗場,因為
(a)它們不是人工智能實驗室的重點領域,
(b)它們需要像計算機一樣遵循算法,而不是需要解決數學問題的那種推理。
Sean Goedecke認為,推理模型并非像論文暗示的那樣不擅長這類謎題。
在他的測試中,模型在面對上百步算法時,往往主動放棄,而非能力崩潰。
他強調,放棄并不意味著無法推理——
就像人類在面對高度重復、枯燥任務時也可能選擇中止。
這種行為更多體現的是認知邊界,而非思維能力的缺失。
因此,他不認同將「未完成復雜任務」等同于「不具備推理能力」的觀點。
這篇論文并非一無是處,Sean Goedecke認為它有下列亮點:
推理模型在簡單問題上有時會「想太多」,表現不如非推理模型,這一點很有趣;
模型在長算法執行過程中「放棄」的現象也很有意思,盡管它可能并不能很好地說明其普遍推理能力;
他喜歡「問題三階段」這一觀點:簡單、中等可推理、以及復雜到模型會放棄的階段。如果某種模型可以被訓練成「永不放棄」,那將非常有趣。
無論如何,蘋果的研究提供了重要提醒:
當前語言模型的推理能力遠非「通用智能」。
那么,該如何定義「推理」?
又如何測試「思維」?
這可能是下一代AI必須直面的核心問題。
參考資料:
https://www.seangoedecke.com/illusion-of-thinking/
https://www.linkedin.com/feed/update/urn:li:activity:7337332564367462400/
https://x.com/RubenHssd/status/1931389580105925115
https://www.reddit.com/r/MachineLearning/comments/1l5hzhs/r_apple_research_the_illusion_of_thinking/
https://news.ycombinator.com/item?id=44203562
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.