大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

蘋果炮轟AI推理遭打臉，GitHub大佬神怒懟！復雜任務≠推理能力

2025-06-09 18:06:09　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：KingHZ

【新智元導讀】最近，蘋果再次發文指出LLM推理的根本缺陷。相關解讀，一夜刷屏。然而，GitHub高級軟件工程師怒不可遏，怒斥相關「流言」。

最近，蘋果公司發表了預印本論文，指出推理大模型存在重大缺陷。

昨天，Ruben Hassid發布了相關解讀的X帖子，認為這是項突破性研究：

蘋果證明了Claude等AI推理模型，根本不會思考。

這種解讀在社交平臺上廣泛傳播，瀏覽量已超過1000萬，且仍在持續增長。

但這種解讀翻車了！

在Reddit和黑客新聞，網友紛紛表示論文爭議太大。

左右滑動查看

GitHub高級工程師Sean Goedecke，對該論文持保留態度，盡管他也認為語言模型不是通往超級智能（ASI）的理想路徑。

最直接的例證是：當用DeepSeek-V3測試時，模型直接拒絕了要執行上千步的謎題推演

——這并非推理能力崩潰，反而說明模型具備對自身能力邊界的認知！

雖然Samy沒有獲得圖靈獎，聲望不及Yoshua，但其在谷歌學術上的引用次數已超過九萬次，是Jeff Dean等知名學者的合作者。

這也不是蘋果第一次指出LLM推理有問題，但這次在各大社交平臺上得到了廣泛傳播。

左右滑動查看

那么蘋果的新論文到底展示了什么？我們又該如何看待語言模型？

要理解這場爭議的核心，我們先看看蘋果論文到底說了什么。

蘋果到底說了什么？

這篇論文開篇就提出，在數學和編程基準測試中，大家不要太在意推理模型的表現，因為：

（a）這些基準測試存在污染；
（b）在數學和編程任務上，無法運行高質量實驗，因為這些任務缺乏簡明的復雜度量標準。

因此，蘋果的研究團隊選擇使用四種人工謎題（puzzle）環境（漢諾塔的變體），再次評估了推理模型，難度從最簡單的單盤漢諾塔逐步上升到二十盤漢諾塔。

漢諾塔（Tower of Hanoi）是根據一個傳說形成的數學問題：

有三根桿子A，B，C。A桿上有N個（N>1）穿孔圓盤，盤的尺寸由下到上依次變小。

要求按下列規則將所有圓盤移至C桿:

（1）每次只能移動一個圓盤；

（2）大盤不能疊在小盤上面。可將圓盤臨時置于B桿，也可將從A桿移出的圓盤重新移回A桿，但都必須遵循上述兩條規則。

問題為：應該以何種方式移動？最少要移動多少次？

例如，他們對比了非推理模型DeepSeek-V3與推理模型DeepSeek-R1：

這個對比模式在所有推理/非推理模型對、以及所有謎題任務中基本一致。

論文得出以下幾個核心結論：

對非常簡單的謎題，非推理模型表現相當甚至更好，因為推理模型有時會「想太多」而導致錯誤。
對中等難度的謎題，推理模型明顯更強。
一旦任務復雜度足夠高，即使是推理模型也無法給出正確答案，不管你給它多長時間。

接下來，論文分析了推理模型的內部思維軌跡，驗證了上述結論：

在簡單問題中，正確答案幾乎立刻出現；

在中等問題中，需要更多推理步驟；

而在最困難的問題中，則根本不會出現。

論文還指出，隨著問題復雜度增加，一旦模型無法解決問題，開始「躺平摸魚」：

模型不會繼續投入更多token來解題，而是直接「放棄」，停止推理。

最后，論文嘗試直接將正確的謎題求解算法輸入模型，期望這能提高其推理能力。

結果只是「有一點用」：部分模型可以多解出一個盤，但整體效果并不顯著。

總結來看，該論文得出以下結論：

推理模型存在復雜度「天花板」，一旦超出，性能明顯下降。
推理模型可能存在「內在計算擴展上限」，證據是：模型在達到一定復雜度時，會選擇放棄。
推理模型不擅長計算性任務，因為即使將算法直接給它們，也沒用。

這樣理解：不對

對蘋果的這篇論文，Sean Goedecke有三大質疑：

首先，漢諾塔這類謎題不是判斷「推理能力」的好例子；

其次，推理模型的復雜性閾值，不一定是固定的；

最后，存在復雜度閾值≠模型「并不真正具備推理能力」。

謎題不是好例子

相比數學和編程，漢諾塔是一個更糟糕的推理測試案例。

如果擔心數學和編程基準測試存在訓練數據污染，那為何選擇訓練數據中存在解法的知名謎題？

這是Sean Goedecke對論文最主要的不滿。

論文卻得出結論「給模型提供解法，也沒有提高效果」。

這件事讓他感到驚訝：

漢諾塔算法在模型訓練數據中反復出現。

所以，給模型算法幫助當然不大——

模型早已經知道算法是什么了！

另外，推理模型是有針對性地被訓練用于數學和編程任務的，而不是用于謎題。

也許謎題在某種程度上可以代表推理能力，但也可能根本不相關。

從另一個角度，他完全可以相信：模型在處理數學題或寫代碼時具備更完善的內部工具鏈，而不具備用于謎題的工具。

用謎題來測推理能力，等同于說「GPT-3.5之后，寫彼特拉克式十四行詩沒有明顯進步，所以語言模型并沒真正取得進展」。

彼得拉克式十四行，又稱意大利十四行詩。詩標準意式十四行詩由14個十一音節詩行組成，分為前后兩部分：前八行（octave）與后六行（sestet）

漢諾塔確實比數學問題更容易縮放復雜度，但正因為這個原因就選它，給人一種「路燈效應」的感覺

——不是因為它最好，而是因為它最方便。

路燈效應，指人們傾向于只在最容易尋找的地方進行搜索

復雜度閾值未必固定

假設語言模型在超過一定復雜性點后確實會放棄，就像它們在超過十個盤子的漢諾塔時一樣。

換言之，假設之前對謎題作為測試例子的質疑是錯誤的，而蘋果的論文確實具有普適性。

那么，這是否意味著模型無法處理超出某一復雜度的問題？

Sean Goedecke將蘋果論文中的一些提示詞輸入DeepSeek-R1，以下是簡化版的推理軌跡開頭：

好的，我需要解一個有10個盤的漢諾塔問題。

讓我思考如何處理這個問題。我記得經典解法是遞歸步驟……

n個盤的標準解法需要2^n-1步。對于10個盤是1023步。但手動列出每一步幾乎不可能。

所以我需要一種系統化方法來逐步列出每一步。讓我回憶一下漢諾塔的迭代解法……

請注意，模型立即決定「手動生成所有這些步驟是不可能的」，因為這需要跟蹤上千個步驟。

于是它開始尋找「聰明的捷徑」，但最終失敗。

這里的關鍵見解是，超過一定復雜性閾值后，模型決定有太多的步驟需要推理，于是開始尋找巧妙的捷徑。

模型所面對的任務其實已悄然轉變：從「逐步推理完成」變為「發明一種能跳過推理的通用方案」。

從測試來看，即使在較低的盤子數量下，DeepSeek-R1也會抱怨幾句，說「這會很繁瑣」，即使你明確要求它逐步列出解法。

這是可以理解的：推理模型是為推理而訓練的，不是為執行數千次機械步驟而訓練的。

那么，對于漢諾塔謎題來說，真的存在復雜性閾值嗎？

實際上，大家并不知道模型是否能夠堅持完成千步序列。

我們所知道的是，模型不想這樣做。

順帶一提，這也解釋了一個「奇怪」的發現：

當問題變得更難時，模型使用的推理token反而減少。

因為任務如果只需幾十步，它會積極推理；如果需要幾百甚至上千步，它就選擇放棄。

注意：Sean Goedecke沒有訪問其他推理模型軌跡的權限——

如果它們表現不同，那么他愿意承認在這個觀點上他是錯誤的。

復雜任務失敗≠0推理能力

假設到目前為止的一切都是錯誤的：

謎題真的是測試推理的好例子，推理模型真的有個固定的復雜性閾值。

這是否意味著模型不能推理？

當然，這并不意味著模型不能推理！

當然不是！

看到網絡上的一些熱評，Sean Goedecke情難自禁，簡直要瘋了。

多少人能真正坐下來，準確寫出一千步的漢諾塔解法？

肯定有一些人可以，但也有很多人完全不行。

我們會因此說那些人「不具備推理能力」嗎？

當然不會！

他們只是缺乏足夠的耐心與專注，從而無法做到手動執行一千次算法而已。

即便只能推理到第十步，未能完成第十一步，也依然體現了推理能力。

能推理三步，也依然是推理，哪怕你無法看清第四步。

這也許不是「超人級」的推理，但絕對屬于人類推理能力。

嚴格說來，這對論文可能不太公平——

它本身并沒有明確說模型「根本不能推理」（除非你把標題當真）。

然而，互聯網上這么說的人太多了，所以他認為值得討論一下。

總結

蘋果的論文《思維的幻覺》，不是特別好。

Sean Goedecke的主要反對意見是，他不認為推理模型像論文暗示的那樣不擅長這些謎題：

從我自己的測試來看，模型早早決定幾百個算法步驟太多，甚至不值得嘗試，所以它們拒絕開始。

你不能比較八盤漢諾塔和十盤漢諾塔，因為你比較的是「模型能否完成算法」和「模型能否想出一個避免完成算法的解決方案」。

更加一般性地，他不相信謎題是評估推理能力的好試驗場，因為

（a）它們不是人工智能實驗室的重點領域，

（b）它們需要像計算機一樣遵循算法，而不是需要解決數學問題的那種推理。

Sean Goedecke認為，推理模型并非像論文暗示的那樣不擅長這類謎題。

在他的測試中，模型在面對上百步算法時，往往主動放棄，而非能力崩潰。

他強調，放棄并不意味著無法推理——

就像人類在面對高度重復、枯燥任務時也可能選擇中止。

這種行為更多體現的是認知邊界，而非思維能力的缺失。

因此，他不認同將「未完成復雜任務」等同于「不具備推理能力」的觀點。

這篇論文并非一無是處，Sean Goedecke認為它有下列亮點：

推理模型在簡單問題上有時會「想太多」，表現不如非推理模型，這一點很有趣；
模型在長算法執行過程中「放棄」的現象也很有意思，盡管它可能并不能很好地說明其普遍推理能力；
他喜歡「問題三階段」這一觀點：簡單、中等可推理、以及復雜到模型會放棄的階段。如果某種模型可以被訓練成「永不放棄」，那將非常有趣。

無論如何，蘋果的研究提供了重要提醒：

當前語言模型的推理能力遠非「通用智能」。

那么，該如何定義「推理」？

又如何測試「思維」？

這可能是下一代AI必須直面的核心問題。

參考資料：

https://www.seangoedecke.com/illusion-of-thinking/

https://www.linkedin.com/feed/update/urn:li:activity:7337332564367462400/

https://x.com/RubenHssd/status/1931389580105925115

https://www.reddit.com/r/MachineLearning/comments/1l5hzhs/r_apple_research_the_illusion_of_thinking/

https://news.ycombinator.com/item?id=44203562

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

18月齡幼童被飯店客人灌50毫升啤酒送醫律師解讀

極目新聞 2025-06-14 10:41:22
11429 跟貼 11429
再次跟中天說抱歉！“館長”：對中天有一分愧疚，我一直在彌補

海峽導報社 2025-06-14 21:35:02
78 跟貼 78

美國陸軍成立250周年閱兵式，士兵方陣空手走過觀禮臺

老趙觀天下 2025-06-15 08:18:51
4517 跟貼 4517

小伙心臟不舒服，上出租后打了三通電話！表現“超強自救意識”

揚子晚報 2025-06-14 14:00:56
821 跟貼 821
怎么看李教授的拳拳愛鵝之心？

憑闌聽史 2025-06-14 20:56:14
4502 跟貼 4502

人民幣，大消息！

人民網 2025-06-14 14:32:02
395 跟貼 395

車企集體承諾60天賬期，能否落地？記者問了一圈車企供應商

南方都市報 2025-06-14 16:00:06
146 跟貼 146
美媒爆料：以色列過去48小時內要求美國加入針對伊朗的軍事行動，但美國尚未考慮這一選項

環球網資訊 2025-06-15 09:09:47
18 跟貼 18

申花爆冷輸給保級球隊，可惜了路易斯火熱的狀態，“切片式”聯賽還苦了誰？

上觀新聞 2025-06-15 00:39:19
87 跟貼 87
果然是克星，申花客場被深圳新鵬城逆轉，斯盧茨基痛批防線崩盤

文匯報 2025-06-14 23:57:08
63 跟貼 63
泡泡瑪特突然宣布：這里暫停線下銷售“LABUBU”

都市快報橙柿互動 2025-06-14 14:52:36
441 跟貼 441
扎克伯格豪擲150億美元，投資28歲華裔“天才少年”

上觀新聞 2025-06-15 07:08:11
57 跟貼 57
浙江一老板為女兒舉辦252桌婚宴花50萬嫌貴，懷疑采購商吃回扣！采購師傅：準備打官司

魯中晨報 2025-06-15 10:14:06
4 跟貼 4
曝烏多卡對KD感興趣但與球隊總經理斯通存在一定分歧

北青網-北京青年報 2025-06-15 07:48:02
19 跟貼 19
鄭欽文憾負阿尼西莫娃，無緣倫敦站決賽

齊魯壹點 2025-06-15 07:05:09
65 跟貼 65
國乒女隊主教練馬琳擬錄取為北京體育大學博士

極目新聞 2025-06-15 08:37:59
42 跟貼 42
羅帥宇冤不冤我說不準，但沒人會偷割你孩子的器官

基本常識 2025-06-14 22:42:03
0 跟貼 0
6萬人見證！世俱杯首秀0-0：梅西中柱，38歲門將封神奪MVP

葉青足球世界 2025-06-15 10:07:11
0 跟貼 0
一根煙頭引發的悲劇四川內江七旬老人躺臥吸煙窒息而亡

封面新聞 2025-06-15 11:10:11
0 跟貼 0
中雨！大雨！雷暴大風！長春最新天氣

魯中晨報 2025-06-15 09:06:03
0 跟貼 0
“快遞已放家門口，如有疑問請撥打電話……”央視曝光快遞新騙局

農視網 2025-06-15 10:51:11
0 跟貼 0
買賣假畢業證，換來的不是捷徑而是刑期

濟南中院 2025-06-15 11:09:57
0 跟貼 0
寫高考打油詩的烤鴨店老板，活的一個通透！

廖保平 2025-06-15 11:14:49
0 跟貼 0
失獨母親60歲冒死生的雙胞胎中考了母親稱不會去陪考

大象新聞 2025-06-14 15:10:54
0 跟貼 0
三航母時代即將到來！官方披露福建艦最新消息

政知新媒體 2025-06-14 16:53:19
0 跟貼 0

又來！繼“燙碗惡心論”后廣東再被黑，遭武漢食堂甩鍋賣“假貨”

又來！繼“燙碗惡心論”后廣東再被黑，遭武漢食堂甩鍋賣“假貨”

云景侃記

2025-06-15 08:35:08

人口僅900多萬的以色列，為何會成為中東第一強國，世界排名第三

人口僅900多萬的以色列，為何會成為中東第一強國，世界排名第三

文史道

2024-11-04 12:21:21

女籃大勝僅2天！張子宇曝出2大短板，宮魯鳴一針見血，李夢可惜了

女籃大勝僅2天！張子宇曝出2大短板，宮魯鳴一針見血，李夢可惜了

大秦壁虎白話體育

2025-06-15 10:00:30

廣東一對新人堅持臺風天結婚，新郎新娘撐傘入場！婚禮化妝師：不罕見，宴席有100多人參加

廣東一對新人堅持臺風天結婚，新郎新娘撐傘入場！婚禮化妝師：不罕見，宴席有100多人參加

FM93浙江交通之聲

2025-06-14 20:10:57

《風箏》:鄭耀先至死不知，知曉風箏身份的不是袁農，不是馬小五

《風箏》:鄭耀先至死不知，知曉風箏身份的不是袁農，不是馬小五

掠影后有感

2025-06-14 09:32:07

朱拉尼讓老婆包上頭巾引導百姓，成功破壞了敘利亞的世俗化！

朱拉尼讓老婆包上頭巾引導百姓，成功破壞了敘利亞的世俗化！

聞識

2025-06-10 12:44:54

沒當過自由球員！亞當斯生涯賺了2.1億?四次提前續約！

沒當過自由球員！亞當斯生涯賺了2.1億?四次提前續約！

直播吧

2025-06-15 09:09:14

小玥兒陪父母直播！汪小菲玩女兒玩具，笑到起飛！網友：融洽！

小玥兒陪父母直播！汪小菲玩女兒玩具，笑到起飛！網友：融洽！

大笑江湖史

2025-06-14 22:56:07

突擊檢查！無錫這家足浴…

無錫eTV全媒體

2025-06-15 09:38:41

妻子整晚未歸，我沒鬧，次日攜其褲襪檢測，結果令妻子驚慌失措

妻子整晚未歸，我沒鬧，次日攜其褲襪檢測，結果令妻子驚慌失措

溫情郵局

2025-06-13 13:54:58

太惡心了！女子疑藏褲衩偷排骨，掉出一根，網友：這根排骨有味道

太惡心了！女子疑藏褲衩偷排骨，掉出一根，網友：這根排骨有味道

火山詩話

2025-06-14 18:49:03

高圓圓雖然很漂亮，但到這個年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮，但到這個年齡還是少穿這種露肉的衣服好。

TVB的四小花

2025-06-12 10:14:51

鏡頭給到看臺，因凡蒂諾、大羅、巴喬現場觀戰世俱杯揭幕戰

鏡頭給到看臺，因凡蒂諾、大羅、巴喬現場觀戰世俱杯揭幕戰

直播吧

2025-06-15 08:29:56

瘋狂一夜！3年3900萬簽約達成，杜蘭特下家2選1，FMVP榜更新

瘋狂一夜！3年3900萬簽約達成，杜蘭特下家2選1，FMVP榜更新

體壇小李

2025-06-15 08:14:43

無緣決賽，鄭欽文倫敦站收獲195分，獎金78425美元

無緣決賽，鄭欽文倫敦站收獲195分，獎金78425美元

直播吧

2025-06-15 01:00:11

伊朗襲擊重創以色列軍事總部

西樓飲月

2025-06-14 20:39:40

數百人傷亡！以色列陷史無前例危機！伊朗攻勢兇猛，薩德可能耗盡

數百人傷亡！以色列陷史無前例危機！伊朗攻勢兇猛，薩德可能耗盡

國際情爆猿

2025-06-15 10:55:11

伊朗國家電視臺：伊朗將在數小時內再襲以色列

伊朗國家電視臺：伊朗將在數小時內再襲以色列

財聯社

2025-06-15 02:57:14

突發！又有兩名伊朗高級官員身亡，以軍確認暗殺9名伊朗科學家！伊朗：逮捕了以色列F35戰機飛行員！美從烏撤回反無人機武器并調往中東

突發！又有兩名伊朗高級官員身亡，以軍確認暗殺9名伊朗科學家！伊朗：逮捕了以色列F35戰機飛行員！美從烏撤回反無人機武器并調往中東

每日經濟新聞

2025-06-14 22:36:17

瞞不住了，美媒曝光特拉維夫慘狀！伊朗稱：下一次齊射2000枚導彈

瞞不住了，美媒曝光特拉維夫慘狀！伊朗稱：下一次齊射2000枚導彈

今墨緣

2025-06-14 18:35:08

AI產業主平臺領航智能+時代

12877文章數 66068關注度

往期回顧全部

科技要聞

華為Pura80系列首銷：不再嚴重缺貨

頭條要聞

印度空難幸存者：機身撞出巨大裂口爬出去后發生爆炸

頭條要聞

印度空難幸存者：機身撞出巨大裂口爬出去后發生爆炸

體育要聞

約戰天王山，步行者G4輸在了哪？

娛樂要聞

鳳凰傳奇曾毅塌房？網友：別連累玲花

財經要聞

以伊沖突持續升級，對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

時尚

親子

藝術

軍事航空

《誅仙世界》首次回應銀價暴跌；騰訊網易紛紛做出違背祖訓的決定

夏天最值得入手的6件單品，全在這了

親子要聞

父親節快樂！海渡陽翔越來越棒啦，亞亞非常欣慰

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

軍事要聞

伊媒：以色列國防部大樓被伊朗導彈擊中

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：亚洲精品一区久久久久久| 777米奇色狠狠888俺也去乱| 久久国产欧美日韩精品图片| 国产三级在线观看免费| 激情国产一区二区三区四区小说| 国产超碰人人做人人爽av动图| 亚洲宅男精品一区在线观看| 国产欧美va欧美va香蕉在线观看| 国产成人精品亚洲日本在线| 精品国产美女av久久久久| 特级婬片国产高清视频| 国产卡一卡二卡三无线乱码新区| 国产精品久久久久不卡绿巨人| 少妇高潮av久久久久久| 国产野战无套av毛片| 国产av无码专区影视| 久久精品黄aa片一区二区三区| 日本www网站色情乱码| 三叶草欧洲码在线| 日本欧洲亚洲高清在线| 亚洲欧洲日产国码综合在线| 久久久精品456亚洲影院| 性xxxx欧美老妇胖老太性多毛| 别揉我胸?啊?嗯视频在线观看| 老熟妇仑乱视频一区二区| 国产精品无码免费播放| 国产草莓精品国产av片国产| 成年性午夜无码免费视频| 48久久国产精品性色aⅴ人妻| 69麻豆天美精东蜜桃传媒潘甜甜| 综合色天天鬼久久鬼色| 日本强伦姧熟睡人妻完整视频| 国产精品久久自在自线青柠| av免费不卡国产观看| 亚洲中文在线播放一区| 中国老妇女毛茸茸bbwbabes| 亚洲a∨精品无码一区二区| 极品在线视频大陆国产| 欧美老熟妇xb水多毛多| 国产95在线 | 欧美| 少妇精品无码一区二区三区|