大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

蘋果炮轟AI推理遭打臉,GitHub大佬神怒懟!復雜任務≠推理能力

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】最近,蘋果再次發文指出LLM推理的根本缺陷。相關解讀,一夜刷屏。然而,GitHub高級軟件工程師怒不可遏,怒斥相關「流言」。

最近,蘋果公司發表了預印本論文,指出推理大模型存在重大缺陷。

昨天,Ruben Hassid發布了相關解讀的X帖子,認為這是項突破性研究:

蘋果證明了Claude等AI推理模型,根本不會思考。

這種解讀在社交平臺上廣泛傳播,瀏覽量已超過1000萬,且仍在持續增長。


但這種解讀翻車了!

在Reddit和黑客新聞,網友紛紛表示論文爭議太大。






左右滑動查看

GitHub高級工程師Sean Goedecke,對該論文持保留態度,盡管他也認為語言模型不是通往超級智能(ASI)的理想路徑。

最直接的例證是:當用DeepSeek-V3測試時,模型直接拒絕了要執行上千步的謎題推演

——這并非推理能力崩潰,反而說明模型具備對自身能力邊界的認知


雖然Samy沒有獲得圖靈獎,聲望不及Yoshua,但其在谷歌學術上的引用次數已超過九萬次,是Jeff Dean等知名學者的合作者。


這也不是蘋果第一次指出LLM推理有問題,但這次在各大社交平臺上得到了廣泛傳播。




左右滑動查看

那么蘋果的新論文到底展示了什么?我們又該如何看待語言模型?

要理解這場爭議的核心,我們先看看蘋果論文到底說了什么。

蘋果到底說了什么?

這篇論文開篇就提出,在數學和編程基準測試中,大家不要太在意推理模型的表現,因為:

  • (a)這些基準測試存在污染;

  • (b)在數學和編程任務上,無法運行高質量實驗,因為這些任務缺乏簡明的復雜度量標準。

因此,蘋果的研究團隊選擇使用四種人工謎題(puzzle)環境(漢諾塔的變體),再次評估了推理模型,難度從最簡單的單盤漢諾塔逐步上升到二十盤漢諾塔。


漢諾塔(Tower of Hanoi)是根據一個傳說形成的數學問題:

有三根桿子A,B,C。A桿上有N個(N>1)穿孔圓盤,盤的尺寸由下到上依次變小。

要求按下列規則將所有圓盤移至C桿:

(1)每次只能移動一個圓盤;

(2)大盤不能疊在小盤上面。可將圓盤臨時置于B桿,也可將從A桿移出的圓盤重新移回A桿,但都必須遵循上述兩條規則。

問題為:應該以何種方式移動?最少要移動多少次?

例如,他們對比了非推理模型DeepSeek-V3與推理模型DeepSeek-R1:


這個對比模式在所有推理/非推理模型對、以及所有謎題任務中基本一致。

論文得出以下幾個核心結論:

  • 對非常簡單的謎題,非推理模型表現相當甚至更好,因為推理模型有時會「想太多」而導致錯誤。

  • 對中等難度的謎題,推理模型明顯更強。

  • 一旦任務復雜度足夠高,即使是推理模型也無法給出正確答案,不管你給它多長時間。

接下來,論文分析了推理模型的內部思維軌跡,驗證了上述結論:

在簡單問題中,正確答案幾乎立刻出現;

在中等問題中,需要更多推理步驟;

而在最困難的問題中,則根本不會出現

論文還指出,隨著問題復雜度增加,一旦模型無法解決問題,開始「躺平摸魚」:

模型不會繼續投入更多token來解題,而是直接「放棄」,停止推理。

最后,論文嘗試直接將正確的謎題求解算法輸入模型,期望這能提高其推理能力。

結果只是「有一點用」:部分模型可以多解出一個盤,但整體效果并不顯著。

總結來看,該論文得出以下結論:

  1. 推理模型存在復雜度「天花板」,一旦超出,性能明顯下降。

  2. 推理模型可能存在「內在計算擴展上限」,證據是:模型在達到一定復雜度時,會選擇放棄。

  3. 推理模型不擅長計算性任務,因為即使將算法直接給它們,也沒用。

這樣理解:不對

對蘋果的這篇論文,Sean Goedecke有三大質疑:

首先,漢諾塔這類謎題不是判斷「推理能力」的好例子;

其次,推理模型的復雜性閾值,不一定是固定的;

最后,存在復雜度閾值≠模型「并不真正具備推理能力」。


謎題不是好例子

相比數學和編程,漢諾塔是一個更糟糕的推理測試案例。

如果擔心數學和編程基準測試存在訓練數據污染,那為何選擇訓練數據中存在解法的知名謎題?


這是Sean Goedecke對論文最主要的不滿。

論文卻得出結論「給模型提供解法,也沒有提高效果」。

這件事讓他感到驚訝:

漢諾塔算法在模型訓練數據中反復出現。

所以,給模型算法幫助當然不大——

模型早已經知道算法是什么了!

另外,推理模型是有針對性地被訓練用于數學和編程任務的,而不是用于謎題。

也許謎題在某種程度上可以代表推理能力,但也可能根本不相關。

從另一個角度,他完全可以相信:模型在處理數學題或寫代碼時具備更完善的內部工具鏈,而不具備用于謎題的工具

用謎題來測推理能力,等同于說「GPT-3.5之后,寫彼特拉克式十四行詩沒有明顯進步,所以語言模型并沒真正取得進展」。


彼得拉克式十四行,又稱意大利十四行詩。詩標準意式十四行詩由14個十一音節詩行組成,分為前后兩部分:前八行(octave)與后六行(sestet)

漢諾塔確實比數學問題更容易縮放復雜度,但正因為這個原因就選它,給人一種「路燈效應」的感覺

——不是因為它最好,而是因為它最方便


路燈效應,指人們傾向于只在最容易尋找的地方進行搜索

復雜度閾值未必固定

假設語言模型在超過一定復雜性點后確實會放棄,就像它們在超過十個盤子的漢諾塔時一樣。

換言之,假設之前對謎題作為測試例子的質疑是錯誤的,而蘋果的論文確實具有普適性。

那么,這是否意味著模型無法處理超出某一復雜度的問題?

Sean Goedecke將蘋果論文中的一些提示詞輸入DeepSeek-R1,以下是簡化版的推理軌跡開頭:

好的,我需要解一個有10個盤的漢諾塔問題。

讓我思考如何處理這個問題。我記得經典解法是遞歸步驟……

n個盤的標準解法需要2^n-1步。對于10個盤是1023步。但手動列出每一步幾乎不可能。

所以我需要一種系統化方法來逐步列出每一步。讓我回憶一下漢諾塔的迭代解法……

請注意,模型立即決定「手動生成所有這些步驟是不可能的」,因為這需要跟蹤上千個步驟。

于是它開始尋找「聰明的捷徑」,但最終失敗。

這里的關鍵見解是,超過一定復雜性閾值后,模型決定有太多的步驟需要推理,于是開始尋找巧妙的捷徑

模型所面對的任務其實已悄然轉變:從「逐步推理完成」變為「發明一種能跳過推理的通用方案」

從測試來看,即使在較低的盤子數量下,DeepSeek-R1也會抱怨幾句,說「這會很繁瑣」,即使你明確要求它逐步列出解法。

這是可以理解的:推理模型是為推理而訓練的,不是為執行數千次機械步驟而訓練的。

那么,對于漢諾塔謎題來說,真的存在復雜性閾值嗎?

實際上,大家并不知道模型是否能夠堅持完成千步序列。

我們所知道的是,模型不想這樣做

順帶一提,這也解釋了一個「奇怪」的發現:

當問題變得更難時,模型使用的推理token反而減少。

因為任務如果只需幾十步,它會積極推理;如果需要幾百甚至上千步,它就選擇放棄。

注意:Sean Goedecke沒有訪問其他推理模型軌跡的權限——

如果它們表現不同,那么他愿意承認在這個觀點上他是錯誤的。

復雜任務失敗≠0推理能力

假設到目前為止的一切都是錯誤的:

謎題真的是測試推理的好例子,推理模型真的有個固定的復雜性閾值。

這是否意味著模型不能推理?

當然,這并不意味著模型不能推理!

當然不是!

看到網絡上的一些熱評,Sean Goedecke情難自禁,簡直要瘋了。

多少人能真正坐下來,準確寫出一千步的漢諾塔解法?

肯定有一些人可以,但也有很多人完全不行。

我們會因此說那些人「不具備推理能力」嗎?

當然不會!

他們只是缺乏足夠的耐心與專注,從而無法做到手動執行一千次算法而已。

即便只能推理到第十步,未能完成第十一步,也依然體現了推理能力。

能推理三步,也依然是推理,哪怕你無法看清第四步。

這也許不是「超人級」的推理,但絕對屬于人類推理能力

嚴格說來,這對論文可能不太公平——

它本身并沒有明確說模型「根本不能推理」(除非你把標題當真)。

然而,互聯網上這么說的人太多了,所以他認為值得討論一下。

總結

蘋果的論文《思維的幻覺》,不是特別好。

Sean Goedecke的主要反對意見是,他不認為推理模型像論文暗示的那樣不擅長這些謎題:

從我自己的測試來看,模型早早決定幾百個算法步驟太多,甚至不值得嘗試,所以它們拒絕開始。

你不能比較八盤漢諾塔和十盤漢諾塔,因為你比較的是「模型能否完成算法」和「模型能否想出一個避免完成算法的解決方案」。

更加一般性地,他不相信謎題是評估推理能力的好試驗場,因為

(a)它們不是人工智能實驗室的重點領域,

(b)它們需要像計算機一樣遵循算法,而不是需要解決數學問題的那種推理。

Sean Goedecke認為,推理模型并非像論文暗示的那樣不擅長這類謎題。

在他的測試中,模型在面對上百步算法時,往往主動放棄,而非能力崩潰。

他強調,放棄并不意味著無法推理——

就像人類在面對高度重復、枯燥任務時也可能選擇中止。

這種行為更多體現的是認知邊界,而非思維能力的缺失

因此,他不認同將「未完成復雜任務」等同于「不具備推理能力」的觀點。

這篇論文并非一無是處,Sean Goedecke認為它有下列亮點:

  • 推理模型在簡單問題上有時會「想太多」,表現不如非推理模型,這一點很有趣;

  • 模型在長算法執行過程中「放棄」的現象也很有意思,盡管它可能并不能很好地說明其普遍推理能力;

  • 他喜歡「問題三階段」這一觀點:簡單、中等可推理、以及復雜到模型會放棄的階段。如果某種模型可以被訓練成「永不放棄」,那將非常有趣。

無論如何,蘋果的研究提供了重要提醒:

當前語言模型的推理能力遠非「通用智能」。

那么,該如何定義「推理」?

又如何測試「思維」?

這可能是下一代AI必須直面的核心問題。

參考資料:

https://www.seangoedecke.com/illusion-of-thinking/

https://www.linkedin.com/feed/update/urn:li:activity:7337332564367462400/

https://x.com/RubenHssd/status/1931389580105925115

https://www.reddit.com/r/MachineLearning/comments/1l5hzhs/r_apple_research_the_illusion_of_thinking/

https://news.ycombinator.com/item?id=44203562


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
又來!繼“燙碗惡心論”后廣東再被黑,遭武漢食堂甩鍋賣“假貨”

又來!繼“燙碗惡心論”后廣東再被黑,遭武漢食堂甩鍋賣“假貨”

云景侃記
2025-06-15 08:35:08
人口僅900多萬的以色列,為何會成為中東第一強國,世界排名第三

人口僅900多萬的以色列,為何會成為中東第一強國,世界排名第三

文史道
2024-11-04 12:21:21
女籃大勝僅2天!張子宇曝出2大短板,宮魯鳴一針見血,李夢可惜了

女籃大勝僅2天!張子宇曝出2大短板,宮魯鳴一針見血,李夢可惜了

大秦壁虎白話體育
2025-06-15 10:00:30
廣東一對新人堅持臺風天結婚,新郎新娘撐傘入場!婚禮化妝師:不罕見,宴席有100多人參加

廣東一對新人堅持臺風天結婚,新郎新娘撐傘入場!婚禮化妝師:不罕見,宴席有100多人參加

FM93浙江交通之聲
2025-06-14 20:10:57
《風箏》:鄭耀先至死不知,知曉風箏身份的不是袁農,不是馬小五

《風箏》:鄭耀先至死不知,知曉風箏身份的不是袁農,不是馬小五

掠影后有感
2025-06-14 09:32:07
朱拉尼讓老婆包上頭巾引導百姓,成功破壞了敘利亞的世俗化!

朱拉尼讓老婆包上頭巾引導百姓,成功破壞了敘利亞的世俗化!

聞識
2025-06-10 12:44:54
沒當過自由球員!亞當斯生涯賺了2.1億?四次提前續約!

沒當過自由球員!亞當斯生涯賺了2.1億?四次提前續約!

直播吧
2025-06-15 09:09:14
小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網友:融洽!

小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網友:融洽!

大笑江湖史
2025-06-14 22:56:07
突擊檢查!無錫這家足浴…

突擊檢查!無錫這家足浴…

無錫eTV全媒體
2025-06-15 09:38:41
妻子整晚未歸,我沒鬧,次日攜其褲襪檢測,結果令妻子驚慌失措

妻子整晚未歸,我沒鬧,次日攜其褲襪檢測,結果令妻子驚慌失措

溫情郵局
2025-06-13 13:54:58
太惡心了!女子疑藏褲衩偷排骨,掉出一根,網友:這根排骨有味道

太惡心了!女子疑藏褲衩偷排骨,掉出一根,網友:這根排骨有味道

火山詩話
2025-06-14 18:49:03
高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
鏡頭給到看臺,因凡蒂諾、大羅、巴喬現場觀戰世俱杯揭幕戰

鏡頭給到看臺,因凡蒂諾、大羅、巴喬現場觀戰世俱杯揭幕戰

直播吧
2025-06-15 08:29:56
瘋狂一夜!3年3900萬簽約達成,杜蘭特下家2選1,FMVP榜更新

瘋狂一夜!3年3900萬簽約達成,杜蘭特下家2選1,FMVP榜更新

體壇小李
2025-06-15 08:14:43
無緣決賽,鄭欽文倫敦站收獲195分,獎金78425美元

無緣決賽,鄭欽文倫敦站收獲195分,獎金78425美元

直播吧
2025-06-15 01:00:11
伊朗襲擊重創以色列軍事總部

伊朗襲擊重創以色列軍事總部

西樓飲月
2025-06-14 20:39:40
數百人傷亡!以色列陷史無前例危機!伊朗攻勢兇猛,薩德可能耗盡

數百人傷亡!以色列陷史無前例危機!伊朗攻勢兇猛,薩德可能耗盡

國際情爆猿
2025-06-15 10:55:11
伊朗國家電視臺:伊朗將在數小時內再襲以色列

伊朗國家電視臺:伊朗將在數小時內再襲以色列

財聯社
2025-06-15 02:57:14
突發!又有兩名伊朗高級官員身亡,以軍確認暗殺9名伊朗科學家!伊朗:逮捕了以色列F35戰機飛行員!美從烏撤回反無人機武器并調往中東

突發!又有兩名伊朗高級官員身亡,以軍確認暗殺9名伊朗科學家!伊朗:逮捕了以色列F35戰機飛行員!美從烏撤回反無人機武器并調往中東

每日經濟新聞
2025-06-14 22:36:17
瞞不住了,美媒曝光特拉維夫慘狀!伊朗稱:下一次齊射2000枚導彈

瞞不住了,美媒曝光特拉維夫慘狀!伊朗稱:下一次齊射2000枚導彈

今墨緣
2025-06-14 18:35:08
2025-06-15 11:35:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12877文章數 66068關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

游戲
時尚
親子
藝術
軍事航空

《誅仙世界》首次回應銀價暴跌;騰訊網易紛紛做出違背祖訓的決定

夏天最值得入手的6件單品,全在這了

親子要聞

父親節快樂!海渡陽翔越來越棒啦,亞亞非常欣慰

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品一区久久久久久| 777米奇色狠狠888俺也去乱| 久久国产欧美日韩精品图片| 国产三级在线观看免费| 激情国产一区二区三区四区小说| 国产超碰人人做人人爽av动图| 亚洲宅男精品一区在线观看| 国产欧美va欧美va香蕉在线观看| 国产成人精品亚洲日本在线| 精品国产美女av久久久久| 特级婬片国产高清视频| 国产卡一卡二卡三无线乱码新区| 国产精品久久久久不卡绿巨人| 少妇高潮av久久久久久| 国产野战无套av毛片| 国产av无码专区影视| 久久精品黄aa片一区二区三区| 日本www网站色情乱码| 三叶草欧洲码在线| 日本欧洲亚洲高清在线| 亚洲欧洲日产国码综合在线| 久久久精品456亚洲影院| 性xxxx欧美老妇胖老太性多毛| 别揉我胸?啊?嗯视频在线观看| 老熟妇仑乱视频一区二区| 国产精品无码免费播放| 国产草莓精品国产av片国产| 成年性午夜无码免费视频| 48久久国产精品性色aⅴ人妻| 69麻豆天美精东蜜桃传媒潘甜甜| 综合色天天鬼久久鬼色| 日本强伦姧熟睡人妻完整视频| 国产精品久久自在自线青柠| av免费不卡国产观看| 亚洲中文在线播放一区| 中国老妇女毛茸茸bbwbabes| 亚洲a∨精品无码一区二区| 极品 在线 视频 大陆 国产| 欧美老熟妇xb水多毛多| 国产95在线 | 欧美| 少妇精品无码一区二区三区|