網易首頁 > 網易科技 > 網易科技 > 正文

蘋果掀桌，炮轟大模型"不會思考"，是真急了還是真懂了？

2025-06-12 15:31:14　來源: 網易科技報道

北京舉報

分享至

核心提示

01 蘋果公司發布題為《思考的幻覺》的研究報告，通過系統性實驗證明，當前頂尖的大型推理模型（LRM）本質上是精密的模式匹配機器，缺乏真正的認知與推理能力，在面對新穎或復雜的邏輯任務時表現不佳甚至會“癱瘓”。
02 該研究為“AI雄辯不等于智慧”提供了科學佐證，揭示了僅靠擴大模型規模和算力可能無法實現通用人工智能（AGI）。這一發現有助于用戶理解AI能力邊界，并促使業界重新審視當前大語言模型的技術路徑與真實能力。
03 此研究發布于全球AI競賽白熱化、行業對AGI實現路徑爭論不休的背景下。它為“審慎派”提供了強力論據，挑戰了當前主流技術路徑。然而，亦有觀點質疑蘋果的動機，認為在競爭中相對落后的蘋果此舉有“酸葡萄”心理，使這場技術路線之爭更添博弈色彩。

6月12日消息，人工智能光鮮亮麗的外表令世人目眩神迷，大語言模型生成的對答文采斐然，看似與人類思維無異。然而在光鮮的外表之下，蘋果公司的最新研究清晰揭示出這樣一個令人不安的現實：雄辯不等于智慧，模仿也絕非理解。

蘋果公司這項新研究題為《思考的幻覺》（The Illusion of Thinking），在人工智能學界掀起軒然大波。研究表明，即便是最頂尖的推理模型本質上也缺乏真正的認知能力。這一發現，印證了Facebook母公司Meta首席AI科學家楊立昆（Yann LeCun）等知名學者多年來所堅持的觀點：當前人工智能系統只是精密的“模式匹配機器”，而非能夠思考的實體。

人工智能的巨大幻象

蘋果研究團隊的研究過程具備系統性，結果則具備顛覆性。他們創建了可控的解謎環境，在保持邏輯一致性的前提下，能精確調整任務復雜度，從而揭示出大型推理模型（LRM）在三種不同難度下的表現。

研究發現，標準模型在低復雜度任務中的表現竟優于那些本應更強大的推理模型。而在中等復雜度任務中，額外的“思考”過程帶來的效果增量微乎其微。在面對高復雜度任務時，兩種模型都徹底“癱瘓”。

更引人注目的是研究人員觀察到的反直覺“規模效應”。按理說真正的智能在面對更復雜的問題時，能力應該會隨之提升，但這些模型反而呈現出一種怪異模式：即便算力充足，其推理“努力程度”在達到某個臨界點后仍會急劇下降。這表明模型根本沒有真正進行推理；它們只是在沿用已習得的模式，一旦遇到新穎挑戰便不知從何下手。

這項研究暴露出當前模型在精確計算方面的根本局限：它們無法運用明確算法，并且在面對類似謎題時推理邏輯不一致。當那層華麗的語言外衣被剝去，剩下的不過是精致卻空洞的思維模仿。

專家看法

蘋果的這一研究結果讓專家們開始質疑當前人工智能能力的深度以及該領域未來的發展路徑。IBM技術內容經理阿什·米尼亞斯（Ash Minhas）表示：“這篇論文從根本上證明了大型語言模型無法進行推理。它們只是在進行模式匹配。”他補充說，這項研究的結果凸顯出“弱人工智能”與“通用人工智能”之間的區別，明確了當前大語言模型是弱人工智能。

OpenAI前董事會成員、喬治城大學安全與新興技術中心戰略總監海倫·托納（Helen Toner）最近在美國參議院司法小組委員會作證時就表示：“據我所知，公眾和圈內人士對人工智能的最大落差主要來自少數幾家致力于開發’通用人工智能’的公司內部。”她說，像OpenAI、谷歌和Anthropic等頂尖人工智能公司正將構建通用人工智能視為“完全嚴肅的目標”。

有不少專家認為，通用人工智能遠未成為現實。正如米尼亞斯所言，“這篇論文強調我們仍處于弱人工智能階段，離通用人工智能還很遠。”

“僅靠Transformer架構不足以實現推理，”米尼亞斯總結道，“要獲得真正的推理能力，模型架構必須迎來新的突破。”

美國學者加里·馬庫斯（Gary Marcus）一直是人工智能模型能力的主要審慎派代表，他形容蘋果的研究“相當具有顛覆性”。

馬庫斯在個人專欄中補充道，這些發現對當前競相開發通用人工智能提出了疑問。在談及支撐著ChatGPT等工具的大語言模型時，馬庫斯寫道：“任何人如果認為大語言模型是通往那種能夠從根本上改善社會的通用人工智能的直接路徑，那都是在自欺欺人。”

英國薩里大學以人為本人工智能研究所的安德魯·羅戈伊斯基（Andrew Rogoyski）表示，蘋果論文標志著整個行業在通用人工智能領域“仍在摸索前行”，并且當前方法可能已經走入一條“死胡同”。

他說：“研究發現大型推理模型在復雜問題上會‘失去方向’，而在中低復雜度問題上表現良好，這意味著我們當前所采用的方法可能陷入了一個潛在的僵局。”

這些發現也與楊立昆等頂尖專家多年來發出的警告不謀而合。楊立昆一直堅稱，五年內現有的語言模型基本上都會被淘汰，這并非因為有了更好的版本，而是因為這條實現路徑存在根本缺陷。

但也有人質疑蘋果的研究結果和動機。科技類咨詢資深撰稿人克里斯·史密斯（Chris Smith）就認為蘋果明顯有“吃不到葡萄說葡萄酸”的意味。史密斯說，畢竟“蘋果智能”遠落后于ChatGPT、Gemini以及其他主流人工智能模型，推理模型方面更是毫無建樹。Siri甚至連現在是幾月份都說不清楚。

史密斯表示，這項研究發布的時間點也令人質疑。當時蘋果即將舉辦2025年全球開發者大會，而人工智能并非會上主要焦點。蘋果在已經發布商業推理模型的OpenAI、谷歌以及其他人工智能公司面前，仍然處于落后地位。而在大會前夕看到蘋果貶低推理模型，確實感覺有些奇怪。

史密斯還認為，這項研究的發現很重要，相信其他人會嘗試驗證或挑戰這些發現。甚至有些人可能會利用這些見解來改進自己的推理模型。他說，自己作為一名ChatGPT用戶，即使推理模型無法真正思考，也不會放棄使用。譬如ChatGPT o3雖然會犯錯，也會出現幻覺，但它的“推理”能力仍然感覺比基礎大語言模型更強。

基準測試亟待改進

蘋果論文也強調了人工智能行業需要更可靠的基準測試。米尼亞斯認為，當前的基準測試問題存在缺陷，因為模型可以通過模式匹配而非真正的推理來解決它們。他說：“如果基準測試是基于真正的推理，或者推理問題更復雜，那么所有模型的表現都會很糟糕。”

米尼亞斯說，蘋果研究人員為此構建了一個合成數據集，將符號打亂排列后得到用于訓練和測試模型的專項數據集。

“他們已經證明，一旦在輸入序列中對符號本身或額外語境進行調整，模型性能就會明顯下降，”他解釋道。

蘋果研究方法包括在訓練集中引入各種“干擾信息”和附加條款，用以觀察模型性能如何變化。然而，IBM數據科學家杰斯·博佐格（Jess Bozorg）指出這種研究也有局限性：“他們沒有具體說明在添加內容時考慮了多少種干擾信息，也沒有具體說明他們使用了哪些干擾信息。”

人性的相似之處：更偏愛自信的“雄辯者”

或許最令人不安的是，蘋果研究指出的人工智能局限性與人類根深蒂固的認知偏見何其相似。正如容易被人工智能的雄辯所蒙蔽一樣，我們也一貫高估一個人的自信和外向性格，常常誤將伶牙俐齒等同于思維深刻。

“過度自信偏見”是人類判斷中最常見的缺陷之一，個人對自身能力的主觀自信遠遠超過客觀準確性。這種偏見在社交和職場環境中尤為明顯，那些自信外向的人往往能獲得不成比例的關注和信任。

研究反復表明，人類傾向于將自信等同于能力、音量等同于價值、能言善辯等同于大智大慧。人工智能雄辯之下的空洞，與偏愛自信溝通的人性偏見之間的相似性深刻揭示出“智能”的本質。這兩種現象都表明，我們是多么容易將“理解”的表象與實質混為一談；也表明精湛的溝通技巧如何能掩蓋推理與理解上的根本缺陷。

蘋果公司的研究發現與關于人類偏見的心理學研究在此交匯，為我們如何駕馭這個日益復雜的世界提供了寶貴啟示。無論是評估人工智能系統還是人類同行，我們都必須學會區分“表現”與“能力”，“雄辯”與“理解”。

這需要一種理智上的謙遜，認識到真正的大智慧常常伴隨著恰如其分的不確定性；認識到最響亮最自信的未必是最可信的；認識到細致觀察和檢驗完全可以將真正理解與精巧模仿區分開來。（辰辰）