大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易科技 > 網易科技 > 正文

蘋果掀桌,炮轟大模型"不會思考",是真急了還是真懂了?

0
分享至
核心提示
  • 01 蘋果公司發布題為《思考的幻覺》的研究報告,通過系統性實驗證明,當前頂尖的大型推理模型(LRM)本質上是精密的模式匹配機器,缺乏真正的認知與推理能力,在面對新穎或復雜的邏輯任務時表現不佳甚至會“癱瘓”。
  • 02 該研究為“AI雄辯不等于智慧”提供了科學佐證,揭示了僅靠擴大模型規模和算力可能無法實現通用人工智能(AGI)。這一發現有助于用戶理解AI能力邊界,并促使業界重新審視當前大語言模型的技術路徑與真實能力。
  • 03 此研究發布于全球AI競賽白熱化、行業對AGI實現路徑爭論不休的背景下。它為“審慎派”提供了強力論據,挑戰了當前主流技術路徑。然而,亦有觀點質疑蘋果的動機,認為在競爭中相對落后的蘋果此舉有“酸葡萄”心理,使這場技術路線之爭更添博弈色彩。

6月12日消息,人工智能光鮮亮麗的外表令世人目眩神迷,大語言模型生成的對答文采斐然,看似與人類思維無異。然而在光鮮的外表之下,蘋果公司的最新研究清晰揭示出這樣一個令人不安的現實:雄辯不等于智慧,模仿也絕非理解。

蘋果公司這項新研究題為《思考的幻覺》(The Illusion of Thinking),在人工智能學界掀起軒然大波。研究表明,即便是最頂尖的推理模型本質上也缺乏真正的認知能力。這一發現,印證了Facebook母公司Meta首席AI科學家楊立昆(Yann LeCun)等知名學者多年來所堅持的觀點:當前人工智能系統只是精密的“模式匹配機器”,而非能夠思考的實體。

人工智能的巨大幻象

蘋果研究團隊的研究過程具備系統性,結果則具備顛覆性。他們創建了可控的解謎環境,在保持邏輯一致性的前提下,能精確調整任務復雜度,從而揭示出大型推理模型(LRM)在三種不同難度下的表現。

研究發現,標準模型在低復雜度任務中的表現竟優于那些本應更強大的推理模型。而在中等復雜度任務中, 額外的“思考”過程帶來的效果增量微乎其微。在面對高復雜度任務時,兩種模型都徹底“癱瘓”。

更引人注目的是研究人員觀察到的反直覺“規模效應”。按理說真正的智能在面對更復雜的問題時,能力應該會隨之提升,但這些模型反而呈現出一種怪異模式:即便算力充足,其推理“努力程度”在達到某個臨界點后仍會急劇下降。這表明模型根本沒有真正進行推理;它們只是在沿用已習得的模式,一旦遇到新穎挑戰便不知從何下手。

這項研究暴露出當前模型在精確計算方面的根本局限:它們無法運用明確算法,并且在面對類似謎題時推理邏輯不一致。當那層華麗的語言外衣被剝去,剩下的不過是精致卻空洞的思維模仿。

專家看法

蘋果的這一研究結果讓專家們開始質疑當前人工智能能力的深度以及該領域未來的發展路徑。IBM技術內容經理阿什·米尼亞斯(Ash Minhas)表示:“這篇論文從根本上證明了大型語言模型無法進行推理。它們只是在進行模式匹配。”他補充說,這項研究的結果凸顯出“弱人工智能”與“通用人工智能”之間的區別,明確了當前大語言模型是弱人工智能。

OpenAI前董事會成員、喬治城大學安全與新興技術中心戰略總監海倫·托納(Helen Toner)最近在美國參議院司法小組委員會作證時就表示:“據我所知,公眾和圈內人士對人工智能的最大落差主要來自少數幾家致力于開發’通用人工智能’的公司內部。”她說,像OpenAI、谷歌和Anthropic等頂尖人工智能公司正將構建通用人工智能視為“完全嚴肅的目標”。

有不少專家認為,通用人工智能遠未成為現實。正如米尼亞斯所言,“這篇論文強調我們仍處于弱人工智能階段,離通用人工智能還很遠。”

“僅靠Transformer架構不足以實現推理,”米尼亞斯總結道,“要獲得真正的推理能力,模型架構必須迎來新的突破。”

美國學者加里·馬庫斯(Gary Marcus)一直是人工智能模型能力的主要審慎派代表,他形容蘋果的研究“相當具有顛覆性”。

馬庫斯在個人專欄中補充道,這些發現對當前競相開發通用人工智能提出了疑問。在談及支撐著ChatGPT等工具的大語言模型時,馬庫斯寫道:“任何人如果認為大語言模型是通往那種能夠從根本上改善社會的通用人工智能的直接路徑,那都是在自欺欺人。”

英國薩里大學以人為本人工智能研究所的安德魯·羅戈伊斯基(Andrew Rogoyski)表示,蘋果論文標志著整個行業在通用人工智能領域“仍在摸索前行”,并且當前方法可能已經走入一條“死胡同”。

他說:“研究發現大型推理模型在復雜問題上會‘失去方向’,而在中低復雜度問題上表現良好,這意味著我們當前所采用的方法可能陷入了一個潛在的僵局。”

這些發現也與楊立昆等頂尖專家多年來發出的警告不謀而合。楊立昆一直堅稱,五年內現有的語言模型基本上都會被淘汰,這并非因為有了更好的版本,而是因為這條實現路徑存在根本缺陷。

但也有人質疑蘋果的研究結果和動機。科技類咨詢資深撰稿人克里斯·史密斯(Chris Smith)就認為蘋果明顯有“吃不到葡萄說葡萄酸”的意味。史密斯說,畢竟“蘋果智能”遠落后于ChatGPT、Gemini以及其他主流人工智能模型,推理模型方面更是毫無建樹。Siri甚至連現在是幾月份都說不清楚。

史密斯表示,這項研究發布的時間點也令人質疑。當時蘋果即將舉辦2025年全球開發者大會,而人工智能并非會上主要焦點。蘋果在已經發布商業推理模型的OpenAI、谷歌以及其他人工智能公司面前,仍然處于落后地位。而在大會前夕看到蘋果貶低推理模型,確實感覺有些奇怪。

史密斯還認為,這項研究的發現很重要,相信其他人會嘗試驗證或挑戰這些發現。甚至有些人可能會利用這些見解來改進自己的推理模型。他說,自己作為一名ChatGPT用戶,即使推理模型無法真正思考,也不會放棄使用。譬如ChatGPT o3雖然會犯錯,也會出現幻覺,但它的“推理”能力仍然感覺比基礎大語言模型更強。

基準測試亟待改進

蘋果論文也強調了人工智能行業需要更可靠的基準測試。米尼亞斯認為,當前的基準測試問題存在缺陷,因為模型可以通過模式匹配而非真正的推理來解決它們。他說:“如果基準測試是基于真正的推理,或者推理問題更復雜,那么所有模型的表現都會很糟糕。”

米尼亞斯說,蘋果研究人員為此構建了一個合成數據集,將符號打亂排列后得到用于訓練和測試模型的專項數據集。

“他們已經證明,一旦在輸入序列中對符號本身或額外語境進行調整,模型性能就會明顯下降,”他解釋道。

蘋果研究方法包括在訓練集中引入各種“干擾信息”和附加條款,用以觀察模型性能如何變化。然而,IBM數據科學家杰斯·博佐格(Jess Bozorg)指出這種研究也有局限性:“他們沒有具體說明在添加內容時考慮了多少種干擾信息,也沒有具體說明他們使用了哪些干擾信息。”

人性的相似之處:更偏愛自信的雄辯者

或許最令人不安的是,蘋果研究指出的人工智能局限性與人類根深蒂固的認知偏見何其相似。正如容易被人工智能的雄辯所蒙蔽一樣,我們也一貫高估一個人的自信和外向性格,常常誤將伶牙俐齒等同于思維深刻。

“過度自信偏見”是人類判斷中最常見的缺陷之一,個人對自身能力的主觀自信遠遠超過客觀準確性。這種偏見在社交和職場環境中尤為明顯,那些自信外向的人往往能獲得不成比例的關注和信任。

研究反復表明,人類傾向于將自信等同于能力、音量等同于價值、能言善辯等同于大智大慧。人工智能雄辯之下的空洞,與偏愛自信溝通的人性偏見之間的相似性深刻揭示出“智能”的本質。這兩種現象都表明,我們是多么容易將“理解”的表象與實質混為一談;也表明精湛的溝通技巧如何能掩蓋推理與理解上的根本缺陷。

蘋果公司的研究發現與關于人類偏見的心理學研究在此交匯,為我們如何駕馭這個日益復雜的世界提供了寶貴啟示。無論是評估人工智能系統還是人類同行,我們都必須學會區分“表現”與“能力”,“雄辯”與“理解”。

這需要一種理智上的謙遜,認識到真正的大智慧常常伴隨著恰如其分的不確定性;認識到最響亮最自信的未必是最可信的;認識到細致觀察和檢驗完全可以將真正理解與精巧模仿區分開來。(辰辰)

延伸閱讀
相關推薦
熱點推薦
湘雅二醫院實習醫生羅帥宇離奇墜亡 家屬恢復電腦數據現40余萬元異常轉賬

湘雅二醫院實習醫生羅帥宇離奇墜亡 家屬恢復電腦數據現40余萬元異常轉賬

閃電新聞
2025-06-13 11:36:54
狼狽!71歲伊萬下課后凌晨離開中國 無人送行 飛39小時回老家

狼狽!71歲伊萬下課后凌晨離開中國 無人送行 飛39小時回老家

念洲
2025-06-14 05:10:44
下周行情(6.16日-20日)要點早知道

下周行情(6.16日-20日)要點早知道

玉名W
2025-06-14 09:20:06
海底撈開賣盒飯:自助午餐上線,22元不限量

海底撈開賣盒飯:自助午餐上線,22元不限量

齊魯壹點
2025-06-12 17:16:23
喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

米筐投資
2025-05-30 07:18:09
普寧市人民法院原院長林育勝被“雙開”

普寧市人民法院原院長林育勝被“雙開”

魯中晨報
2025-06-14 10:10:09
羅馬仕充電寶被北京多所高校禁用,旗艦店專員回應:正在核查中

羅馬仕充電寶被北京多所高校禁用,旗艦店專員回應:正在核查中

界面新聞
2025-06-13 22:27:41
越來越多人違規上Carpool!加州警察無力執法

越來越多人違規上Carpool!加州警察無力執法

大洛杉磯LA
2025-06-14 06:46:33
足球報:中國球員獨苗周通再戰世俱杯,首戰將碰拜仁

足球報:中國球員獨苗周通再戰世俱杯,首戰將碰拜仁

直播吧
2025-06-13 14:01:17
解放臺灣最大的阻力不是美國,也不是臺獨分子,而是另一鄰國

解放臺灣最大的阻力不是美國,也不是臺獨分子,而是另一鄰國

混沌錄
2025-06-07 22:56:12
布蘭妮18歲兒子帶漂亮女友兜風,140萬超跑是媽媽送的,引發爭議

布蘭妮18歲兒子帶漂亮女友兜風,140萬超跑是媽媽送的,引發爭議

譯言
2025-06-13 12:43:33
新娘下車禮9萬9,新郎去銀行取錢再也沒回來,她找到婆家后愣了

新娘下車禮9萬9,新郎去銀行取錢再也沒回來,她找到婆家后愣了

朗威談星座
2025-06-14 04:43:01
唏噓!一藝術家不幸凌晨離世,年僅32歲

唏噓!一藝術家不幸凌晨離世,年僅32歲

南方都市報
2025-06-09 11:59:17
6200萬,重簽勇士,始終沒有讓人失望,球隊沖冠軍確實是你最關鍵

6200萬,重簽勇士,始終沒有讓人失望,球隊沖冠軍確實是你最關鍵

青山隱隱啊
2025-06-14 10:21:59
保安毆打拘禁未成年人后續:孩子在做傷情鑒定,不肯進行和解

保安毆打拘禁未成年人后續:孩子在做傷情鑒定,不肯進行和解

映射生活的身影
2025-06-13 16:53:06
炸裂!51歲月嫂勾引男主人,發色情短信、不穿衣服進入房間

炸裂!51歲月嫂勾引男主人,發色情短信、不穿衣服進入房間

社會醬
2025-06-03 16:23:29
救贖之戰!亞歷山大末節15分,完爆哈利伯頓,雷霆重奪爭冠主動權

救贖之戰!亞歷山大末節15分,完爆哈利伯頓,雷霆重奪爭冠主動權

釘釘陌上花開
2025-06-14 11:39:33
40歲張靚穎,發長文回應爭議!

40歲張靚穎,發長文回應爭議!

大象新聞
2025-06-14 07:22:04
女生是不是每天都換內褲?網友的大實話,看完驚掉下巴!

女生是不是每天都換內褲?網友的大實話,看完驚掉下巴!

墻頭草
2025-06-12 10:49:50
小米增程車型曝光,或命名小米 YU9

小米增程車型曝光,或命名小米 YU9

中關村在線
2025-06-13 11:09:24
2025-06-14 12:23:00

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以官員:目前沒有計劃殺死伊朗最高領袖哈梅內伊

頭條要聞

以官員:目前沒有計劃殺死伊朗最高領袖哈梅內伊

體育要聞

恭喜鄭欽文!世界排名升第4創新高

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

家居
藝術
親子
游戲
健康

家居要聞

森林幾何 極簡灰調原木風

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

孩子發脾氣、頂嘴、撒謊背后的渴望

SIE總裁稱PS+訂閱價格還會上漲 玩家更喜歡高級檔會員

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版
×
主站蜘蛛池模板: 久欠精品国国产99国产精2021| 亚洲综合网站色欲色欲| 色综合久久中文字幕有码| 国产强被迫伦姧在线观看无码| 无码国产一区二区三区四区| 邻居少妇张开双腿让我爽一夜| 成人妇女免费播放久久久| 国产又粗又猛又爽又黄| ,丰满少妇A级毛片| 国产精品va尤物在线观看蜜芽| 久久香蕉超碰97国产精品| 天堂а√在线最新版中文在线| 国产精品无码一区二区三区在| 日韩视频无码免费一区=区三区| 日本少妇xxx做受| 射精情感曰妓女色视频| 成人亚洲a片v一区二区三区动漫| 成人久久久久久久久久久| 东京热人妻无码一区二区av| 扒开双腿吃奶呻吟做受视频| 亚洲色欲色欱www在线| 免费无码久久成人影片| 一本加勒比hezyo无码资源网| 大伊香蕉精品视频在线直播| 影音先锋女人av鲁色资源网久久| 亚洲精品日本久久一区二区三区| 又黄又爽又猛1000部a片| 欧洲无码八a片人妻少妇| 久久精品久久精品久久39| 亚洲精品中文字幕| 亚洲欧美人成网站aaa| 亚洲中文欧美在线视频| 一本大道东京热无码av| av性色av久久无码ai换脸| 国产一区二区三区影院| 亚洲偷精品国产五月丁香麻豆| 日本午夜精品一区二区三区电影| 亚洲日韩国产成网在线观看| 国产精品免费久久久久影院仙踪林| 99久久国产综合精品五月天| 狠狠色丁香久久婷婷综合蜜芽五月|