大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

類比的長河,為何流到大模型就被截流?

0
分享至

文 | 追問nextquestion

當下想要找到些“普通人類擅長,而大模型不擅長”的任務,似乎越來越難了。“類比”可能就是這樣的任務,這不只是人工智能的“阿克琉斯之踵”,更顯露出不同大模型間以及大模型與人類之間的本質差異。

在《表象與本質》一書中,認知科學家侯世達(Douglas Hofstadter)指出:

類比不僅僅是語言或邏輯的工具,更是思維的基本單位。

我們日常語言中充滿了類比和隱喻,就如同“充滿”一詞本身。類比能夠激活創造力。例如,愛因斯坦將引力場類比為一個重物被放入蹦床后造成的表面彎曲,這啟發他提出了廣義相對論。類比還能解釋難以理解的現象。就像為人所熟知的類比“意識就像冰山”,通過將意識與冰山聯系起來,人們可以直觀地推斷出意識在水面下的深度和復雜性。

那么,大語言模型是否也具有類比能力?

在機器學習中,類比體現為“0嘗試推理”,即不給大模型可供學習的示例,而是讓大模型自行根據題目進行推理。為了驗證大模型能否進行類比推理,Webb等人(2023)設計并使用了三種類比推理任務——字符串類比、數字矩陣和故事類比,以此測試GPT3面對不同類型任務的推理能力。通過這套測試,研究人員認為他們證明了GPT-3具有類比推理能力[1]。

但是,更進一步的問題是,這些大模型會不會只是在回憶訓練數據,而并非真正的類比呢?當面對更變化多樣的問題時,大模型能否具有穩定的類比能力?

01 大模型能讀懂題目“馬甲”下的本質嗎?

為了檢測模型是否依賴表面特征或捷徑,而非真正的抽象推理,圣塔菲研究院的Lewis & Mitchell,基于Webb等人設計的基本轉換和泛化類型,設計了更進一步的變體測試[2]。

他們給題目套一些“馬甲”,在不改變本質的同時,讓題目看起來不同;然后用新的測試對GPT-3(text-davinci-003)以及近期更新的大模型GPT-3.5(gpt-3.5-turbo-0613)、GPT-4(gpt-4-0613)進行類比能力測試,包括字符串、數字矩陣和故事類比實驗。這類研究中,最常用到的是侯世達于1985年提出的“字符串類比”*。

* 字符串類比:a b c d → a b c e; i j k l → ?

其中,第一部分是"源轉換",第二部分是"目標",任務是以類似于源轉換的方式轉換目標字符串。

2023年,Webb等人提出了六種轉換類型(如序列擴展、后繼、前驅等)和多種泛化類型(如字母到數字、分組、更長目標等)的組合。他們為每種問題類型生成了大量問題,并將這些問題給到GPT-3(text-davinci-003)以及57名UCLA本科生進行測試。結果發現,人類參與者的準確率表現出很大的差異,但總體而言,GPT-3在大多數問題類型上的表現甚至優于平均人類表現[1]。

但是,這項研究中所使用的字母表均為標準英文字母表及其固有順序,測試中大模型表現出來的“類比能力”是否可能依賴表面特征走了“捷徑”?為此,Lewis & Mitchell保留了基本轉換和泛化類型,又進一步創建了兩類變體[2]:

- 虛構字母表:隨機打亂2-20個字母的順序,創建28種不同的打亂字母表

- 符號字母表:用非字母符號完全替代字母,創建9種不同的符號字母表

研究人員對真實的拉丁字母表,隨機選取1-3對進行替換,然后分別給人類和GPT-3、GPT-3.5、GPT-4進行了測試。


?圖1. Lewis & Mitchell給受試人類和大模型的類比問題示例. 圖源:[2]

結果顯示,當字母表的替換次數增加后,不論是GPT3、GPT3.5或到GPT4,其回答準確性都有下降,且都顯著低于在線招募的人類受試者[2]。


?圖2:不同字母表替換次數下,GPT模型和人類被試者的準確性對比. 圖源:[2]

Mitchell團隊還做過一項嘗試,他們讓42名兒童(7-9歲)、62名成人以及4種大模型(Anthropic的Claude-3.5、Google的Gemma-2 27B、Open AI的GPT-4o和Meta的Llama-3.1 405B),接受拉丁字母表、希臘字母表和符號列表三種條件的字符串類比任務[3]。


?圖3:不同類型的字母推理問題. 圖源:[3]

結果顯示,大模型面對類比問題時,準確性就會顯著下降,表現甚至不如兒童。就拿GPT-4o和Claude-3.5來說,在拉丁語字母表上,其平均準確性要高于兒童并接近成人;但當題目換成希臘字母,準確性就會顯著下降;而到了符號時,其準確性甚至不如孩童。而其他開源模型如Llama-3.1 405B和Gemma-2 27B,其準確性下降更為明顯[3]。



?圖4:不同大模型和人類在三類字符串類比中的表現對比. 圖源:[3]

上述結果說明,當實驗引入“異構”字母表時,人類甚至兒童仍然能夠解決問題,而大模型則會出錯。一個能夠真正理解和類比的系統,應該在變化的情況下也能保持高性能——這正是GPT系列大模型不具備的能力。

讀者也許會好奇,其他推理大模型能否回答這樣的問題。筆者簡單嘗試了一下,在DeepSeek官方的全尺寸R1及V3模型,以及阿里通義千問的QwQ 32B推理模型中,對于多次替換后的虛構字母表,模型能夠正確回答,并給出符合人類思考過程的推理過程的。

但當DeepSeek模型變為蒸餾Qwen或lamma的32B、14B、8B或1.5B尺寸時,筆者有限的幾次觀察發現,模型都呈現出過度思考的特征,即會在思考過程中嘗試眾多過于復雜的模式,展示數萬token的繁雜思考過程,最終仍然給出了錯誤的回答。筆者還遇到在思考過程中,已經發現正確答案,但又在接下來的思考過程中,大模型將其否決的案例。

筆者認為,基于強化學習的大模型能否進行類比,還需要進一步的定量研究,以考察不同尺寸模型的準確度。例如,對于模型將問題過度復雜化的傾向,可以根據思考過程,對模型的錯誤進行進一步的分類,以此或可創建出一個評估一般思維能力的考核指標。

此外,還可以組合字符串類比的6個變種,設計更多的題目,例如在字母表中包含數字、英文字母、漢字及符號,這樣的改變或許對人類不會影響準確性,但可能會導致大模型的準確度下降。同時,還需要考察推理模型對于這類問題的思考時所用的token數量,從而減少計算成本。

02 大模型能理解推理規則嗎?

除了字母表推理,還可以使用數字矩陣類問題(分析數字模式以確定缺失的數字)。數字矩陣測試的設計思路源于經典的瑞文漸進矩陣測試(Raven's Progressive Matrices),這是一種廣泛用于測量抽象推理能力的非語言智力測試。相比之前字母表類比中改變問題的表現形式,數字矩陣問題通過組合規則,考察了大模型所謂的推理能力是真正的抽象理解還是模式匹配。

這類問題中,涉及的基礎規則有4種,題目由這些基礎規則組合而成:


研究者對原始數字矩陣測試進行了兩個關鍵變化:空白位置變化(將空白位置變為矩陣的其他位置,如[1,3]或[2,2])和規則復雜度變化(設計了不同復雜度級別的矩陣問題,從簡單到復雜)[2]。


?圖5:涉及到多個規則的數字矩陣推理問題以及將數字換為符號的數字矩陣推理問題. 圖源:[2]

結果顯示,僅改變空白位置這一表面特征,就導致GPT模型表現大幅下滑。盡管GPT-4在標準測試中接近人類表現(83% vs 87%);但在變體測試中,GPT-4的表現下降幅度(26%)遠大于人類(4%)[2]。這意味著,即使是最先進的模型也表現出對格式變化的高度敏感性,同樣表明了大模型的推理能力不那么魯棒。


?圖6:數字矩陣推理問題的準確度. 圖源:[2]

在數字矩陣問題中,當缺失數字的位置改變時,GPT 模型的表現顯著下降。這表明了大模型不僅不理解題目考察的是什么,更沒有理解進行類比所依賴的規則。其在單一規則或原始字母表上的優異表現,依賴于題目與示例之間在的表面相似性,而非更深層次的因果推理。

與之類似的,還包括下面的矩陣變換問題。一項研究通過簡化版ARC(抽象與推理語料庫)任務對比了不同年齡人類(兒童與成人)和大型語言模型的視覺類比推理表現,結果同樣發現人類在復雜任務中顯著優于大模型,而大模型常依賴復制或矩陣組合策略,缺乏抽象概念理解能力[4]。



?圖6: 給人類和大模型的視覺類比推理問題示例,以及不同推理規則對應題目的大模型與人類的準確度對比. 圖源:[4]

03 在基于常識的文科推理上, 大模型表現如何?

上述兩類類比問題都可以算是“理科題目”,對于“文科生”的大模型,或許確實有些難了。相比之下,故事類比則主要考察大模型基于常識的類比能力。

這類題目通常給出1個幾句話組成的短故事,然后要求參與者判斷故事1和故事A或B哪一個更為相似,即識別短故事之間的相似性,并從多個選項中選擇最符合類比關系的答案。


?圖7:相似故事的類比判斷,題目的故事是一個吃不到葡萄說葡萄酸的騾子版本,故事A將主角換成了一個女孩,而在故事B中,主角沒有獲得相似的東西,是由于不喜歡而非拿不到. 圖源:[2]

在Lewis & Mitchell的研究中,他們嘗試了兩種變體:一是隨機打亂答案選項的順序,二是保持核心關系不變,但重寫故事的表述方式[2]。

在故事類比中,GPT-4 傾向于更頻繁地選擇第一個給出的答案作為正確答案,而人類則不受答案順序的影響。此外,對于大模型,將故事用不同的話重述,也會降低在故事類比問題上的準確性[2]。


?圖8:文字類比問題上大模型的表現差異. 圖源:[2]

故事類比更接近自然語言處理的實際應用場景,但研究結果卻表明即使在語言模型的"主場"上,它們的類比推理能力仍然缺乏真正的靈活性和魯棒性,過度依賴于表面特征與特定的答案格式,而非深層理解抽象關系。

為此,筆者也設想了一種判別方式,例如對比大模型和人類回答這類問題的準確性。可以生成很多組類比問題,并招募讀過相關小說的普通人,以獲取大眾認知中的一般性回答,然后對比不同大模型和人類回答的差異性。

通過設置不同的細分問題,可以考察大模型與人類在類比能力方面的相似度及價值觀對齊情況。

- 跨文體類比能力:在風格差異較大的作品間,如中文的金庸武俠或《紅樓夢》與英文的《哈利波特》,大模型的類比準確性能否達到人類水平?

- 角色理解差異:大模型在處理男性和女性角色類比時,是否存在準確性差異?

- 群體偏好特征:大模型的類比偏好是否更接近特定人群(如不同性別、年齡段的人群)?

- 邏輯遞推性:大模型的類比是否具有傳遞性特征(即當A>B且B>C時,是否必然推導出A>C)?


?圖9:大模型能夠在跨越文學作品進行類比嗎?本文作者與DeepSeek對話截圖,其中前一道基本不會存在爭議的人物類比,以及后一道可能存在回答差異的人物類比題目。

除了上述假想的對復雜人物性格的類比,還有研究測試了大模型在無預設條件下將抽象概念(如pull、flee)與空間符號(上下左右)進行類比推理的能力,結果顯示,大模型和人類的相似性不算高[5]。不過考慮到這項研究強行要求將抽象概念(給定單詞)和方位對應缺少現實意義,這里就不詳細論述。


?圖10:大模型對抽象概念和人類類比的準確性評估.圖源:[5]

04 提升大模型類比能力,還任重道遠

基于以上研究發現,我們大致可以得到一個結論:聲稱大語言模型已具備一般推理能力或許為時過早。

盡管早期研究中大模型在特定任務上表現良好,但當測試難度提升時,它們的表現就不穩定了。一個模型在一組特定任務上表現良好,并不意味著它具有魯棒性。之前有研究表明,在面對數學應用題時,只是更換題目中的人名,大模型的解答準確度都會明顯下降,而增加無關的背景論述時,模型的性能下降則更加明顯[6]。

這一發現對于在教育、法律和醫療等關鍵決策領域應用人工智能敲響了警鐘,人工智能可以是一個強大的工具,但它還不能取代人類的思考和推理。例如,在教育領域,大模型生成的比喻確實能為教學提供幫助;然而,如果缺乏專業人士的審核與修正,這些類比可能存在潛在風險。

因此,研究人員需要開發和實施穩健性測試,以適應問題或情況中細微變化的能力。新的穩健性測試應包括一組公認的標準化任務,用以評估 AI 系統以及人類如何適應新情況。在實踐中,大模型常會遇到之前分析數據中未曾遇到的新情況和挑戰,而穩健性測試將為用戶提供衡量大型語言模型可信度的方式。

與此同時,24年的機器學習頂會ICLR的一項研究展示了另一個發展方向:通過類比推理框架,讓大模型自動生成新的規則來應對未知場景[7]。這種基于提示詞工程的方法在多個測試基準上都取得了顯著性能提升,表明提升大模型的類比能力不僅是評估其穩健性的重要維度,更是增強模型泛化能力的關鍵路徑。這兩種方法相輔相成,共同推動著大模型向更可靠、更智能的方向發展。

展望未來,大模型類比思維的研究,或可從中國傳統中汲取靈感。中國古典文學中的對聯與律詩,本質上就是一種精妙的類比系統,其中蘊含著嚴謹的對應規則和豐富的語義關聯。通過這些結構化的語言數據集對大模型進行微調,可能為增強其類比推理能力開辟新途徑。

就像中文指令微調數據集 COIG-CQIA,為了提升模型在編程及數學問題上的表現,也曾使用了中文互聯網社區數據“弱智吧”的標題作為訓練指令。這些來自不同領域的實踐表明,結構化的類比思維模式,無論是傳統文學還是現代網絡社群數據集,都可能成為提升人工智能認知能力的重要工具。

畢竟,類比思維的本質是通用的

參考文獻

[1] Taylor Webb, Keith J. Holyoak, and Hongjing Lu. Emergent analogical reasoning in large language models. Nature Human Behaviour, 7(9):1526–1541, 2023.

[2] Lewis, Martha & Mitchell, Melanie. (2024). Evaluating the Robustness of Analogical Reasoning in Large Language Models. 10.48550/arXiv.2411.14215.

[3] Stevenson CE, Pafford A, van der Maas HLJ, Mitchell M. (2024). Can large language models generalize analogy solving like children can? arXiv.2411.02348v1.

[4] Opie?ka GJ, Rosenbusch H, Vijverberg VP, Stevenson CE. Do large language models solve ARC visual analogies like people do? [Internet]. arXiv.org. 2024 May 13 [cited 2025 Apr 2]. Available from: https://arxiv.org/pdf/2403.09734v2

[5] Wicke, P., Hirlimann, L., & Cunha, J. M. (2024). Using Analogical Reasoning to Prompt LLMs for their Intuitions of Abstract Spatial Schemas. Retrieved from https://analogy-angle.github.io/assets/Wicke.pdf

[6] Mirzadeh S I, Alizadeh K, Shahrokhi H, Tuzel O, Bengio S, Farajtabar M. GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models. *arXiv preprint arXiv:2410.05229*. 2024.

[7] Yasunaga M, Chen X, Li Y, Pasupat P, Leskovec J, Liang P, Chi EH, Zhou D. Large language models as analogical reasoners. In *International Conference on Learning Representations (ICLR)* 2024.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
柳州一村莊飲用水一夜變黑散發豬糞味 生態環境局:上游養豬場非法排污,正停產整改

柳州一村莊飲用水一夜變黑散發豬糞味 生態環境局:上游養豬場非法排污,正停產整改

紅星新聞
2025-06-14 19:18:32
韓國歷史造假終露餡!聯合國質問:你祖先怎么全在中國?

韓國歷史造假終露餡!聯合國質問:你祖先怎么全在中國?

史書無明
2025-06-09 10:56:15
狼記:森林狼一直在與太陽商談杜蘭特交易,但麥丹是非賣品

狼記:森林狼一直在與太陽商談杜蘭特交易,但麥丹是非賣品

雷速體育
2025-06-15 10:14:08
大比分2-2后!美媒預測最新奪冠概率:80%比20%,完全成了一邊倒

大比分2-2后!美媒預測最新奪冠概率:80%比20%,完全成了一邊倒

你的籃球頻道
2025-06-14 14:22:40
石破茂譴責以色列!

石破茂譴責以色列!

環球時報國際
2025-06-13 23:59:38
佛山女教師婚內出軌多人,被“弟弟”頂得腰疼,次日勾搭另一男人

佛山女教師婚內出軌多人,被“弟弟”頂得腰疼,次日勾搭另一男人

社會醬
2025-05-16 17:30:43
“刺痛”哈里王子!威廉查爾斯亮相盡顯父子情深,無視其和解請求

“刺痛”哈里王子!威廉查爾斯亮相盡顯父子情深,無視其和解請求

小嵩
2025-06-15 10:00:29
iOS 26 突然更新,建議所有 iPhone 16 用戶都升級!

iOS 26 突然更新,建議所有 iPhone 16 用戶都升級!

劉奔跑
2025-06-14 23:02:19
拉杜卡努:鄭欽文在比賽中更換球鞋和球拍,這不是理想情況

拉杜卡努:鄭欽文在比賽中更換球鞋和球拍,這不是理想情況

懂球帝
2025-06-14 18:09:17
王小波:人有無尊嚴,有一個簡單的判據

王小波:人有無尊嚴,有一個簡單的判據

尚曦讀史
2025-06-12 20:35:03
央視除名后,官方又打臉!上戲否認聘用那爾那茜,官媒發聲讓徹查

央視除名后,官方又打臉!上戲否認聘用那爾那茜,官媒發聲讓徹查

農村教育光哥
2025-06-14 10:46:25
首勝鄭欽文!23歲美國猛女激動躺地似奪冠 已5次掀翻TOP5不容小覷

首勝鄭欽文!23歲美國猛女激動躺地似奪冠 已5次掀翻TOP5不容小覷

我愛英超
2025-06-15 01:30:30
你還敢集郵嗎?清朝郵票從122萬跌至26萬!猴票從1.2萬跌至4千!

你還敢集郵嗎?清朝郵票從122萬跌至26萬!猴票從1.2萬跌至4千!

愛下廚的阿釃
2025-06-13 15:02:18
張慶偉率全國人大代表團訪問白俄羅斯

張慶偉率全國人大代表團訪問白俄羅斯

新華社
2025-06-14 23:33:44
濕氣最怕的4道菜,天熱要多吃,濕氣沒了脾胃好,一覺睡到自然醒

濕氣最怕的4道菜,天熱要多吃,濕氣沒了脾胃好,一覺睡到自然醒

秀廚娘
2025-06-14 12:30:25
37歲無臂網紅楊佩產子,雙腿累到虛脫,丈夫卻只顧著玩手機引熱議

37歲無臂網紅楊佩產子,雙腿累到虛脫,丈夫卻只顧著玩手機引熱議

楊哥歷史
2025-06-14 10:03:45
約旦和黎巴嫩宣布重新開放領空

約旦和黎巴嫩宣布重新開放領空

參考消息
2025-06-14 21:59:11
夢見與異性發生關系,大都因為這2種原因,別傻傻不懂

夢見與異性發生關系,大都因為這2種原因,別傻傻不懂

星辰生肖館
2025-01-25 00:28:29
“空殼公司洗出500億日元”——38歲中國人如何在日本建起隱秘的不動產王國

“空殼公司洗出500億日元”——38歲中國人如何在日本建起隱秘的不動產王國

日本物語
2025-06-14 19:12:38
800萬來800萬走?利物浦功勛飛翼或加盟馬競 不甘替補還想搏一搏

800萬來800萬走?利物浦功勛飛翼或加盟馬競 不甘替補還想搏一搏

雪狼侃體育
2025-06-15 08:55:42
2025-06-15 10:40:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
119446文章數 860606關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
旅游
房產
藝術
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲色婷婷六月亚洲婷婷6月| 成年在线观看免费视频| 亚洲天堂2017无码| 老湿机69福利区无码| av成人无码无在线观看| 又白又嫩毛又多15p| 动漫精品专区一区二区三区不卡| 精精国产xxxx视频在线| 国产精品_国产精品_k频道w| 7777色鬼xxxx欧美色妇| 99久久er这里只有精品18| 初尝黑人嗷嗷叫中文字幕| 欧美亚洲精品一区二区在线观看| 亚洲精品综合第一国产综合| 中文字幕在线无码一区二区三区| 边做饭边被躁bd苍井空图片| 免费无码无遮挡裸体视频| 欧美裸体xxxx极品| 亚洲色大成网站www永久男同| 国产色诱视频在线播放网站| 亚洲最大av资源站无码av网址| 多毛小伙内射老太婆| 国产欧美日韩综合在线成| 日韩一区二区三区无码免费视频| 爽爽精品dvd蜜桃成熟时电影院| 日韩欧美一区二区三区永久免费| 久久99亚洲精品久久久久| 男人扒开女人内裤强吻桶进去| 亚洲无亚洲人成网站9999| 久久久久久久曰本精品免费看| 老司机午夜福利视频| 无码专区人妻系列日韩| 国产亚洲精品aa片在线爽| 性色av一区二区三区| 无码国产激情在线观看| 亚洲色大成网站www永久在线观看| 精品性影院一区二区三区内射| 亚洲精品国产第一综合99久久| 人妻出轨av中文字幕| 无码一区二区三区中文字幕| 国产特黄级aaaaa片免|