網易首頁 > 網易號 > 正文申請入駐

DeepSeek-R1 幻覺率高達 14.3%！大模型為何總 “胡說八道”？

2025-02-13 09:39:30　來源: 風向觀察

北京舉報

分享至

DeepSeek系列模型在很多方面的表現都很出色，但“幻覺”問題依然是它面臨的一大挑戰。

在Vectara HHEM人工智能幻覺測試（行業權威測試，通過檢測語言模型生成內容是否與原始證據一致，從而評估模型的幻覺率，幫助優化和選擇模型）中，DeepSeek-R1顯示出14.3%的幻覺率。

圖：Vectara HHEM人工智能幻覺測試結果

顯然，DeepSeek-R1的幻覺率不僅是 DeepSeek-V3的近4倍，也遠超行業平均水平。

在博主Levy Rozman（擁有600萬粉絲的美國國際象棋網紅）組織的一次并不嚴謹的大模型國際象棋的對弈中，Deepseek“作弊”次數要遠多于ChatGPT：

比如，沒走幾步棋，DeepSeek-R1就主動送了一個小兵給對手；

到了后期，DeepSeek-R1告訴ChatGPT國際象棋規則更新了，并使用小兵吃掉了ChatGPT的皇后，這一舉動讓ChatGPT措手不及；

最終，DeepSeek-R1還給ChatGPT一頓輸出，告訴它自己已贏了，ChatGPT 竟然同意認輸，而DeepSeek-R1則以勝利結束。

雖然這是一個規則與標準并不十分嚴謹的娛樂性視頻，但也可以看到，大模型真的很喜歡一本正經地“胡說八道”，甚至還能把另一個大模型騙到。

對于人類來說，大模型幻覺問題如同一把懸在AI發展之路上的達摩克利斯之劍，在14.3%的幻覺率背后，有些問題值得我們深度思考：

大模型為什么會產生幻覺，究竟是缺陷還是優點？
當DeepSeek- R1展現出驚人的創造力，但同時它的幻覺問題有多嚴重？
大模型幻覺主要出現在哪些領域？
一個終極難題：如何能讓大模型既有創造力，又少出幻覺？

圖：李維出門問問大模型團隊前工程副總裁、Netbase前首席科學家

大模型為什么會“產生幻覺”？

這是大模型的經典問題。其實大模型就像一個“超級接話茬兒高手”，你給它上半句，它就根據自己學過的海量知識，預測下半句該說什么。它學東西就像人腦記東西一樣，不可能每個字都記得清清楚楚，它會進行壓縮和泛化，抓大意、找規律。

打個比方，你問它“姚明有多高”，它大概率不會錯，因為這知識點很突出，它能記得牢。但你要是問“隔壁老王有多高”，它可能就懵了，因為它沒見過老王。

但是它的設計原理又決定了，它必須要接茬兒，這時候，它就自動“腦補”，根據“一般人有多高”這個學到的概念，編一個數出來，這就是“幻覺”。

那么，幻覺是如何產生的呢？

幻覺的本質是補白，是腦補。

“白”就是某個具體事實，如果這個事實在訓練數據中沒有足夠的信息冗余度，模型就記不住（零散事實等價于噪音）。記不住就用幻覺去補白，編造細節。

幻覺絕不是沒有束縛的任意編造，大模型是概率模型，束縛就是條件概率中的前文條件。幻覺選擇的虛假事實需要與補白所要求的value（價值）類型匹配，即符合ontology/taxonomy（本體/分類法）的相應的上位節點概念。“張三”可以幻覺為“李四”，但不大可能幻覺成“石頭”。

文藝理論中有個說法，叫藝術真實。所謂藝術真實是說，文藝創作雖然可能背離了這個世界的事實，但卻是可能的數字世界的合理想象。大模型的幻覺就屬于此類情況。

大模型的知識學習過程（訓練階段），是一種信息壓縮過程；大模型回答問題，就是一個信息解碼過程（推理階段）。好比升維了又降維。一個事實冗余度不夠就被泛化為一個上位概念的slot，到了生成階段這個slot必須具像化補白。

“張三”這個事實忘了，但“human”這個slot的約束還在。補白就找最合理、與 slot 概念最一致的一個實體，于是“李四”或“王五”的幻覺就可以平替“張三”。小說家就是這么工作的，人物和故事都是編造的。無論作家自己還是讀者，都不覺得這是在說謊，不過所追求的真善美是在另一個層面。

大模型也是如此，大模型是天生的藝術家，不是死記硬背的數據庫。“張冠李戴”、“指鹿為馬”等在大模型的幻覺里非常自然，因為張和李是相似的，馬和鹿也在同一條延長線上。在泛化和壓縮的意義上二者是等價的。

但是，某種程度上，幻覺就是想象力（褒貶不論），也就是創意！你想想，人類那些偉大的文學作品、藝術作品，哪個不是天馬行空、充滿想象？要是什么事情都得跟現實一模一樣，藝術就成了照相機了，那還有什么意思？

就像赫拉利在《人類簡史》里說的，人類之所以能成為地球霸主，就是因為我們會“講故事”，會創造出神話、宗教、國家、貨幣這些現實中不存在的東西。這些都是“幻覺”，但它們卻是文明誕生和發展的原動力。

DeepSeek-R1的幻覺問題

到底有多嚴重？

它的幻覺問題很嚴重。此前學界普遍認同OpenAI的說法，推理增強會明顯減少幻覺。我曾與大模型公司的一位負責人討論，他就特別強調推理對減少幻覺的積極作用。

但R1的表現卻給出了一個相反的結果。

根據Vectara的測試，R1的幻覺率確實比V3高不少，R1的幻覺率14.3%，顯著高于其前身V3的3.9%。這跟它加強了的“思維鏈”（CoT）和創造力直接相關。R1在推理、寫詩、寫小說方面，確實很厲害，但隨之而來的“副作用”就是幻覺也多了。

具體到R1，幻覺增加主要有以下幾個原因：

首先，幻覺標準測試用的是摘要任務，我們知道摘要能力在基座大模型階段就已經相當成熟了。在這種情況下，強化反而可能產生反效果，就像用大炮打蚊子，用力過猛反而增加了幻覺和編造的可能。

其次，R1的長思維鏈強化學習并未針對摘要、翻譯、新聞寫作這類相對簡單而對于事實要求很嚴格的任務做特別優化，而是試圖對所有任務增加各種層面的思考。

從它透明的思維鏈輸出可以看到，即便面對一個簡單的指令，它也會不厭其煩地從不同角度理解和延伸。過猶不及，這些簡單任務的復雜化會引導結果偏離發揮，增加幻覺。

另外，DeepSeek-R1在文科類任務的強化學習訓練過程中，可能對模型的創造性給予了更多的獎勵，導致模型在生成內容時更具創造性，也更容易偏離事實。

我們知道，對于數學和代碼，R1的監督信號來自于這些題目的黃金標準（習題集中的標準答案或代碼的測試案例）。他們對于文科類任務，利用的是V3或V3的獎勵模型來判定好壞，顯然目前的系統偏好是鼓勵創造性。

另外，用戶更多的反饋還是鼓勵和欣賞見到的創造力，一般人對于幻覺的覺察并不敏感，尤其是大模型絲滑順暢，識別幻覺就更加困難。對于多數一線開發者，用戶的這類反饋容易促使他們更加向加強創造力方向努力，而不是對付大模型領域最頭痛的問題之一“幻覺”。

具體從技術角度來說，R1會為用戶的簡單指令自動增加很長的思維鏈，等于是把一個簡單明確的任務復雜化了。

一個簡單的指令，它也反復從不同角度理解和衍伸（CoT思維鏈好比“小九九”，就是一個實體遵從指令時的內心獨白）。思維鏈改變了自回歸概率模型生成answer前的條件部分，自然會影響最終輸出。

圖：GPT-o1和4o的HHEM分數統計，HHEM分數越低幻覺越低

它與V3模型的區別如下：

V3: query --〉answer

R1: query+CoT --〉answer 對于 V3 已經能很好完成的任務，比如摘要或翻譯，任何思維鏈的長篇引導都可能帶來偏離或發揮的傾向，這就為幻覺提供了溫床。

大模型幻覺主要出現在哪些領域？

如果把R1的能力分成“文科”和“理科”來看，它在數學、代碼這些“理科”方面，邏輯性很強，幻覺相對少。

但在語言創作領域，尤其是現在被測試的摘要任務上，幻覺問題就明顯得多。這更多是R1語言創造力爆棚帶來的副作用。

比起o1，R1最令人驚艷的成就是成功將數學和代碼的推理能力充分延伸到了語言創作領域，尤其在中文能力方面表現出色。網上流傳著無數的R1精彩華章。舞文弄墨方面，它顯然超過了99%的人類，文學系研究生、甚至國學教授也贊不絕口。

但你看，讓它做個摘要，本來是很簡單的任務，但它非得給你“發揮”一下，結果就容易“編”出一些原文里沒有的東西。前面說了，這是它“文科”太強了，有點“用力過猛”。

這里就不得不聊一聊推理能力增強和幻覺之間的微妙關系。

它們并不是簡單的正相關或負相關。GPT系列的推理模型o1的HHEM分數的平均值和中位數低于其通用模型GPT-4o（見下圖）。可是當我們對比 R1 和它的基座模型 V3 時，又發現增加推理強化后幻覺確實顯著增加了。

比起基座模型，o1 降低了幻覺，R1增加了幻覺，這可能是R1在文科思維鏈方面用力過猛。

作為追隨者，R1把數學和代碼上的CoT賦能成功轉移到語言文字創作上，但一不小心，副作用也顯現了。R1特別喜歡“發散思維”，你給它一個簡單的指令，它能想出一大堆東西來，思維鏈能繞地球三圈。

這似乎說明 R1 在強化創造力的過程中，不可避免地增加了創造力的伴生品：幻覺。

語言能力其實可以細分為兩類：一類需要高創造力，比如寫詩歌、小說；另一類需要高度真實性，比如新聞報道、翻譯或摘要。R1最受稱贊的是前者，這也可能是研發團隊的重點方向，但在后者中就出現了副作用。

這讓我想到中國古人說的"信達雅"，自古難全。為"雅"犧牲"信"的例子我們見得很多，文學創作中夸張的修辭手法就是重要手段和例證。為"信"犧牲"雅"也有先例，比如魯迅先生推崇的"硬譯"。

有趣的是，我們人類在這方面其實一直是雙標的，但我們心里有個可以隨時切換的開關。看小說和電影時，我們把開關偏向創造性一側，完全不會去糾結細節是否真實；但一旦切換到新聞頻道，我們就對虛假內容零容忍。

一個終極難題：

如何能讓大模型既有創造力

又少出幻覺？

人對于邏輯看起來清晰自洽、且詳細的內容，就會傾向于相信。很多人在驚艷R1創造力的同時，現在開始慢慢注意到這個幻覺現象并開始警惕了。但更多人還是沉浸在它給我們帶來的創造性的驚艷中，需要增強大眾對模型幻覺的意識。可以“兩手抓”：

保持警惕：大模型說的話，特別是涉及到事實的，別全信，最容易產生幻覺的地方是人名、地名、時間、地點等實體或數據，一定要特別小心。

交叉驗證：重要的細節，可上網查查原始資料或詢問身邊專家，看看說法是不是一致。

引導模型：你可以在提問的時候，加一些限定條件，比如“請務必忠于原文”、“請核對事實”等等，這樣可以引導模型減少幻覺。

Search（聯網搜索）：對于用戶，很多問題，尤其是新聞時事方面，除了 DeepThink 按鈕（按下就進入了R1慢思維mode），別忘了按下另一個按鈕 Search。

加上聯網search后，會有效減少幻覺。search這類所謂RAG（retrieval augmented generation）等于是個外加數據庫，增加的數據幫助彌補模型本身對于細節的無知。

享受創意：如果你需要的是靈感、創意，那大模型的幻覺，會給你帶來驚喜。

不妨把大模型的幻覺，看成是“平行世界的可能性”。就像小說家寫小說，雖然是虛構的，也是一種“藝術真實”。源于生活，高于生活。大模型是源于數據，高于數據。大模型壓縮的是知識體系和常識，不是一個個事實，后者是數據庫的對象。

大模型的幻覺，其實就是它“腦補”出來的，但它“腦補”的依據，是它學到的海量知識和規律。所以，它的幻覺，往往不是亂來的，有“內在的合理性”，這才絲滑無縫，假話說的跟真的似的，但同時也更具有迷惑性。初接觸大模型的朋友，需要特別小心，不能輕信。

對于普通用戶來說，理解幻覺的特點很重要。比如問"長江多長"這類有足夠信息冗余的百科知識問題，大模型不會出錯，這些事實是刻在模型參數里的。但如果問一個不知名的小河或虛構河流的長度，模型就會啟動"合理補白"機制編造。

可以說，人類的語言本身就是幻覺的溫床。

語言使得人類創造了神話、宗教、國家、公司、貨幣等非真實實體的概念，以及理想、信念等形而上的意識形態。赫拉利在《人類簡史》中強調了幻覺對于文明的根本作用：語言的產生賦能了人類幻覺（“講故事”）的能力。幻覺是文明的催化劑。人類是唯一的會“說謊”的實體 -- 除了LLM外。

未來有沒有什么辦法，能讓大模型既有創造力，又少出幻覺呢？

這絕對是AI大模型領域的“終極難題”之一！現在大家都在想辦法，比如：

更精細地訓練：在訓練的時候，就對不同類型的任務區別對待，讓模型知道什么時候該“老實”，什么時候可以“放飛”。

針對任務做偏好微調（finetune） and/or 強化（rl）可以減緩這個矛盾。摘要、改寫、翻譯、報道這種任務需要特別小心和平衡，因為它既有一點再創造的需求（例如文風），又是本性需要內容忠實的。

具體說，R1訓練pipeline是四個過程，微調1，強化1，微調2，強化2。強化2主要是與人類偏好對齊的強化。這個過程在創造力與忠實方面，目前看來傾斜于前者，后去可以再做平衡。也許更重要的是在階段三的微調2中，針對不同任務加強約束，例如，增加摘要的監督數據，引導忠實平實的結果。

Routing（路徑）：以后可能會有一個“調度員”，根據任務的類型，安排不同的模型來處理。比如，簡單任務交給V3或調用工具，慢思考的復雜任務交給R1。

例如，識別出算術任務，就去寫個簡單代碼運算，等價于調用計算器。目前不是這樣，我昨天測試一個九位數的乘法，R1 思考了三分多鐘，思維鏈打印出來可以鋪開來一條街，步步分解推理。雖然最后答案是對了，但算術問題用耗費太大的所謂 test time compute（模型測試計算資源）的思維鏈（CoT），而不用 function call（調用函數），完全不合理。一行計算代碼就搞定的事，沒必要消耗如此多的計算資源和tokens去做顯式推理。

這些都是可以預見的 Routing（實現路徑），尤其是在agent時代。R1 CoT不必包打一切，而且除了幻覺問題，也會浪費資源、不環保。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.