網易首頁 > 網易號 > 正文申請入駐

模型遺忘不代表記憶抹除！首次系統發現「可逆性遺忘」背后規律

2025-06-14 13:25:25　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】研究人員發現，大語言模型的遺忘并非簡單的信息刪除，而是可能隱藏在模型內部。通過構建表示空間分析工具，區分了可逆遺忘和不可逆遺忘，揭示了真正遺忘的本質是結構性的抹除，而非行為的抑制。

近年來，大語言模型（LLM）的能力突飛猛進，但隨之而來的隱私風險也逐漸浮出水面，訓練數據中的敏感信息也會被模型「記住」，并在推理階段暴露出來。

在此背景下，機器遺忘（Machine Unlearning）技術應運而生，其目標是在不影響整體能力的前提下，有選擇性地抹除特定知識。

然而，當前評估方法主要聚焦于token級別的表現（如準確率、困惑度），這些表層指標真的足以說明模型已「遺忘」？

最近，香港理工大學、卡內基梅隆大學和加州大學圣克魯茲分校的研究人員首次揭示了遺忘現象背后的表示結構變化規律，通過構建一套表示空間的診斷工具，系統性地區分了「可逆性遺忘」與「災難性不可逆遺忘」的本質差異。

論文中整理成了一個統一的表示層分析工具箱（PCA相似度與偏移、CKA、Fisher信息），支持診斷大模型在Unlearning / Relearning / Finetuning等過程中的內在變化。

論文地址：https://arxiv.org/abs/2505.16831

工具箱地址：https://github.com/XiaoyuXU1/Representational_Analysis_Tools.git

研究人員在多種方法（GA、NPO、RLabel）、數據集（arXiv、GitHub、NuminaMath）與模型（Yi-6B、Qwen-2.5-7B）上進行了全面實證，并從參數擾動角度揭示遺忘可逆性的理論依據。

模型遺忘

真正的遺忘，是結構性的抹除，而非行為的抑制

研究人員提出：「一個模型若僅僅在token輸出上『忘記』，而其內部結構幾乎未變，那它隨時可以恢復原樣。」

上圖左側（a）展示了兩種典型遺忘場景：

上方：雖然Unlearning階段準確率急劇下降，但Relearning之后快速恢復，表示空間保持穩定，屬于可逆（災難性）遺忘；
下方：雖然行為表現下降，但結構嚴重擾動，重訓練也難以恢復，屬于不可逆（災難性）遺忘。

右側（b）則展示了研究人員構建的表示空間分析工具，包括PCA Similarity / Shift、CKA相似性分析、Fisher信息矩陣（FIM）。

表征空間分析揭示了「遺忘的可逆邊界」

研究人員在Yi-6B模型上對不同方法（GA, GA+KL, NPO, RLabel）進行了單次遺忘實驗，比較了三種指標：

MIA：攻擊者能否識別遺忘目標是否出現過；
F.Acc：遺忘樣本的準確率；
R.Acc：保留樣本的準確率。

在不同學習率下，多種方法的單次遺忘結果對比

進一步，研究人員探究了不同請求數量（N）和學習率（LR）組合下的變化：

在持續遺忘場景下，更大規模的遺忘實驗配置（N×LR組合）下的性能波動

可視化診斷：模型真的「忘記」了嗎？

PCA Similarity：衡量表示空間主方向變化

可以發現，對于可逆性遺忘，其表示空間在Relearning后高度恢復原始主方向，而不可逆性遺忘則呈現廣泛漂移：

各層PCA主方向變化（Cosine相似度）分析

PCA Shift：量化表示分布中心的偏移程度

對于不可逆性遺忘，其「表示漂移」不僅方向變化，更伴隨大尺度的空間位移，Relearning難以還原：

各階段的PCA散點漂移示意圖

CKA：表示空間結構相似性分析

Linear CKA可以測量各層之間的結構保留程度。

可逆性場景下，CKA幾乎未受破壞，而不可逆性場景則迅速退化為低相關結構：

CKA曲線分析（逐層）

Fisher信息矩陣：重要參數的擾動程度

FIM從參數空間的角度提供了視角，研究人員聚焦Layer 31，觀察其Fisher分布是否仍保留原始結構。

更復雜任務：可逆性能否擴展至復雜任務？

在Qwen2.5-7B上，研究人員擴展實驗至MATH和GSM8K推理任務。

盡管任務復雜，依然能觀察到「受控Relearning」可帶來準確率恢復，尤其在可逆場景中甚至超越初始性能。

MATH與GSM8K任務下各方法表現對比

結論

研究人員們從結構層面系統剖析了大模型遺忘的可逆性，得出以下核心結論：

持續遺忘風險遠高于單次操作，GA/RLabel破壞性強：單次遺忘多數可恢復，而持續性遺忘（如100條請求）易導致徹底崩潰。GA、RLabel易過度遺忘，GA+KL、NPO類方法能顯著提高穩定性。

真正的遺忘表現為結構漂移而非輸出下降：不可逆遺忘伴隨PCA主方向旋轉、分布漂移、Fisher質量下降；僅憑token-level指標難以揭示這種深層變化。

遺忘可能帶來隱式增強效果：在部分場景中，Relearning后模型對遺忘集的表現優于原始狀態，提示Unlearning可能具有對比式正則化或課程學習效果。

結構診斷工具支持可控性遺忘設計：PCA/CKA/FIM不僅揭示是否崩潰，更可定位破壞位置，為實現「可控、局部、不可逆」的安全遺忘機制奠定基礎。

參考資料：

https://arxiv.org/abs/2505.16831

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

科學家提出動力學擴展定律，支持更長的文本生成

DeepTech深科技 2025-06-14 19:20:34
10 跟貼 10
謝賽寧蘇昊CVPR25獲獎！華人博士王建元一作拿下最佳論文

量子位 2025-06-14 17:22:24
7 跟貼 7

余弦相似度可能沒用？對于某些線性模型，相似度甚至不唯一

機器之心Pro 2025-01-14 14:34:09
1 跟貼 1

在好奇也不能拿別人東西實驗

萌萌醬追劇 2025-06-14 17:38:34
1 跟貼 1
男子自疑“不行”拿女友做實驗，結果把女友嚇得不輕！

夜炙尊 2025-06-15 08:07:58
0 跟貼 0

GraphPad Prism 五大分析模型操作指南：從入門到精通

生物學霸 2025-04-01 17:53:47
0 跟貼 0

學兩天半的按摩！非要拿我做實驗，你這是正骨吧？

毒舌講劇 2025-06-13 18:26:32
2 跟貼 2
被匹配機制折磨最慘的兩位選手

飄過的知識 2025-06-13 17:06:46
6 跟貼 6

突出核心素養，重視關鍵能力

易瞰青島 2025-06-15 08:58:39
0 跟貼 0
伊朗15分鐘向以色列進行3次導彈齊射，哈梅內伊：絕不讓以政權全身而退！以軍否認F-35戰機被擊落

每日經濟新聞 2025-06-14 13:47:08
29405 跟貼 29405
伊萬下課？爆國足主帥下課已不可逆！足協或仍選用外籍教練而并非本土主帥

咪咕體育 2025-06-12 18:17:13
67 跟貼 67
中美經貿磋商機制會談結果分析，稀土卡美國脖子，打中美國七寸

星話大白 2025-06-12 13:02:50
0 跟貼 0
波音又摔飛機！印度安全治理堪憂：航空安全黑洞的系統性潰敗

亞旭博士 2025-06-13 11:55:19
5 跟貼 5
曲線出車,三子聯合暗殺太精彩了

枯蝶 2025-06-14 06:18:58
1 跟貼 1
Transformer2要做「活」的AI模型，動態調整權重，像章魚適應環境

機器之心Pro 2025-01-15 15:44:46
1 跟貼 1
央視直播的第一場“蘇超”，齊魯壹點記者帶你看看有多火

齊魯壹點 2025-06-14 17:58:44
334 跟貼 334
18月齡幼童被飯店客人灌50毫升啤酒送醫律師解讀

極目新聞 2025-06-14 10:41:22
11295 跟貼 11295
越南加入金磚國家合作機制，全球經濟格局迎來重大變革

秋之潔 2025-06-15 02:41:38
0 跟貼 0
谷歌視頻模型Veo3正在顛覆好萊塢：星球大戰風暴兵系列之訓練新兵

鏈聞科技 2025-06-13 11:14:00
3 跟貼 3
已有經紀人推薦新帥！伊萬下課已不可逆，足協無需支付賠償金

稗官青史 2025-06-12 16:29:59
1 跟貼 1
小伙心臟不舒服，上出租后打了三通電話！表現“超強自救意識”

揚子晚報 2025-06-14 14:00:56
656 跟貼 656
美軍在舉行閱兵彩排步兵方陣三個人走出三個節奏

征垣之路 2025-06-15 00:32:32
2401 跟貼 2401
全球首次，Transformer「混血」速度狂飆65倍！英偉達已下注

新智元 2025-06-14 13:25:54
1 跟貼 1
羅帥宇冤不冤我說不準，但沒人會偷割你孩子的器官

基本常識 2025-06-14 22:42:03
1242 跟貼 1242
模型飛機試飛，鏡頭一轉發現事不簡單，美女膽子太大了

說說搞笑說 2025-06-14 17:45:19
3 跟貼 3
申花爆冷輸給保級球隊，可惜了路易斯火熱的狀態，“切片式”聯賽還苦了誰？

上觀新聞 2025-06-15 00:39:19
64 跟貼 64
再次跟中天說抱歉！“館長”：對中天有一分愧疚，我一直在彌補

海峽導報社 2025-06-14 21:35:02
42 跟貼 42
中國外交部談中美經貿磋商機制首次會議

鳳凰衛視 2025-06-12 16:09:44
0 跟貼 0
匹配機制相當逆天，伍家朗簽名和合影令球迷羨慕不已

羽毛球愛好者 2025-06-13 22:44:12
7 跟貼 7
距上次賣刀已經一年多了，這次618又給大家帶來了好的產品和機制

田野鵬火啊 2025-06-14 17:09:34
126 跟貼 126
浙江一婚席吃掉50萬元，結賬嫌太貴拒付款，餐具供應商：我的錢也沒給

極目新聞 2025-06-14 10:52:54
118 跟貼 118
從洛杉磯騷亂看美國機制困境：紐森州長的深刻洞察

數碼八叔 2025-06-13 08:47:10
0 跟貼 0
安徽宿州示范高中期末考試題，找到規律至關重要！

三樂大掌柜 2025-06-11 22:18:18
1 跟貼 1
葡媒：若葡體拒絕6000萬報價，哲凱賴什經紀人能分10%費用

雷速體育 2025-06-14 10:14:17
3 跟貼 3
中超-海港2-2遭浙江絕平加布傳射萊昂納多弒舊主

網易體育 2025-06-14 17:38:43
1977 跟貼 1977
人民幣，大消息！

人民網 2025-06-14 14:32:02
296 跟貼 296
40歲開始預防衰老最有效！1.9萬人腦掃描揭秘大腦衰老關鍵窗口期

量子位 2025-06-14 19:46:56
17 跟貼 17
頂尖大學網站暫停服務，媒體：親俄黑客攻擊！

意訊 2025-06-14 23:26:53
0 跟貼 0
國足主帥伊萬下課不可逆，中國足協無需支付賠償金

澎湃新聞 2025-06-12 20:32:20
0 跟貼 0
伊萬科維奇下課揭示國足困境：換帥之外還需系統性改革

章蠞戶外 2025-06-14 02:10:28
1 跟貼 1

手機 / 數碼

房產 / 家居

模型遺忘不代表記憶抹除！首次系統發現「可逆性遺忘」背后規律

華為Pura80系列首銷：不再嚴重缺貨

印度空難幸存者：機身撞出巨大裂口 爬出去后發生爆炸

印度空難幸存者：機身撞出巨大裂口 爬出去后發生爆炸

約戰天王山，步行者G4輸在了哪？

鳳凰傳奇曾毅塌房？網友：別連累玲花

以伊沖突持續升級，對全球市場影響多大

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

高考陪考現象：爸媽沒到小姨到，楊雨婷捧向日葵花，還有家長哭了

夏天最值得入手的6件單品，全在這了

呼吸科專家破解呼吸道九大謠言！

印度空難幸存者：機身撞出巨大裂口爬出去后發生爆炸

印度空難幸存者：機身撞出巨大裂口爬出去后發生爆炸