新智元報道
編輯:LRST
【新智元導讀】研究人員發現,大語言模型的遺忘并非簡單的信息刪除,而是可能隱藏在模型內部。通過構建表示空間分析工具,區分了可逆遺忘和不可逆遺忘,揭示了真正遺忘的本質是結構性的抹除,而非行為的抑制。
近年來,大語言模型(LLM)的能力突飛猛進,但隨之而來的隱私風險也逐漸浮出水面,訓練數據中的敏感信息也會被模型「記住」,并在推理階段暴露出來。
在此背景下,機器遺忘(Machine Unlearning)技術應運而生,其目標是在不影響整體能力的前提下,有選擇性地抹除特定知識。
然而,當前評估方法主要聚焦于token級別的表現(如準確率、困惑度),這些表層指標真的足以說明模型已「遺忘」?
最近,香港理工大學、卡內基梅隆大學和加州大學圣克魯茲分校的研究人員首次揭示了遺忘現象背后的表示結構變化規律,通過構建一套表示空間的診斷工具,系統性地區分了「可逆性遺忘」與「災難性不可逆遺忘」的本質差異。
論文中整理成了一個統一的表示層分析工具箱(PCA相似度與偏移、CKA、Fisher信息),支持診斷大模型在Unlearning / Relearning / Finetuning等過程中的內在變化。
論文地址:https://arxiv.org/abs/2505.16831
工具箱地址:https://github.com/XiaoyuXU1/Representational_Analysis_Tools.git
研究人員在多種方法(GA、NPO、RLabel)、數據集(arXiv、GitHub、NuminaMath)與模型(Yi-6B、Qwen-2.5-7B)上進行了全面實證,并從參數擾動角度揭示遺忘可逆性的理論依據。
模型遺忘
真正的遺忘,是結構性的抹除,而非行為的抑制
研究人員提出:「一個模型若僅僅在token輸出上『忘記』,而其內部結構幾乎未變,那它隨時可以恢復原樣。」
上圖左側(a)展示了兩種典型遺忘場景:
上方:雖然Unlearning階段準確率急劇下降,但Relearning之后快速恢復,表示空間保持穩定,屬于可逆(災難性)遺忘;
下方:雖然行為表現下降,但結構嚴重擾動,重訓練也難以恢復,屬于不可逆(災難性)遺忘。
右側(b)則展示了研究人員構建的表示空間分析工具,包括PCA Similarity / Shift、CKA相似性分析、Fisher信息矩陣(FIM)。
表征空間分析揭示了「遺忘的可逆邊界」
研究人員在Yi-6B模型上對不同方法(GA, GA+KL, NPO, RLabel)進行了單次遺忘實驗,比較了三種指標:
MIA:攻擊者能否識別遺忘目標是否出現過;
F.Acc:遺忘樣本的準確率;
R.Acc:保留樣本的準確率。
在不同學習率下,多種方法的單次遺忘結果對比
進一步,研究人員探究了不同請求數量(N)和學習率(LR)組合下的變化:
在持續遺忘場景下,更大規模的遺忘實驗配置(N×LR組合)下的性能波動
可視化診斷:模型真的「忘記」了嗎?
PCA Similarity:衡量表示空間主方向變化
可以發現,對于可逆性遺忘,其表示空間在Relearning后高度恢復原始主方向,而不可逆性遺忘則呈現廣泛漂移:
各層PCA主方向變化(Cosine相似度)分析
PCA Shift:量化表示分布中心的偏移程度
對于不可逆性遺忘,其「表示漂移」不僅方向變化,更伴隨大尺度的空間位移,Relearning難以還原:
各階段的PCA散點漂移示意圖
CKA:表示空間結構相似性分析
Linear CKA可以測量各層之間的結構保留程度。
可逆性場景下,CKA幾乎未受破壞,而不可逆性場景則迅速退化為低相關結構:
CKA曲線分析(逐層)
Fisher信息矩陣:重要參數的擾動程度
FIM從參數空間的角度提供了視角,研究人員聚焦Layer 31,觀察其Fisher分布是否仍保留原始結構。
更復雜任務:可逆性能否擴展至復雜任務?
在Qwen2.5-7B上,研究人員擴展實驗至MATH和GSM8K推理任務。
盡管任務復雜,依然能觀察到「受控Relearning」可帶來準確率恢復,尤其在可逆場景中甚至超越初始性能。
MATH與GSM8K任務下各方法表現對比
結論
研究人員們從結構層面系統剖析了大模型遺忘的可逆性,得出以下核心結論:
持續遺忘風險遠高于單次操作,GA/RLabel破壞性強:單次遺忘多數可恢復,而持續性遺忘(如100條請求)易導致徹底崩潰。GA、RLabel易過度遺忘,GA+KL、NPO類方法能顯著提高穩定性。
真正的遺忘表現為結構漂移而非輸出下降:不可逆遺忘伴隨PCA主方向旋轉、分布漂移、Fisher質量下降;僅憑token-level指標難以揭示這種深層變化。
遺忘可能帶來隱式增強效果:在部分場景中,Relearning后模型對遺忘集的表現優于原始狀態,提示Unlearning可能具有對比式正則化或課程學習效果。
結構診斷工具支持可控性遺忘設計:PCA/CKA/FIM不僅揭示是否崩潰,更可定位破壞位置,為實現「可控、局部、不可逆」的安全遺忘機制奠定基礎。
參考資料:
https://arxiv.org/abs/2505.16831
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.