ACL 2025 | 大模型遺忘之后患上失語癥？通過學(xué)習(xí)新知識實現(xiàn)舊知識遺忘

2025-06-10 08:25:53　來源: 將門創(chuàng)投

北京舉報

分享至

針對現(xiàn)有大模型知識遺忘方法可能損害生成能力的問題，本文基于“以新知覆蓋舊知”的理念，提出了 ReLearn —— 一種將數(shù)據(jù)增強與模型微調(diào)相結(jié)合的高效知識遺忘框架。

論文題目： ReLearn: Unlearning via Learning for Large Language Models 論文鏈接： https://arxiv.org/abs/2502.11190 代碼鏈接： https://github.com/zjunlp/unlearn

一、引言

大模型知識遺忘旨在通過編輯大模型參數(shù)實現(xiàn)隱私、偏見等信息的擦除，支撐可靠、可信的大模型應(yīng)用。

當(dāng)前主流遺忘方法多采用“反向優(yōu)化”（如梯度上升），旨在抑制特定內(nèi)容的輸出概率。這種僅依賴負(fù)向調(diào)整的策略，往往使模型難以采樣到合理答案，進(jìn)而破壞輸出的連貫性并損害整體語言性能。此外，現(xiàn)有評估指標(biāo)也過分關(guān)注局部遺忘，而忽略了生成內(nèi)容的流暢度與相關(guān)性。

為應(yīng)對此，本文提出 ReLearn：一個基于數(shù)據(jù)增強與模型精調(diào)的高效遺忘框架，并輔以三項新評估指標(biāo)以全面評估遺忘效果與模型可用性。

二、動機

現(xiàn)有大模型遺忘方法存在兩大核心痛點：

概率蹺蹺板效應(yīng)：基于反向優(yōu)化的方法（如梯度上升 GA 和負(fù)偏好優(yōu)化 NPO）在抑制目標(biāo)詞元概率的同時，未能有效指導(dǎo)模型進(jìn)行合理的知識重構(gòu)，反而可能導(dǎo)致詞匯塌陷（流暢性降低）和上下文不連貫（相關(guān)性減弱）的問題。

這就像一個蹺蹺板，壓下一頭（目標(biāo)知識），糟糕的另一頭（未知的輸出空間）概率便提升了。

評估指標(biāo)的局限性：傳統(tǒng)的評估指標(biāo)如 ROUGE-L 和 PPL，在衡量遺忘效果時存在不足。例如，ROUGE-L 對輸出長度敏感，而 PPL 可能因為部分高概率詞元掩蓋整體質(zhì)量問題。一個真正完成“遺忘”的模型，在被問及已遺忘知識時，應(yīng)能生成相關(guān)但無害（例如不泄露隱私）的回復(fù)，而非無意義內(nèi)容或敏感回復(fù) 。

因此，有效的遺忘不僅是“忘記”，更應(yīng)涉及對模型知識空間的積極“重建”。

三、ReLearn

ReLearn 的核心思想是借鑒人類記憶的更新機制，通過學(xué)習(xí)新知識來覆蓋舊知識，從而達(dá)到遺忘目的，同時保持模型的語言能力。其主要流程概括如下：

遺忘數(shù)據(jù)生成與驗證：首先，對需遺忘的問答對進(jìn)行增強處理，包括多樣化提問方式（問題增強）和生成相關(guān)但模糊、安全的替代答案（答案增強）。隨后，利用大模型的思維鏈（CoT）能力對增強答案進(jìn)行安全驗證，防止引入新風(fēng)險。

數(shù)據(jù)多樣化處理：為了防止模型過擬合特定格式并避免災(zāi)難性遺忘，將驗證后的安全答案轉(zhuǎn)化為句子補全任務(wù)，并引入通用知識數(shù)據(jù)集。

通過學(xué)習(xí)實現(xiàn)遺忘：最后，模型在精心組合的增強遺忘數(shù)據(jù)、需保留數(shù)據(jù)和通用數(shù)據(jù)上進(jìn)行微調(diào)。通過特定的損失函數(shù)設(shè)計（包含對遺忘數(shù)據(jù)和通用數(shù)據(jù)的交叉熵以及對保留數(shù)據(jù)的KL散度約束），引導(dǎo)模型在遺忘目標(biāo)信息的同時，最大限度地保留有益知識和通用能力。

同時，論文提出了一套新的評估指標(biāo)：

知識遺忘率（Knowledge Forgetting Ratio, KFR）和知識保留率（Knowledge Retention Ratio, KRR）：通過實體覆蓋率（ECS）和蘊含得分（ES）來衡量知識層面的遺忘與保留。
語言得分（Linguistic Score, LS）：綜合 PPL，同時借鑒阿爾茲海默癥患者語言模式研究中的指標(biāo) Brunet Index 和 Honore's Statistic，用于評估模型生成文本的語言質(zhì)量（衡量流暢性，詞匯多樣性和豐富性）。

四、實驗評估 4.1 實驗設(shè)置

數(shù)據(jù)集：TOFU（合成的虛構(gòu)作者問答對）和 KnowUnDo（模擬真實世界敏感內(nèi)容的問答對）。

基線模型：主要對比了基于梯度的遺忘方法，GA、NPO 及它們結(jié)合 SURE 的變體。

模型：Llama-2-7b-chat 和 gemma-2-2b-it。數(shù)據(jù)增強使用 Deepseek-V3。

4.2 主實驗結(jié)果

遺忘與保留的平衡：ReLearn 在 KnowUnDo 和 TOFU 數(shù)據(jù)集上均取得了有競爭力的 KFR（如 KnowUnDo 上 0.88，TOFU 上 0.81），同時保持了較高的 KRR（KnowUnDo 上 0.74，TOFU 上 0.98）。

相比之下，表現(xiàn)最好的基線方法雖然 KFR 很高，但 KRR 損失嚴(yán)重。

語言質(zhì)量：GA 和 NPO 等方法嚴(yán)重?fù)p害了模型的 LS 值，并導(dǎo)致極低的流暢度（Flu.）和相關(guān)性（Rel.）。而 ReLearn 能夠保持良好的 LS，且 Flu. 和 Rel. 與原始模型相當(dāng)。這表明 ReLearn 在有效遺忘的同時，能很好地保持語言生成質(zhì)量。

五、分析 5.1 魯棒性評估

參數(shù)精度變化：降低參數(shù)精度（float16 到 bfloat16）時，GA 和 NPO 的 KFR 性能顯著下降，而 ReLearn 表現(xiàn)穩(wěn)定甚至略有提升，說明 ReLearn 不依賴于參數(shù)的細(xì)微調(diào)整。

越獄攻擊：使用 AIM 越獄攻擊時，GA 和 NPO 的 KFR 性能下降，而 ReLearn 的性能有所提升，表明 ReLearn 能維持甚至增強模型抵抗越獄攻擊的能力。

5.2 遺忘機制分析

知識分布：反向優(yōu)化方法（GA/NPO）擾亂了詞元概率分布，導(dǎo)致輸出隨機或不連貫。ReLearn 通過學(xué)習(xí)生成新的、相關(guān)但無害的答案，引導(dǎo)模型形成新的認(rèn)知模式，而非完全破壞原有知識分布。

知識記憶：通過跨層解碼分析，GA/NPO 在模型中間層之后便無法激活相關(guān)知識，而 ReLearn 能在各層保持對語義的理解和相關(guān)概念的激活，支持連貫回答的生成。

知識回路：回路可視化顯示，ReLearn 削弱了與敏感實體相關(guān)的連接，而 GA/NPO 過度加強了對特定問題模式的拒絕。

六、總結(jié)與展望 6.1 本文總結(jié)

本文提出了 ReLearn，一種基于正向優(yōu)化的新型 LLM 遺忘框架。通過數(shù)據(jù)增強和引導(dǎo)模型學(xué)習(xí)生成新的、無害的回復(fù)，ReLearn 能夠有效地平衡知識遺忘、知識保留和語言生成能力。

同時，論文引入了更全面的評估指標(biāo) KFR, KRR 和 LS，并從機制層面分析了 ReLearn 相比傳統(tǒng)反向優(yōu)化方法的優(yōu)勢。

6.2 局限性與未來工作

計算開銷：數(shù)據(jù)合成過程可能影響方法的可擴展性。

指標(biāo)敏感度：盡管有所改進(jìn)，現(xiàn)有指標(biāo)對細(xì)微知識差別的敏感度仍有限。

理論基礎(chǔ)：對于知識重構(gòu)動態(tài)過程的深層理論理解仍需進(jìn)一步探索。

關(guān)于本工作的進(jìn)一步改進(jìn)，我們認(rèn)為近年來在大模型指令微調(diào)領(lǐng)域備受關(guān)注的 “Less is More” 理念，即強調(diào)數(shù)據(jù)多樣性而非單純追求數(shù)據(jù)數(shù)量，對于知識遺忘任務(wù)的優(yōu)化同樣具有重要的借鑒意義。

雖然我們當(dāng)前的框架依賴于定制化的數(shù)據(jù)變體類型和現(xiàn)有大模型的生成能力，但我們設(shè)想可以通過以下兩個潛在的途徑來提升效率和效果：

開發(fā)高質(zhì)量的樣本篩選技術(shù)：從生成的增強數(shù)據(jù)中識別并挑選出對引導(dǎo)模型遺忘最有效、信息量最豐富的樣本，降低對數(shù)據(jù)量的依賴。
探索基于強化學(xué)習(xí)的遺忘方案：通過設(shè)計特定的獎勵函數(shù)和策略驅(qū)動的采樣機制，使得模型能夠在與環(huán)境的交互中（可能只需要有限的高質(zhì)量數(shù)據(jù)反饋）學(xué)會如何更高效地控制自身行為以實現(xiàn)目標(biāo)知識的遺忘。

降低對原始數(shù)據(jù)要求，實現(xiàn)更好的合成數(shù)據(jù)。這樣也可以進(jìn)一步探索實現(xiàn)個性化的遺忘服務(wù)，例如遺忘模型學(xué)到個人購物記錄，病歷等。

作者：徐浩銘來源：公眾號【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)（www.techbeat.net）。社區(qū)上線600+期talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺，希望為AI人才打造更專業(yè)的服務(wù)和體驗，加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向，對用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關(guān)注“將門創(chuàng)投”公眾號，后臺回復(fù)“投稿”二字，獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機構(gòu)，也是北京市標(biāo)桿型孵化器。公司致力于通過連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底，創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價值的投后服務(wù)，歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.