針對現(xiàn)有大模型知識遺忘方法可能損害生成能力的問題,本文基于“以新知覆蓋舊知”的理念,提出了 ReLearn —— 一種將數(shù)據(jù)增強與模型微調(diào)相結(jié)合的高效知識遺忘框架。
論文題目: ReLearn: Unlearning via Learning for Large Language Models 論文鏈接: https://arxiv.org/abs/2502.11190 代碼鏈接: https://github.com/zjunlp/unlearn
一、引言
大模型知識遺忘旨在通過編輯大模型參數(shù)實現(xiàn)隱私、偏見等信息的擦除,支撐可靠、可信的大模型應(yīng)用。
當(dāng)前主流遺忘方法多采用“反向優(yōu)化”(如梯度上升),旨在抑制特定內(nèi)容的輸出概率。這種僅依賴負(fù)向調(diào)整的策略,往往使模型難以采樣到合理答案,進(jìn)而破壞輸出的連貫性并損害整體語言性能。此外,現(xiàn)有評估指標(biāo)也過分關(guān)注局部遺忘,而忽略了生成內(nèi)容的流暢度與相關(guān)性。
為應(yīng)對此,本文提出 ReLearn:一個基于數(shù)據(jù)增強與模型精調(diào)的高效遺忘框架,并輔以三項新評估指標(biāo)以全面評估遺忘效果與模型可用性。
二、動機
現(xiàn)有大模型遺忘方法存在兩大核心痛點:
概率蹺蹺板效應(yīng):基于反向優(yōu)化的方法(如梯度上升 GA 和負(fù)偏好優(yōu)化 NPO)在抑制目標(biāo)詞元概率的同時,未能有效指導(dǎo)模型進(jìn)行合理的知識重構(gòu),反而可能導(dǎo)致詞匯塌陷(流暢性降低)和上下文不連貫(相關(guān)性減弱)的問題。
這就像一個蹺蹺板,壓下一頭(目標(biāo)知識),糟糕的另一頭(未知的輸出空間)概率便提升了。
評估指標(biāo)的局限性:傳統(tǒng)的評估指標(biāo)如 ROUGE-L 和 PPL,在衡量遺忘效果時存在不足。例如,ROUGE-L 對輸出長度敏感,而 PPL 可能因為部分高概率詞元掩蓋整體質(zhì)量問題。一個真正完成“遺忘”的模型,在被問及已遺忘知識時,應(yīng)能生成相關(guān)但無害(例如不泄露隱私)的回復(fù),而非無意義內(nèi)容或敏感回復(fù) 。
因此,有效的遺忘不僅是“忘記”,更應(yīng)涉及對模型知識空間的積極“重建”。
三、ReLearn
ReLearn 的核心思想是借鑒人類記憶的更新機制,通過學(xué)習(xí)新知識來覆蓋舊知識,從而達(dá)到遺忘目的,同時保持模型的語言能力。其主要流程概括如下:
遺忘數(shù)據(jù)生成與驗證:首先,對需遺忘的問答對進(jìn)行增強處理,包括多樣化提問方式(問題增強)和生成相關(guān)但模糊、安全的替代答案(答案增強)。隨后,利用大模型的思維鏈(CoT)能力對增強答案進(jìn)行安全驗證,防止引入新風(fēng)險。
數(shù)據(jù)多樣化處理:為了防止模型過擬合特定格式并避免災(zāi)難性遺忘,將驗證后的安全答案轉(zhuǎn)化為句子補全任務(wù),并引入通用知識數(shù)據(jù)集。
通過學(xué)習(xí)實現(xiàn)遺忘:最后,模型在精心組合的增強遺忘數(shù)據(jù)、需保留數(shù)據(jù)和通用數(shù)據(jù)上進(jìn)行微調(diào)。通過特定的損失函數(shù)設(shè)計(包含對遺忘數(shù)據(jù)和通用數(shù)據(jù)的交叉熵以及對保留數(shù)據(jù)的KL散度約束),引導(dǎo)模型在遺忘目標(biāo)信息的同時,最大限度地保留有益知識和通用能力。
同時,論文提出了一套新的評估指標(biāo):
知識遺忘率(Knowledge Forgetting Ratio, KFR)和 知識保留率(Knowledge Retention Ratio, KRR):通過實體覆蓋率(ECS)和蘊含得分(ES)來衡量知識層面的遺忘與保留 。
語言得分(Linguistic Score, LS):綜合 PPL,同時借鑒阿爾茲海默癥患者語言模式研究中的指標(biāo) Brunet Index 和 Honore's Statistic,用于評估模型生成文本的語言質(zhì)量(衡量流暢性,詞匯多樣性和豐富性)。
數(shù)據(jù)集:TOFU(合成的虛構(gòu)作者問答對)和 KnowUnDo(模擬真實世界敏感內(nèi)容的問答對)。
基線模型:主要對比了基于梯度的遺忘方法,GA、NPO 及它們結(jié)合 SURE 的變體。
模型:Llama-2-7b-chat 和 gemma-2-2b-it。數(shù)據(jù)增強使用 Deepseek-V3。
4.2 主實驗結(jié)果
遺忘與保留的平衡:ReLearn 在 KnowUnDo 和 TOFU 數(shù)據(jù)集上均取得了有競爭力的 KFR(如 KnowUnDo 上 0.88,TOFU 上 0.81),同時保持了較高的 KRR(KnowUnDo 上 0.74,TOFU 上 0.98)。
相比之下,表現(xiàn)最好的基線方法雖然 KFR 很高,但 KRR 損失嚴(yán)重 。
語言質(zhì)量:GA 和 NPO 等方法嚴(yán)重?fù)p害了模型的 LS 值,并導(dǎo)致極低的流暢度(Flu.)和相關(guān)性(Rel.)。而 ReLearn 能夠保持良好的 LS,且 Flu. 和 Rel. 與原始模型相當(dāng)。這表明 ReLearn 在有效遺忘的同時,能很好地保持語言生成質(zhì)量。
五、分析 5.1 魯棒性評估
參數(shù)精度變化:降低參數(shù)精度(float16 到 bfloat16)時,GA 和 NPO 的 KFR 性能顯著下降,而 ReLearn 表現(xiàn)穩(wěn)定甚至略有提升,說明 ReLearn 不依賴于參數(shù)的細(xì)微調(diào)整 。
越獄攻擊:使用 AIM 越獄攻擊時,GA 和 NPO 的 KFR 性能下降,而 ReLearn 的性能有所提升,表明 ReLearn 能維持甚至增強模型抵抗越獄攻擊的能力 。
5.2 遺忘機制分析
知識分布:反向優(yōu)化方法(GA/NPO)擾亂了詞元概率分布,導(dǎo)致輸出隨機或不連貫。ReLearn 通過學(xué)習(xí)生成新的、相關(guān)但無害的答案,引導(dǎo)模型形成新的認(rèn)知模式,而非完全破壞原有知識分布。
知識記憶:通過跨層解碼分析,GA/NPO 在模型中間層之后便無法激活相關(guān)知識,而 ReLearn 能在各層保持對語義的理解和相關(guān)概念的激活,支持連貫回答的生成。
知識回路:回路可視化顯示,ReLearn 削弱了與敏感實體相關(guān)的連接,而 GA/NPO 過度加強了對特定問題模式的拒絕。
六、總結(jié)與展望 6.1 本文總結(jié)
本文提出了 ReLearn,一種基于正向優(yōu)化的新型 LLM 遺忘框架。通過數(shù)據(jù)增強和引導(dǎo)模型學(xué)習(xí)生成新的、無害的回復(fù),ReLearn 能夠有效地平衡知識遺忘、知識保留和語言生成能力。
同時,論文引入了更全面的評估指標(biāo) KFR, KRR 和 LS,并從機制層面分析了 ReLearn 相比傳統(tǒng)反向優(yōu)化方法的優(yōu)勢 。
6.2 局限性與未來工作
計算開銷:數(shù)據(jù)合成過程可能影響方法的可擴展性。
指標(biāo)敏感度:盡管有所改進(jìn),現(xiàn)有指標(biāo)對細(xì)微知識差別的敏感度仍有限。
理論基礎(chǔ):對于知識重構(gòu)動態(tài)過程的深層理論理解仍需進(jìn)一步探索。
關(guān)于本工作的進(jìn)一步改進(jìn),我們認(rèn)為近年來在大模型指令微調(diào)領(lǐng)域備受關(guān)注的 “Less is More” 理念,即強調(diào)數(shù)據(jù)多樣性而非單純追求數(shù)據(jù)數(shù)量,對于知識遺忘任務(wù)的優(yōu)化同樣具有重要的借鑒意義。
雖然我們當(dāng)前的框架依賴于定制化的數(shù)據(jù)變體類型和現(xiàn)有大模型的生成能力,但我們設(shè)想可以通過以下兩個潛在的途徑來提升效率和效果:
開發(fā)高質(zhì)量的樣本篩選技術(shù):從生成的增強數(shù)據(jù)中識別并挑選出對引導(dǎo)模型遺忘最有效、信息量最豐富的樣本,降低對數(shù)據(jù)量的依賴。
探索基于強化學(xué)習(xí)的遺忘方案:通過設(shè)計特定的獎勵函數(shù)和策略驅(qū)動的采樣機制,使得模型能夠在與環(huán)境的交互中(可能只需要有限的高質(zhì)量數(shù)據(jù)反饋)學(xué)會如何更高效地控制自身行為以實現(xiàn)目標(biāo)知識的遺忘。
降低對原始數(shù)據(jù)要求,實現(xiàn)更好的合成數(shù)據(jù)。這樣也可以進(jìn)一步探索實現(xiàn)個性化的遺忘服務(wù),例如遺忘模型學(xué)到個人購物記錄,病歷等。
作者:徐浩銘 來源: 公眾號【PaperWeekly】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計劃
TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。
關(guān)于我“門”
將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。
將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.