大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ACL 2025 | 大模型遺忘之后患上失語癥?通過學(xué)習(xí)新知識實現(xiàn)舊知識遺忘

0
分享至

針對現(xiàn)有大模型知識遺忘方法可能損害生成能力的問題,本文基于“以新知覆蓋舊知”的理念,提出了 ReLearn —— 一種將數(shù)據(jù)增強與模型微調(diào)相結(jié)合的高效知識遺忘框架。


論文題目: ReLearn: Unlearning via Learning for Large Language Models 論文鏈接: https://arxiv.org/abs/2502.11190 代碼鏈接: https://github.com/zjunlp/unlearn


一、引言

大模型知識遺忘旨在通過編輯大模型參數(shù)實現(xiàn)隱私、偏見等信息的擦除,支撐可靠、可信的大模型應(yīng)用。

當(dāng)前主流遺忘方法多采用“反向優(yōu)化”(如梯度上升),旨在抑制特定內(nèi)容的輸出概率。這種僅依賴負(fù)向調(diào)整的策略,往往使模型難以采樣到合理答案,進(jìn)而破壞輸出的連貫性并損害整體語言性能。此外,現(xiàn)有評估指標(biāo)也過分關(guān)注局部遺忘,而忽略了生成內(nèi)容的流暢度與相關(guān)性。

為應(yīng)對此,本文提出 ReLearn:一個基于數(shù)據(jù)增強與模型精調(diào)的高效遺忘框架,并輔以三項新評估指標(biāo)以全面評估遺忘效果與模型可用性。

二、動機

現(xiàn)有大模型遺忘方法存在兩大核心痛點:


概率蹺蹺板效應(yīng):基于反向優(yōu)化的方法(如梯度上升 GA 和負(fù)偏好優(yōu)化 NPO)在抑制目標(biāo)詞元概率的同時,未能有效指導(dǎo)模型進(jìn)行合理的知識重構(gòu),反而可能導(dǎo)致詞匯塌陷(流暢性降低)和上下文不連貫(相關(guān)性減弱)的問題。

這就像一個蹺蹺板,壓下一頭(目標(biāo)知識),糟糕的另一頭(未知的輸出空間)概率便提升了。

評估指標(biāo)的局限性:傳統(tǒng)的評估指標(biāo)如 ROUGE-L 和 PPL,在衡量遺忘效果時存在不足。例如,ROUGE-L 對輸出長度敏感,而 PPL 可能因為部分高概率詞元掩蓋整體質(zhì)量問題。一個真正完成“遺忘”的模型,在被問及已遺忘知識時,應(yīng)能生成相關(guān)但無害(例如不泄露隱私)的回復(fù),而非無意義內(nèi)容或敏感回復(fù) 。

因此,有效的遺忘不僅是“忘記”,更應(yīng)涉及對模型知識空間的積極“重建”。

三、ReLearn

ReLearn 的核心思想是借鑒人類記憶的更新機制,通過學(xué)習(xí)新知識來覆蓋舊知識,從而達(dá)到遺忘目的,同時保持模型的語言能力。其主要流程概括如下:


遺忘數(shù)據(jù)生成與驗證:首先,對需遺忘的問答對進(jìn)行增強處理,包括多樣化提問方式(問題增強)和生成相關(guān)但模糊、安全的替代答案(答案增強)。隨后,利用大模型的思維鏈(CoT)能力對增強答案進(jìn)行安全驗證,防止引入新風(fēng)險。

數(shù)據(jù)多樣化處理:為了防止模型過擬合特定格式并避免災(zāi)難性遺忘,將驗證后的安全答案轉(zhuǎn)化為句子補全任務(wù),并引入通用知識數(shù)據(jù)集。

通過學(xué)習(xí)實現(xiàn)遺忘:最后,模型在精心組合的增強遺忘數(shù)據(jù)、需保留數(shù)據(jù)和通用數(shù)據(jù)上進(jìn)行微調(diào)。通過特定的損失函數(shù)設(shè)計(包含對遺忘數(shù)據(jù)和通用數(shù)據(jù)的交叉熵以及對保留數(shù)據(jù)的KL散度約束),引導(dǎo)模型在遺忘目標(biāo)信息的同時,最大限度地保留有益知識和通用能力。

同時,論文提出了一套新的評估指標(biāo):

  • 知識遺忘率(Knowledge Forgetting Ratio, KFR)和 知識保留率(Knowledge Retention Ratio, KRR):通過實體覆蓋率(ECS)和蘊含得分(ES)來衡量知識層面的遺忘與保留 。

  • 語言得分(Linguistic Score, LS):綜合 PPL,同時借鑒阿爾茲海默癥患者語言模式研究中的指標(biāo) Brunet Index 和 Honore's Statistic,用于評估模型生成文本的語言質(zhì)量(衡量流暢性,詞匯多樣性和豐富性)。

四、實驗評估 4.1 實驗設(shè)置

數(shù)據(jù)集:TOFU(合成的虛構(gòu)作者問答對)和 KnowUnDo(模擬真實世界敏感內(nèi)容的問答對)。

基線模型:主要對比了基于梯度的遺忘方法,GA、NPO 及它們結(jié)合 SURE 的變體。

模型:Llama-2-7b-chat 和 gemma-2-2b-it。數(shù)據(jù)增強使用 Deepseek-V3。

4.2 主實驗結(jié)果


遺忘與保留的平衡:ReLearn 在 KnowUnDo 和 TOFU 數(shù)據(jù)集上均取得了有競爭力的 KFR(如 KnowUnDo 上 0.88,TOFU 上 0.81),同時保持了較高的 KRR(KnowUnDo 上 0.74,TOFU 上 0.98)。

相比之下,表現(xiàn)最好的基線方法雖然 KFR 很高,但 KRR 損失嚴(yán)重 。

語言質(zhì)量:GA 和 NPO 等方法嚴(yán)重?fù)p害了模型的 LS 值,并導(dǎo)致極低的流暢度(Flu.)和相關(guān)性(Rel.)。而 ReLearn 能夠保持良好的 LS,且 Flu. 和 Rel. 與原始模型相當(dāng)。這表明 ReLearn 在有效遺忘的同時,能很好地保持語言生成質(zhì)量。

五、分析 5.1 魯棒性評估


參數(shù)精度變化:降低參數(shù)精度(float16 到 bfloat16)時,GA 和 NPO 的 KFR 性能顯著下降,而 ReLearn 表現(xiàn)穩(wěn)定甚至略有提升,說明 ReLearn 不依賴于參數(shù)的細(xì)微調(diào)整 。

越獄攻擊:使用 AIM 越獄攻擊時,GA 和 NPO 的 KFR 性能下降,而 ReLearn 的性能有所提升,表明 ReLearn 能維持甚至增強模型抵抗越獄攻擊的能力 。

5.2 遺忘機制分析

知識分布:反向優(yōu)化方法(GA/NPO)擾亂了詞元概率分布,導(dǎo)致輸出隨機或不連貫。ReLearn 通過學(xué)習(xí)生成新的、相關(guān)但無害的答案,引導(dǎo)模型形成新的認(rèn)知模式,而非完全破壞原有知識分布。

知識記憶:通過跨層解碼分析,GA/NPO 在模型中間層之后便無法激活相關(guān)知識,而 ReLearn 能在各層保持對語義的理解和相關(guān)概念的激活,支持連貫回答的生成。

知識回路:回路可視化顯示,ReLearn 削弱了與敏感實體相關(guān)的連接,而 GA/NPO 過度加強了對特定問題模式的拒絕。

六、總結(jié)與展望 6.1 本文總結(jié)

本文提出了 ReLearn,一種基于正向優(yōu)化的新型 LLM 遺忘框架。通過數(shù)據(jù)增強和引導(dǎo)模型學(xué)習(xí)生成新的、無害的回復(fù),ReLearn 能夠有效地平衡知識遺忘、知識保留和語言生成能力。

同時,論文引入了更全面的評估指標(biāo) KFR, KRR 和 LS,并從機制層面分析了 ReLearn 相比傳統(tǒng)反向優(yōu)化方法的優(yōu)勢 。

6.2 局限性與未來工作

計算開銷:數(shù)據(jù)合成過程可能影響方法的可擴展性。

指標(biāo)敏感度:盡管有所改進(jìn),現(xiàn)有指標(biāo)對細(xì)微知識差別的敏感度仍有限。

理論基礎(chǔ):對于知識重構(gòu)動態(tài)過程的深層理論理解仍需進(jìn)一步探索。

關(guān)于本工作的進(jìn)一步改進(jìn),我們認(rèn)為近年來在大模型指令微調(diào)領(lǐng)域備受關(guān)注的 “Less is More” 理念,即強調(diào)數(shù)據(jù)多樣性而非單純追求數(shù)據(jù)數(shù)量,對于知識遺忘任務(wù)的優(yōu)化同樣具有重要的借鑒意義。

雖然我們當(dāng)前的框架依賴于定制化的數(shù)據(jù)變體類型和現(xiàn)有大模型的生成能力,但我們設(shè)想可以通過以下兩個潛在的途徑來提升效率和效果:

  • 開發(fā)高質(zhì)量的樣本篩選技術(shù):從生成的增強數(shù)據(jù)中識別并挑選出對引導(dǎo)模型遺忘最有效、信息量最豐富的樣本,降低對數(shù)據(jù)量的依賴。

  • 探索基于強化學(xué)習(xí)的遺忘方案:通過設(shè)計特定的獎勵函數(shù)和策略驅(qū)動的采樣機制,使得模型能夠在與環(huán)境的交互中(可能只需要有限的高質(zhì)量數(shù)據(jù)反饋)學(xué)會如何更高效地控制自身行為以實現(xiàn)目標(biāo)知識的遺忘。

降低對原始數(shù)據(jù)要求,實現(xiàn)更好的合成數(shù)據(jù)。這樣也可以進(jìn)一步探索實現(xiàn)個性化的遺忘服務(wù),例如遺忘模型學(xué)到個人購物記錄,病歷等。

作者:徐浩銘 來源: 公眾號【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
以色列軍方:已確認(rèn)伊朗在生產(chǎn)核彈的武器零部件方面取得具體進(jìn)展,表明伊朗政權(quán)正在接近無法回頭的地步

以色列軍方:已確認(rèn)伊朗在生產(chǎn)核彈的武器零部件方面取得具體進(jìn)展,表明伊朗政權(quán)正在接近無法回頭的地步

和訊網(wǎng)
2025-06-13 12:01:03
又現(xiàn)迷之操作,華為Pura80標(biāo)準(zhǔn)版手機接口竟倒退成USB 2.0

又現(xiàn)迷之操作,華為Pura80標(biāo)準(zhǔn)版手機接口竟倒退成USB 2.0

熱點科技
2025-06-13 18:36:36
吳京太難了?籌備了10年的《鏢人》,還沒上映,女主就塌房了!

吳京太難了?籌備了10年的《鏢人》,還沒上映,女主就塌房了!

動物奇奇怪怪
2025-06-13 03:07:33
恐怖如斯!今年季后賽福斯特執(zhí)裁的比賽 步行者0-5 雷霆4-0

恐怖如斯!今年季后賽福斯特執(zhí)裁的比賽 步行者0-5 雷霆4-0

直播吧
2025-06-14 11:49:26
顛覆認(rèn)知!男優(yōu)嚴(yán)選「最想合作」女優(yōu)紅黑榜揭曉 (2)

顛覆認(rèn)知!男優(yōu)嚴(yán)選「最想合作」女優(yōu)紅黑榜揭曉 (2)

TVB的四小花
2025-06-15 05:56:17
鄭州小米女車主連撞16車后續(xù):正臉照曝光,邁巴赫車主欲哭無淚

鄭州小米女車主連撞16車后續(xù):正臉照曝光,邁巴赫車主欲哭無淚

chen7
2025-06-14 23:35:57
身處異國他鄉(xiāng)的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

身處異國他鄉(xiāng)的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

南山青松
2025-06-11 17:01:44
香港歌手60大壽席開15桌,鄺美云穿西裝好端莊,同框袁潔瑩沒交流

香港歌手60大壽席開15桌,鄺美云穿西裝好端莊,同框袁潔瑩沒交流

涵豆說娛
2025-06-14 17:14:41
我出差巴基斯坦,意外看到穆斯林女人面紗下的秘密,她給我兩個選擇

我出差巴基斯坦,意外看到穆斯林女人面紗下的秘密,她給我兩個選擇

紅豆講堂
2025-05-28 14:34:55
中產(chǎn)面臨的困境:正在被悄悄清算

中產(chǎn)面臨的困境:正在被悄悄清算

流蘇晚晴
2025-06-12 20:15:28
新四軍宣傳部長57歲任上海市委書記,1983年被開除黨籍

新四軍宣傳部長57歲任上海市委書記,1983年被開除黨籍

樂趣紀(jì)史
2025-06-14 19:37:01
7月起,我國將明令禁止收取這5種物業(yè)費,業(yè)主們還需早知道!

7月起,我國將明令禁止收取這5種物業(yè)費,業(yè)主們還需早知道!

詩詞中國
2025-06-14 14:09:57
廣州同學(xué)聚會吃了16萬6,請客的人付完錢先走,剩下的人卻翻臉了

廣州同學(xué)聚會吃了16萬6,請客的人付完錢先走,剩下的人卻翻臉了

詭譎怪談
2025-06-09 08:45:42
寧波樓市捷雷不及掩耳,寧波樓市鄞州區(qū)房價從24000元跌至23000元

寧波樓市捷雷不及掩耳,寧波樓市鄞州區(qū)房價從24000元跌至23000元

有事問彭叔
2025-06-13 21:48:39
喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

米筐投資
2025-05-30 07:18:09
俄軍再次擊落自己戰(zhàn)機,伊朗只是俄烏戰(zhàn)爭一枚棋子

俄軍再次擊落自己戰(zhàn)機,伊朗只是俄烏戰(zhàn)爭一枚棋子

史政先鋒
2025-06-14 19:32:21
只有女人,沒一個男性的部落,她們怎么繁衍后代?羞于說出口!

只有女人,沒一個男性的部落,她們怎么繁衍后代?羞于說出口!

大千世界觀
2025-06-13 19:37:58
世界最強棋士戰(zhàn)決賽,申真谞如果輸了,韓國棋院恐為天下笑

世界最強棋士戰(zhàn)決賽,申真谞如果輸了,韓國棋院恐為天下笑

月滿大江流
2025-06-14 20:52:21
他是化學(xué)博士,也是格斗冠軍!一拳把史泰龍打進(jìn)ICU的“學(xué)霸猛男”,晚年患癌卻讓死神敗退!

他是化學(xué)博士,也是格斗冠軍!一拳把史泰龍打進(jìn)ICU的“學(xué)霸猛男”,晚年患癌卻讓死神敗退!

跑步心情
2025-06-14 18:48:12
惡魔醫(yī)生劉翔峰,罪行累累,喪心病狂!

惡魔醫(yī)生劉翔峰,罪行累累,喪心病狂!

燕梳樓頻道
2025-06-12 22:49:14
2025-06-15 08:35:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2145文章數(shù) 591關(guān)注度
往期回顧 全部

教育要聞

校長如何化解學(xué)校行政矛盾?五步走!

頭條要聞

伊朗數(shù)小時內(nèi)或再襲擊 以色列進(jìn)入"前所未有緊急狀態(tài)"

頭條要聞

伊朗數(shù)小時內(nèi)或再襲擊 以色列進(jìn)入"前所未有緊急狀態(tài)"

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經(jīng)要聞

樓市權(quán)威發(fā)聲

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

家居
教育
數(shù)碼
健康
公開課

家居要聞

森林幾何 極簡灰調(diào)原木風(fēng)

教育要聞

分?jǐn)?shù)之外,孝道滿分:一場高考后的溫情禮贊

數(shù)碼要聞

達(dá)爾優(yōu)高校電競賽成都站12進(jìn)4晉級賽即將燃起!

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 精品久久久久久无码专区不卡| 水蜜桃精品一二三| 国产精品视频色拍拍| 99视频偷窥在线精品国自产拍| 成午夜精品一区二区三区| 婷婷五月亚洲综合图区| 国产女人和拘做受视频免费| 欧洲美女与动zooz| 日韩一区二区三区无码免费视频| 中国精学生妹品射精久久| 好爽…又高潮了免费毛片| 国产成人亚洲精品无码电影不卡| 国产无遮挡又黄又爽在线视频| 尤物精品国产第一福利网站| 亚洲成av人在线观看网站| 国产又爽又黄又无遮挡的激情视频| 亚洲精品乱码久久久久久日本麻豆| 男人边吃奶边做好爽视频| 天天躁日日躁狠狠躁退| 亚洲欧美日韩国产精品一区二区| 又粗又黄又猛又爽大片免费| 中文字幕av伊人av无码av| 4444亚洲人成无码网在线观看| 一本色道久久综合亚洲精品不卡| 一区二区伊人久久大杳蕉| 久久免费的精品国产v∧| 人妻无码全彩里番acg视频| 亚洲 自拍 欧美 小说 综合| 青青青国产免费线在| 国产亚洲欧美日韩精品一区二区| 日本熟妇厨房xxxxx乱| 免费无码午夜理论电影| 欧美啪啪| 日韩无码网站| 亚洲精品久久久久久av| 亚洲精品久久久久久下一站| 午夜精品久久久内射近拍高清| 亚洲成av人在线视| 成人精品一区二区三区在线观看| 在线精品亚洲一区二区三区| 樱花草在线社区www|