SafeKey團隊 投稿
量子位 | 公眾號 QbitAI
大型推理模型(LRMs)在解決復雜任務時展現出的強大能力令人驚嘆,但其背后隱藏的安全風險不容忽視。
盡管學術界已嘗試通過監督微調(SFT)有效地提升模型安全,但下圖的測試結果所示,監督微調在面對訓練數據領域外的層出不窮的“越獄”攻擊時,往往顯得捉襟見肘,泛化能力有限。
同時,之前的工作沒有對大型推理模型的安全思考做深入的分析,以進行針對性的提升。
來自加州大學圣克魯茲分校,加州大學伯克利分校,思科研究和耶魯大學的的研究團隊提出了創新的SafeKey框架,成功在不影響模型核心能力的前提下,顯著增強了其安全穩健性。
發現:大模型信息“越獄”的兩大核心
SafeKey團隊在探究模型為何會“越獄”成功時,獲得了兩大核心發現:
1.“關鍵句”現象(The “Key Sentence”)
如下圖所示,推理模型在回答問題時,普遍會先進行一段對用戶查詢的理解與重述。
而緊隨其后的第一個句子,往往直接決定了整個回答的“安全調性”。
研究團隊將其命名為“關鍵句”(Key Sentence):一個安全的“頓悟時刻”(Aha-moment)能否在此時被觸發,是模型走向安全回答還是危險回答的分水嶺。
2.“沉睡的安全信號”(The Dormant Safety Signal)
另外,對于大量“越獄”成功的案例,模型在生成“關鍵句”之前,其對查詢的理解和復述已經明確暴露了查詢的惡意。
這意味著,模型內部的隱藏狀態在早期階段就已攜帶了強烈的安全特征信號。
但是在回答查詢的過程中,這個寶貴的安全信號卻陷入了“沉睡”,未能在后續生成“關鍵句”的過程中被充分利用,導致了最終的安全防線崩潰。
SafeKey:雙管齊下,喚醒模型的內在安全頓悟
基于上述發現,SafeKey框架應運而生——
它不再滿足于簡單的“對錯”教導,而是通過兩大創新優化目標,精準地強化模型在“關鍵句”生成時的“安全頓悟時刻”。
雙通路安全頭(Dual-Path Safety Head):提前放大安全信號
如下圖所示,為了強化模型內部的安全信號,研究團隊設計了“雙通路安全頭”。在訓練階段,它會并行地監督兩段關鍵內容的隱藏狀態:
- a.“關鍵句”之前的所有內容。
- b.模型對原始查詢的理解與復述過程。
這種設計通過監督預測頭對這兩個關鍵階段的隱藏狀態進行安全判別,迫使模型在生成“關鍵句”前放大隱藏狀態內的安全信號,為后續成功觸發“安全頓悟”做好了充分鋪墊。
查詢遮蔽建模(Query-Mask Modeling):強迫模型“聽自己的”
如下圖所示,為了促使模型在決策時更加依賴自己內在的安全判斷,而非被“越獄”指令牽著鼻子走,SafeKey團隊提出了“查詢遮蔽建?!?。
該任務會完全遮蔽掉原始的用戶輸入,要求模型僅憑自己剛剛生成的“理解與復述”內容,來續寫出安全的“關鍵句”。
這種設計強迫模型必須“相信”并“利用”自己剛剛形成的、已經攜帶了安全信號的內部理解,從而極大地增強了安全決策的自主性和穩健性。
測試:安全與能力的“雙贏”
SafeKey的有效性在實驗中得到了充分驗證:
安全性能顯著提升:實驗結果表明,SafeKey框架能夠顯著地提升模型的安全性,尤其是在面對訓練領域外的危險輸入和越獄提示的時候,能夠在三個不同大小的模型上降低9.6%的危險率。
有效維持核心能力:SafeKey完美地保持了模型原有的各項核心能力。在數學推理、代碼和通用語言理解等基準測試上,搭載SafeKey的模型甚至取得了比原始基線平均高0.8%的準確率。
模塊有效性驗證:消融實驗證明,“雙通路安全頭”和“查詢遮蔽建?!眱蓚€模塊均可獨立提升模型安全性。進一步實驗分析發現,SafeKey能夠提升模型在生成關鍵句的時候對自己的復述與理解的注意力。同時,雙通路安全頭的損失函數能讓模型學到更好的安全表征,從而使安全頭更容易學會正確的安全分類。
總的來說,SafeKey框架能夠應用在各種不同的大型推理模型上,在幾乎不影響模型能力的同時提升模型的安全性,并且需要較少的計算資源。
論文地址:https://arxiv.org/pdf/2505.16186
項目主頁:https://safekeylrm.github.io/
復現代碼:https://github.com/eric-ai-lab/SafeKey/
模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.