大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

AI自己給自己當網管,實現安全“頓悟時刻”,風險率直降9.6%

0
分享至

SafeKey團隊 投稿
量子位 | 公眾號 QbitAI

大型推理模型(LRMs)在解決復雜任務時展現出的強大能力令人驚嘆,但其背后隱藏的安全風險不容忽視。

盡管學術界已嘗試通過監督微調(SFT)有效地提升模型安全,但下圖的測試結果所示,監督微調在面對訓練數據領域外的層出不窮的“越獄”攻擊時,往往顯得捉襟見肘,泛化能力有限。

同時,之前的工作沒有對大型推理模型的安全思考做深入的分析,以進行針對性的提升。



來自加州大學圣克魯茲分校,加州大學伯克利分校,思科研究和耶魯大學的的研究團隊提出了創新的SafeKey框架,成功在不影響模型核心能力的前提下,顯著增強了其安全穩健性。



發現:大模型信息“越獄”的兩大核心

SafeKey團隊在探究模型為何會“越獄”成功時,獲得了兩大核心發現:

1.“關鍵句”現象(The “Key Sentence”)

如下圖所示,推理模型在回答問題時,普遍會先進行一段對用戶查詢的理解與重述。

而緊隨其后的第一個句子,往往直接決定了整個回答的“安全調性”。

研究團隊將其命名為“關鍵句”(Key Sentence):一個安全的“頓悟時刻”(Aha-moment)能否在此時被觸發,是模型走向安全回答還是危險回答的分水嶺。



2.“沉睡的安全信號”(The Dormant Safety Signal)

另外,對于大量“越獄”成功的案例,模型在生成“關鍵句”之前,其對查詢的理解和復述已經明確暴露了查詢的惡意。

這意味著,模型內部的隱藏狀態在早期階段就已攜帶了強烈的安全特征信號。

但是在回答查詢的過程中,這個寶貴的安全信號卻陷入了“沉睡”,未能在后續生成“關鍵句”的過程中被充分利用,導致了最終的安全防線崩潰。

SafeKey:雙管齊下,喚醒模型的內在安全頓悟

基于上述發現,SafeKey框架應運而生——

它不再滿足于簡單的“對錯”教導,而是通過兩大創新優化目標,精準地強化模型在“關鍵句”生成時的“安全頓悟時刻”。

雙通路安全頭(Dual-Path Safety Head):提前放大安全信號

如下圖所示,為了強化模型內部的安全信號,研究團隊設計了“雙通路安全頭”。在訓練階段,它會并行地監督兩段關鍵內容的隱藏狀態:



  • a.“關鍵句”之前的所有內容。
  • b.模型對原始查詢的理解與復述過程。

這種設計通過監督預測頭對這兩個關鍵階段的隱藏狀態進行安全判別,迫使模型在生成“關鍵句”前放大隱藏狀態內的安全信號,為后續成功觸發“安全頓悟”做好了充分鋪墊。

查詢遮蔽建模(Query-Mask Modeling):強迫模型“聽自己的”

如下圖所示,為了促使模型在決策時更加依賴自己內在的安全判斷,而非被“越獄”指令牽著鼻子走,SafeKey團隊提出了“查詢遮蔽建?!?。



該任務會完全遮蔽掉原始的用戶輸入,要求模型僅憑自己剛剛生成的“理解與復述”內容,來續寫出安全的“關鍵句”。

這種設計強迫模型必須“相信”并“利用”自己剛剛形成的、已經攜帶了安全信號的內部理解,從而極大地增強了安全決策的自主性和穩健性。

測試:安全與能力的“雙贏”



SafeKey的有效性在實驗中得到了充分驗證:

安全性能顯著提升:實驗結果表明,SafeKey框架能夠顯著地提升模型的安全性,尤其是在面對訓練領域外的危險輸入和越獄提示的時候,能夠在三個不同大小的模型上降低9.6%的危險率

有效維持核心能力:SafeKey完美地保持了模型原有的各項核心能力。在數學推理、代碼和通用語言理解等基準測試上,搭載SafeKey的模型甚至取得了比原始基線平均高0.8%的準確率



模塊有效性驗證:消融實驗證明,“雙通路安全頭”和“查詢遮蔽建?!眱蓚€模塊均可獨立提升模型安全性。進一步實驗分析發現,SafeKey能夠提升模型在生成關鍵句的時候對自己的復述與理解的注意力。同時,雙通路安全頭的損失函數能讓模型學到更好的安全表征,從而使安全頭更容易學會正確的安全分類。

總的來說,SafeKey框架能夠應用在各種不同的大型推理模型上,在幾乎不影響模型能力的同時提升模型的安全性,并且需要較少的計算資源。

論文地址:https://arxiv.org/pdf/2505.16186
項目主頁:https://safekeylrm.github.io/
復現代碼:https://github.com/eric-ai-lab/SafeKey/
模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《醬園弄》路演票價大跌!楊冪趙麗穎宣傳不積極,靠章子怡扛票房

《醬園弄》路演票價大跌!楊冪趙麗穎宣傳不積極,靠章子怡扛票房

萌神木木
2025-06-14 16:12:42
資本力量太可怕!半個娛樂圈都在吹捧的labubu,被郭麒麟戳破真相

資本力量太可怕!半個娛樂圈都在吹捧的labubu,被郭麒麟戳破真相

趣文說娛
2025-06-12 13:46:39
上海這一夜:王子文臀比無敵了,靳東大佬氣場,劉詩詩太驚艷

上海這一夜:王子文臀比無敵了,靳東大佬氣場,劉詩詩太驚艷

八卦南風
2025-06-13 11:05:58
巴菲特認為,未來20年或50年后,日美將更強大,對中國卻保持謹慎

巴菲特認為,未來20年或50年后,日美將更強大,對中國卻保持謹慎

文辰國學
2025-06-09 10:37:56
豐田又來“搞雙胞胎”?這次玩得有點狠,大漢蘭達都要慌了

豐田又來“搞雙胞胎”?這次玩得有點狠,大漢蘭達都要慌了

橙心說車
2025-06-12 08:24:17
連續交易、大額封漲停、虛假報撤!知名“牛散”操縱多只股票股價被罰沒近7700萬元

連續交易、大額封漲停、虛假報撤!知名“牛散”操縱多只股票股價被罰沒近7700萬元

每日經濟新聞
2025-06-14 10:47:09
天呢!網傳最大的鐵飯碗要破裂,直接影響200萬人生計…

天呢!網傳最大的鐵飯碗要破裂,直接影響200萬人生計…

慧翔百科
2025-05-21 14:02:24
伊朗發射導彈“表演式”報復以色列,還有多少底牌?

伊朗發射導彈“表演式”報復以色列,還有多少底牌?

山河路口
2025-06-14 11:57:27
馬英九還沒啟程,民進黨大佬先到大陸,這一次,賴清德根本攔不住

馬英九還沒啟程,民進黨大佬先到大陸,這一次,賴清德根本攔不住

牛鍋巴小釩
2025-06-14 10:28:42
羅帥宇這小伙子,還是太相信法律了

羅帥宇這小伙子,還是太相信法律了

熊太行
2025-06-13 15:46:03
6月15日:這幾個生肖今日運勢爆棚,喜事連連,福運亨通!

6月15日:這幾個生肖今日運勢爆棚,喜事連連,福運亨通!

素然追光
2025-06-15 00:20:42
購買700架第五代隱形戰斗機 儲備數百萬枚大口徑炮彈:全面備戰!

購買700架第五代隱形戰斗機 儲備數百萬枚大口徑炮彈:全面備戰!

聚峰軍評
2025-06-10 10:17:44
湖南聯合調查組發布關于“羅某宇墜樓事件”的情況通報:認定其系跳樓自殺死亡,排除刑事案件

湖南聯合調查組發布關于“羅某宇墜樓事件”的情況通報:認定其系跳樓自殺死亡,排除刑事案件

每日經濟新聞
2025-06-13 22:56:39
特朗普突然打出一張“王牌”,下令拒絕對華出口?比關稅更危險!

特朗普突然打出一張“王牌”,下令拒絕對華出口?比關稅更危險!

阿筀田間生活
2025-06-14 03:44:10
巴基斯坦戰勝印度的后遺癥:美國給400億,俄國給鋼廠,中國給殲35

巴基斯坦戰勝印度的后遺癥:美國給400億,俄國給鋼廠,中國給殲35

泠泠說史
2025-06-10 10:42:24
DeepSeek:未來10年,中國壓力最大的8個職業,中小學教師非首位

DeepSeek:未來10年,中國壓力最大的8個職業,中小學教師非首位

市井覓食記
2025-02-26 00:20:55
絕對不買新能源車的那批人,到底在堅守什么?

絕對不買新能源車的那批人,到底在堅守什么?

少數派報告Report
2025-06-13 22:44:55
吉雪萍拍全家福,富豪老公罕見露面,三個兒子都隨媽,長相帥氣

吉雪萍拍全家福,富豪老公罕見露面,三個兒子都隨媽,長相帥氣

180視角
2025-06-14 06:38:54
范冰冰,裙開叉開到大腿根,領口深v,饅頭真白還大

范冰冰,裙開叉開到大腿根,領口深v,饅頭真白還大

說真話的小陳
2025-06-13 09:52:49
低估了“蒸荔枝”排寒的威力,吃了幾次,舒服多了!

低估了“蒸荔枝”排寒的威力,吃了幾次,舒服多了!

房產衫哥
2025-06-12 05:35:18
2025-06-15 02:04:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
親子
時尚
教育
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

親子要聞

給18個月幼兒灌酒,無論出于什么心態都不該寬恕|新京報快評

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

教育要聞

速看!北京中學招聘教師啦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 深爱婷婷国产在线精品av| 久久久噜噜噜久久久精品| 日韩人妻无码一区二区三区久久| 亚洲字幕av一区二区三区四区| 3344永久在线观看视频| 2020久久超碰国产精品最新| 亚洲色大网站www永久网站| 日韩国产一区二区三区四区五区| 亚洲色精品vr一区区三区| 久久综合香蕉国产蜜臀av| 伊人久久综合色| 日本精品一区二区三区在线视频| 亚洲国产成人久久综合人| 欧美熟老熟妇色xxxxx| 十八禁视频网站| 精品久久久久久亚洲精品| 亚洲人成网站观看在线播放| 亚洲 欧美 另类 在线| 欧洲精品免费一区二区三区| 国产精品无码一区二区桃花视频| 狠狠色丁香婷婷综合| 中文字幕人妻互换av久久| 久久综合久色欧美综合狠狠| 99精品人妻无码专区在线视频区| 日韩精品东京热无码视频| 4hu四虎永久免费地址ww416| 四虎国产精品永久地址49| 国产成人免费一区二区三区| 国产手机在线亚洲精品观看| 97久久超碰中文字幕| 日产精品久久久久久久性色| 中文字幕无码中文字幕有码a| 精品欧美一区二区在线观看| 污污污www精品国产网站| 日本中文一区二区三区亚洲| 亚洲精品99久久久久中文字幕| 亚洲精品精华液一区| 成人亚洲精品777777| 日韩人妻高清精品专区| 午夜内射中出视频| 玖玖资源站亚洲最大成人网站|