大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

<table id="c2k0q"><strong id="c2k0q"></strong></table>

<abbr id="c2k0q"></abbr>

<dfn id="c2k0q"><option id="c2k0q"></option></dfn>

<abbr id="c2k0q"></abbr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI自己給自己當網管，實現安全“頓悟時刻”，風險率直降9.6%

2025-06-13 17:03:41　來源: 量子位

北京舉報

0

分享至

SafeKey團隊投稿
量子位 | 公眾號 QbitAI

大型推理模型（LRMs）在解決復雜任務時展現出的強大能力令人驚嘆，但其背后隱藏的安全風險不容忽視。

盡管學術界已嘗試通過監督微調（SFT）有效地提升模型安全，但下圖的測試結果所示，監督微調在面對訓練數據領域外的層出不窮的“越獄”攻擊時，往往顯得捉襟見肘，泛化能力有限。

同時，之前的工作沒有對大型推理模型的安全思考做深入的分析，以進行針對性的提升。

來自加州大學圣克魯茲分校，加州大學伯克利分校，思科研究和耶魯大學的的研究團隊提出了創新的SafeKey框架，成功在不影響模型核心能力的前提下，顯著增強了其安全穩健性。

發現：大模型信息“越獄”的兩大核心

SafeKey團隊在探究模型為何會“越獄”成功時，獲得了兩大核心發現：

1.“關鍵句”現象(The “Key Sentence”)

如下圖所示，推理模型在回答問題時，普遍會先進行一段對用戶查詢的理解與重述。

而緊隨其后的第一個句子，往往直接決定了整個回答的“安全調性”。

研究團隊將其命名為“關鍵句”（Key Sentence）：一個安全的“頓悟時刻”（Aha-moment）能否在此時被觸發，是模型走向安全回答還是危險回答的分水嶺。

2.“沉睡的安全信號”(The Dormant Safety Signal)

另外，對于大量“越獄”成功的案例，模型在生成“關鍵句”之前，其對查詢的理解和復述已經明確暴露了查詢的惡意。

這意味著，模型內部的隱藏狀態在早期階段就已攜帶了強烈的安全特征信號。

但是在回答查詢的過程中，這個寶貴的安全信號卻陷入了“沉睡”，未能在后續生成“關鍵句”的過程中被充分利用，導致了最終的安全防線崩潰。

SafeKey：雙管齊下，喚醒模型的內在安全頓悟

基于上述發現，SafeKey框架應運而生——

它不再滿足于簡單的“對錯”教導，而是通過兩大創新優化目標，精準地強化模型在“關鍵句”生成時的“安全頓悟時刻”。

雙通路安全頭(Dual-Path Safety Head):提前放大安全信號

如下圖所示，為了強化模型內部的安全信號，研究團隊設計了“雙通路安全頭”。在訓練階段，它會并行地監督兩段關鍵內容的隱藏狀態：

a.“關鍵句”之前的所有內容。
b.模型對原始查詢的理解與復述過程。

這種設計通過監督預測頭對這兩個關鍵階段的隱藏狀態進行安全判別，迫使模型在生成“關鍵句”前放大隱藏狀態內的安全信號，為后續成功觸發“安全頓悟”做好了充分鋪墊。

查詢遮蔽建模(Query-Mask Modeling):強迫模型“聽自己的”

如下圖所示，為了促使模型在決策時更加依賴自己內在的安全判斷，而非被“越獄”指令牽著鼻子走，SafeKey團隊提出了“查詢遮蔽建?！?。

該任務會完全遮蔽掉原始的用戶輸入，要求模型僅憑自己剛剛生成的“理解與復述”內容，來續寫出安全的“關鍵句”。

這種設計強迫模型必須“相信”并“利用”自己剛剛形成的、已經攜帶了安全信號的內部理解，從而極大地增強了安全決策的自主性和穩健性。

測試：安全與能力的“雙贏”

SafeKey的有效性在實驗中得到了充分驗證：

安全性能顯著提升：實驗結果表明，SafeKey框架能夠顯著地提升模型的安全性，尤其是在面對訓練領域外的危險輸入和越獄提示的時候，能夠在三個不同大小的模型上降低9.6%的危險率。

有效維持核心能力：SafeKey完美地保持了模型原有的各項核心能力。在數學推理、代碼和通用語言理解等基準測試上，搭載SafeKey的模型甚至取得了比原始基線平均高0.8%的準確率。

模塊有效性驗證：消融實驗證明，“雙通路安全頭”和“查詢遮蔽建?！眱蓚€模塊均可獨立提升模型安全性。進一步實驗分析發現，SafeKey能夠提升模型在生成關鍵句的時候對自己的復述與理解的注意力。同時，雙通路安全頭的損失函數能讓模型學到更好的安全表征，從而使安全頭更容易學會正確的安全分類。

總的來說，SafeKey框架能夠應用在各種不同的大型推理模型上，在幾乎不影響模型能力的同時提升模型的安全性，并且需要較少的計算資源。

論文地址：https://arxiv.org/pdf/2505.16186
項目主頁：https://safekeylrm.github.io/
復現代碼：https://github.com/eric-ai-lab/SafeKey/
模型：https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

統一20+多智能體方法，MASLab震撼發布

機器之心Pro 2025-06-13 16:07:44
2 跟貼 2
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

AI智能體上線，營銷人下線？ | AI無悖論

虎嗅APP 2025-06-15 01:00:27
0 跟貼 0

逝去的親友被AI“復活”，能再與他們對話。專家慌了：太危險

英國那些事兒 2025-06-14 23:41:16
0 跟貼 0
機器人“滿場跑”！京東MALL北京二店開業劉強東“等比例復刻”能否帶火線下“618”？

每日經濟新聞 2025-06-14 18:55:38
5 跟貼 5

中國12年前的果斷決策，防住了今天的美國，徹底扭轉了南海大勢

侃侃世界之最 2025-06-13 14:49:57
0 跟貼 0

科學家提出動力學擴展定律，支持更長的文本生成

DeepTech深科技 2025-06-14 19:20:34
0 跟貼 0
在好奇也不能拿別人東西實驗

萌萌醬追劇 2025-06-14 17:38:34
1 跟貼 1

這些信號出現，說明抑郁正在 “退場”

心理咨詢師阿秋 2025-06-14 19:29:14
3 跟貼 3
學兩天半的按摩！非要拿我做實驗，你這是正骨吧？

毒舌講劇 2025-06-13 18:26:32
2 跟貼 2
杜立特空襲，一場改變日本戰略決策走向的事件

影帝俠 2025-06-13 19:53:55
0 跟貼 0
BIG 膽！研究生竟自稱「皇帝」，要求導師下跪合照？導師：你畢業照比論文有創新點

生物學霸 2025-06-14 17:14:51
0 跟貼 0
小網管真現實一點面子都不給我們

改進型Ye三號機 2025-06-13 07:50:43
1 跟貼 1
網管轉型記職場新機遇

網絡工程師成長日記 2025-06-14 17:51:36
0 跟貼 0
霹靂15E碎片散落印度，如此先進的裝備會有泄密的風險嗎？

飛趣 2025-06-11 13:22:18
0 跟貼 0
全網追的“扁擔女孩”，找到一份時薪12元的暑假工工作

瀟湘晨報 2025-06-14 08:07:31
9772 跟貼 9772
從嗅覺失靈到肢體僵硬：帕金森病的4個隱秘信號

霧螢舞流轉 2025-06-14 19:34:38
0 跟貼 0
當院長騎電驢摔傷住院醫護人員紛紛拍照

凌晨看看 2025-06-14 09:03:19
4629 跟貼 4629
江德福為了和安杰在一起冒著被開除的風險去求政委

小濤影視 2025-06-12 14:40:05
1 跟貼 1
谷歌視頻模型Veo3正在顛覆好萊塢：星球大戰風暴兵系列之訓練新兵

鏈聞科技 2025-06-13 11:14:00
3 跟貼 3
地球可能會在未來的五年里迎來致命高溫的風險！

未來宇宙w 2025-06-14 13:11:29
0 跟貼 0
模型飛機試飛，鏡頭一轉發現事不簡單，美女膽子太大了

說說搞笑說 2025-06-14 17:45:19
3 跟貼 3
陸軍與空軍基地選址差異：后勤與作戰需求如何影響決策(2)

甜心貓女 2025-06-13 16:42:18
0 跟貼 0
王雙全，已任浙江省領導

新京報政事兒 2025-06-14 16:56:44
8 跟貼 8
丟人??！百度流量只占10%！馬上要被Google反超了

機械狗 2025-06-14 10:30:30
1300 跟貼 1300
日本巡邏機抵近偵查遭殲-15實彈警告，中方揭露其安全風險根源

最新聲音 2025-06-13 18:29:09
0 跟貼 0
村民用滿是釘子的木板護住澆水管子小車停板前不敢走

凌晨看看 2025-06-14 14:29:46
1433 跟貼 1433
一個不答應就有一尸兩命的風險

蟲蟲看大劇 2025-06-14 08:15:40
1 跟貼 1
普京一聲令下，俄軍發動最大規模襲擊，為何不炸烏克蘭決策中心？

搜國天下 2025-06-12 14:03:27
0 跟貼 0
這車安全性不錯，發動機艙吸能變形潰縮，A柱往后幾乎完好！

口癖生活說 2025-06-14 08:52:49
0 跟貼 0
女子為了出片也是拼了，一時竟分不清是cos還是建模

快樂車生活1 2025-06-13 16:42:56
0 跟貼 0
浙江一婚席吃掉50萬元，結賬嫌太貴拒付款，餐具供應商：我的錢也沒給

極目新聞 2025-06-14 10:52:54
118 跟貼 118
有沒有不吃建模的打法？

長草的動漫解說 2025-06-12 11:17:24
4 跟貼 4
廣汽豐田2025科技日漢蘭達賽那未來PHEV高性能化造用戶喜愛的車

方向對了 2025-06-13 15:18:13
6 跟貼 6
小沈陽女兒沈佳潤孤身闖蕩韓國娛樂圈，機遇與風險并存

陌上吟歸雪a 2025-06-13 01:06:00
0 跟貼 0
中東戰云密布：美軍撤離行動背后的核博弈與戰爭風險

走過海棠 2025-06-13 04:53:56
0 跟貼 0
美國23日起將對鋼制家電加征關稅洗衣機冰箱在列

央視新聞客戶端 2025-06-13 07:29:48
2173 跟貼 2173
中超-海港2-2遭浙江絕平加布傳射萊昂納多弒舊主

網易體育 2025-06-14 17:38:43
1501 跟貼 1501
波音787首次墜毀！夢幻客機的安全性到底有多高？

翔說航天 2025-06-12 19:50:04
6 跟貼 6
趙勇的執教哲學：從質疑到認可，新人培養與決策的勇氣

精彩背后的故事 2025-06-13 05:41:40
4 跟貼 4

《醬園弄》路演票價大跌！楊冪趙麗穎宣傳不積極，靠章子怡扛票房

《醬園弄》路演票價大跌！楊冪趙麗穎宣傳不積極，靠章子怡扛票房

萌神木木

2025-06-14 16:12:42

資本力量太可怕！半個娛樂圈都在吹捧的labubu，被郭麒麟戳破真相

資本力量太可怕！半個娛樂圈都在吹捧的labubu，被郭麒麟戳破真相

趣文說娛

2025-06-12 13:46:39

上海這一夜：王子文臀比無敵了，靳東大佬氣場，劉詩詩太驚艷

上海這一夜：王子文臀比無敵了，靳東大佬氣場，劉詩詩太驚艷

八卦南風

2025-06-13 11:05:58

巴菲特認為，未來20年或50年后，日美將更強大，對中國卻保持謹慎

巴菲特認為，未來20年或50年后，日美將更強大，對中國卻保持謹慎

文辰國學

2025-06-09 10:37:56

豐田又來“搞雙胞胎”？這次玩得有點狠，大漢蘭達都要慌了

豐田又來“搞雙胞胎”？這次玩得有點狠，大漢蘭達都要慌了

橙心說車

2025-06-12 08:24:17

連續交易、大額封漲停、虛假報撤！知名“牛散”操縱多只股票股價被罰沒近7700萬元

連續交易、大額封漲停、虛假報撤！知名“牛散”操縱多只股票股價被罰沒近7700萬元

每日經濟新聞

2025-06-14 10:47:09

天呢！網傳最大的鐵飯碗要破裂，直接影響200萬人生計…

天呢！網傳最大的鐵飯碗要破裂，直接影響200萬人生計…

慧翔百科

2025-05-21 14:02:24

伊朗發射導彈“表演式”報復以色列，還有多少底牌？

伊朗發射導彈“表演式”報復以色列，還有多少底牌？

山河路口

2025-06-14 11:57:27

馬英九還沒啟程，民進黨大佬先到大陸，這一次，賴清德根本攔不住

馬英九還沒啟程，民進黨大佬先到大陸，這一次，賴清德根本攔不住

牛鍋巴小釩

2025-06-14 10:28:42

羅帥宇這小伙子，還是太相信法律了

羅帥宇這小伙子，還是太相信法律了

熊太行

2025-06-13 15:46:03

6月15日：這幾個生肖今日運勢爆棚，喜事連連，福運亨通！

6月15日：這幾個生肖今日運勢爆棚，喜事連連，福運亨通！

素然追光

2025-06-15 00:20:42

購買700架第五代隱形戰斗機儲備數百萬枚大口徑炮彈：全面備戰！

購買700架第五代隱形戰斗機儲備數百萬枚大口徑炮彈：全面備戰！

聚峰軍評

2025-06-10 10:17:44

湖南聯合調查組發布關于“羅某宇墜樓事件”的情況通報：認定其系跳樓自殺死亡，排除刑事案件

湖南聯合調查組發布關于“羅某宇墜樓事件”的情況通報：認定其系跳樓自殺死亡，排除刑事案件

每日經濟新聞

2025-06-13 22:56:39

特朗普突然打出一張“王牌”，下令拒絕對華出口？比關稅更危險！

特朗普突然打出一張“王牌”，下令拒絕對華出口？比關稅更危險！

阿筀田間生活

2025-06-14 03:44:10

巴基斯坦戰勝印度的后遺癥:美國給400億，俄國給鋼廠，中國給殲35

巴基斯坦戰勝印度的后遺癥:美國給400億，俄國給鋼廠，中國給殲35

泠泠說史

2025-06-10 10:42:24

DeepSeek：未來10年，中國壓力最大的8個職業，中小學教師非首位

DeepSeek：未來10年，中國壓力最大的8個職業，中小學教師非首位

市井覓食記

2025-02-26 00:20:55

絕對不買新能源車的那批人，到底在堅守什么？

絕對不買新能源車的那批人，到底在堅守什么？

少數派報告Report

2025-06-13 22:44:55

吉雪萍拍全家福，富豪老公罕見露面，三個兒子都隨媽，長相帥氣

吉雪萍拍全家福，富豪老公罕見露面，三個兒子都隨媽，長相帥氣

180視角

2025-06-14 06:38:54

范冰冰，裙開叉開到大腿根，領口深v，饅頭真白還大

范冰冰，裙開叉開到大腿根，領口深v，饅頭真白還大

說真話的小陳

2025-06-13 09:52:49

低估了“蒸荔枝”排寒的威力，吃了幾次，舒服多了！

低估了“蒸荔枝”排寒的威力，吃了幾次，舒服多了！

房產衫哥

2025-06-12 05:35:18

追蹤人工智能動態

10666文章數 176166關注度

往期回顧全部

科技要聞

一輛新車比特斯拉FSD都便宜，全行業陪葬？

頭條要聞

以防長威脅哈梅內伊：若繼續發射導彈德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊：若繼續發射導彈德黑蘭將成火海

體育要聞

約戰天王山，步行者G4輸在了哪？

娛樂要聞

小S迎47歲生日，首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

親子

時尚

教育

公開課

本地新聞

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

親子要聞

給18個月幼兒灌酒，無論出于什么心態都不該寬恕｜新京報快評

中年女人少穿黑色和灰色，年輕色穿出減齡效果，看起來嫩十歲

教育要聞

速看！北京中學招聘教師啦

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：深爱婷婷国产在线精品av| 久久久噜噜噜久久久精品| 日韩人妻无码一区二区三区久久| 亚洲字幕av一区二区三区四区| 3344永久在线观看视频| 2020久久超碰国产精品最新| 亚洲色大网站www永久网站| 日韩国产一区二区三区四区五区| 亚洲色精品vr一区区三区| 久久综合香蕉国产蜜臀av| 伊人久久综合色| 日本精品一区二区三区在线视频| 亚洲国产成人久久综合人| 欧美熟老熟妇色xxxxx| 十八禁视频网站| 精品久久久久久亚洲精品| 亚洲人成网站观看在线播放| 亚洲欧美另类在线| 欧洲精品免费一区二区三区| 国产精品无码一区二区桃花视频| 狠狠色丁香婷婷综合| 中文字幕人妻互换av久久| 久久综合久色欧美综合狠狠| 99精品人妻无码专区在线视频区| 日韩精品东京热无码视频| 4hu四虎永久免费地址ww416| 四虎国产精品永久地址49| 国产成人免费一区二区三区| 国产手机在线亚洲精品观看| 97久久超碰中文字幕| 日产精品久久久久久久性色| 中文字幕无码中文字幕有码a| 精品欧美一区二区在线观看| 污污污www精品国产网站| 日本中文一区二区三区亚洲| 亚洲精品99久久久久中文字幕| 亚洲精品精华液一区| 成人亚洲精品777777| 日韩人妻高清精品专区| 午夜内射中出视频| 玖玖资源站亚洲最大成人网站|

<noscript id="wcqwq"><delect id="wcqwq"></delect></noscript>

<strike id="wcqwq"><wbr id="wcqwq"></wbr></strike>

<tbody id="wcqwq"><center id="wcqwq"></center></tbody>