大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI自己給自己當(dāng)網(wǎng)管,實(shí)現(xiàn)安全“頓悟時(shí)刻”,風(fēng)險(xiǎn)率直降9.6%

0
分享至

SafeKey團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

大型推理模型(LRMs)在解決復(fù)雜任務(wù)時(shí)展現(xiàn)出的強(qiáng)大能力令人驚嘆,但其背后隱藏的安全風(fēng)險(xiǎn)不容忽視。

盡管學(xué)術(shù)界已嘗試通過(guò)監(jiān)督微調(diào)(SFT)有效地提升模型安全,但下圖的測(cè)試結(jié)果所示,監(jiān)督微調(diào)在面對(duì)訓(xùn)練數(shù)據(jù)領(lǐng)域外的層出不窮的“越獄”攻擊時(shí),往往顯得捉襟見(jiàn)肘,泛化能力有限。

同時(shí),之前的工作沒(méi)有對(duì)大型推理模型的安全思考做深入的分析,以進(jìn)行針對(duì)性的提升。



來(lái)自加州大學(xué)圣克魯茲分校,加州大學(xué)伯克利分校,思科研究和耶魯大學(xué)的的研究團(tuán)隊(duì)提出了創(chuàng)新的SafeKey框架,成功在不影響模型核心能力的前提下,顯著增強(qiáng)了其安全穩(wěn)健性。



發(fā)現(xiàn):大模型信息“越獄”的兩大核心

SafeKey團(tuán)隊(duì)在探究模型為何會(huì)“越獄”成功時(shí),獲得了兩大核心發(fā)現(xiàn):

1.“關(guān)鍵句”現(xiàn)象(The “Key Sentence”)

如下圖所示,推理模型在回答問(wèn)題時(shí),普遍會(huì)先進(jìn)行一段對(duì)用戶查詢的理解與重述。

而緊隨其后的第一個(gè)句子,往往直接決定了整個(gè)回答的“安全調(diào)性”。

研究團(tuán)隊(duì)將其命名為“關(guān)鍵句”(Key Sentence):一個(gè)安全的“頓悟時(shí)刻”(Aha-moment)能否在此時(shí)被觸發(fā),是模型走向安全回答還是危險(xiǎn)回答的分水嶺。



2.“沉睡的安全信號(hào)”(The Dormant Safety Signal)

另外,對(duì)于大量“越獄”成功的案例,模型在生成“關(guān)鍵句”之前,其對(duì)查詢的理解和復(fù)述已經(jīng)明確暴露了查詢的惡意

這意味著,模型內(nèi)部的隱藏狀態(tài)在早期階段就已攜帶了強(qiáng)烈的安全特征信號(hào)。

但是在回答查詢的過(guò)程中,這個(gè)寶貴的安全信號(hào)卻陷入了“沉睡”,未能在后續(xù)生成“關(guān)鍵句”的過(guò)程中被充分利用,導(dǎo)致了最終的安全防線崩潰。

SafeKey:雙管齊下,喚醒模型的內(nèi)在安全頓悟

基于上述發(fā)現(xiàn),SafeKey框架應(yīng)運(yùn)而生——

它不再滿足于簡(jiǎn)單的“對(duì)錯(cuò)”教導(dǎo),而是通過(guò)兩大創(chuàng)新優(yōu)化目標(biāo),精準(zhǔn)地強(qiáng)化模型在“關(guān)鍵句”生成時(shí)的“安全頓悟時(shí)刻”。

雙通路安全頭(Dual-Path Safety Head):提前放大安全信號(hào)

如下圖所示,為了強(qiáng)化模型內(nèi)部的安全信號(hào),研究團(tuán)隊(duì)設(shè)計(jì)了“雙通路安全頭”。在訓(xùn)練階段,它會(huì)并行地監(jiān)督兩段關(guān)鍵內(nèi)容的隱藏狀態(tài):



  • a.“關(guān)鍵句”之前的所有內(nèi)容。
  • b.模型對(duì)原始查詢的理解與復(fù)述過(guò)程。

這種設(shè)計(jì)通過(guò)監(jiān)督預(yù)測(cè)頭對(duì)這兩個(gè)關(guān)鍵階段的隱藏狀態(tài)進(jìn)行安全判別,迫使模型在生成“關(guān)鍵句”前放大隱藏狀態(tài)內(nèi)的安全信號(hào),為后續(xù)成功觸發(fā)“安全頓悟”做好了充分鋪墊。

查詢遮蔽建模(Query-Mask Modeling):強(qiáng)迫模型“聽(tīng)自己的”

如下圖所示,為了促使模型在決策時(shí)更加依賴自己內(nèi)在的安全判斷,而非被“越獄”指令牽著鼻子走,SafeKey團(tuán)隊(duì)提出了“查詢遮蔽建模”。



該任務(wù)會(huì)完全遮蔽掉原始的用戶輸入,要求模型僅憑自己剛剛生成的“理解與復(fù)述”內(nèi)容,來(lái)續(xù)寫(xiě)出安全的“關(guān)鍵句”

這種設(shè)計(jì)強(qiáng)迫模型必須“相信”并“利用”自己剛剛形成的、已經(jīng)攜帶了安全信號(hào)的內(nèi)部理解,從而極大地增強(qiáng)了安全決策的自主性和穩(wěn)健性。

測(cè)試:安全與能力的“雙贏”



SafeKey的有效性在實(shí)驗(yàn)中得到了充分驗(yàn)證:

安全性能顯著提升:實(shí)驗(yàn)結(jié)果表明,SafeKey框架能夠顯著地提升模型的安全性,尤其是在面對(duì)訓(xùn)練領(lǐng)域外的危險(xiǎn)輸入和越獄提示的時(shí)候,能夠在三個(gè)不同大小的模型上降低9.6%的危險(xiǎn)率

有效維持核心能力:SafeKey完美地保持了模型原有的各項(xiàng)核心能力。在數(shù)學(xué)推理、代碼和通用語(yǔ)言理解等基準(zhǔn)測(cè)試上,搭載SafeKey的模型甚至取得了比原始基線平均高0.8%的準(zhǔn)確率



模塊有效性驗(yàn)證:消融實(shí)驗(yàn)證明,“雙通路安全頭”和“查詢遮蔽建模”兩個(gè)模塊均可獨(dú)立提升模型安全性。進(jìn)一步實(shí)驗(yàn)分析發(fā)現(xiàn),SafeKey能夠提升模型在生成關(guān)鍵句的時(shí)候?qū)ψ约旱膹?fù)述與理解的注意力。同時(shí),雙通路安全頭的損失函數(shù)能讓模型學(xué)到更好的安全表征,從而使安全頭更容易學(xué)會(huì)正確的安全分類。

總的來(lái)說(shuō),SafeKey框架能夠應(yīng)用在各種不同的大型推理模型上,在幾乎不影響模型能力的同時(shí)提升模型的安全性,并且需要較少的計(jì)算資源。

論文地址:https://arxiv.org/pdf/2505.16186
項(xiàng)目主頁(yè):https://safekeylrm.github.io/
復(fù)現(xiàn)代碼:https://github.com/eric-ai-lab/SafeKey/
模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海女子不上班,但卻住豪宅開(kāi)豪車(chē),警察:她家現(xiàn)金堆成山了

上海女子不上班,但卻住豪宅開(kāi)豪車(chē),警察:她家現(xiàn)金堆成山了

懸案解密檔案
2025-05-09 18:00:29
中華人民共和國(guó)戶口居民身份證管理工作規(guī)范(試行)| 公通字〔2021〕12號(hào)

中華人民共和國(guó)戶口居民身份證管理工作規(guī)范(試行)| 公通字〔2021〕12號(hào)

創(chuàng)作者_(dá)cLg1
2025-06-13 10:18:38
美國(guó)閱兵像散步,特朗普閱兵背后的鬧劇與與戰(zhàn)場(chǎng)上的正劇

美國(guó)閱兵像散步,特朗普閱兵背后的鬧劇與與戰(zhàn)場(chǎng)上的正劇

雨秋閑話
2025-06-14 17:46:04
湖人隊(duì)勒布朗·詹姆斯在社交媒體上發(fā)布神秘帖子,暗示即將退役

湖人隊(duì)勒布朗·詹姆斯在社交媒體上發(fā)布神秘帖子,暗示即將退役

好火子
2025-06-15 02:09:38
Shams:火箭須30號(hào)前決定是否執(zhí)行范喬丹球隊(duì)選項(xiàng) 雙方都有意重聚

Shams:火箭須30號(hào)前決定是否執(zhí)行范喬丹球隊(duì)選項(xiàng) 雙方都有意重聚

直播吧
2025-06-15 03:08:08
汪小菲請(qǐng)館長(zhǎng)吃飯,火出圈!沒(méi)提統(tǒng)一,卻能句句直戳兩岸網(wǎng)友心窩

汪小菲請(qǐng)館長(zhǎng)吃飯,火出圈!沒(méi)提統(tǒng)一,卻能句句直戳兩岸網(wǎng)友心窩

溫讀史
2025-06-14 09:49:13
首席專家滕云田,被查

首席專家滕云田,被查

新京報(bào)
2025-06-14 20:09:02
艾滋病感染人數(shù)新增130萬(wàn)!攜帶者難辨,遇到“3種人”建議遠(yuǎn)離

艾滋病感染人數(shù)新增130萬(wàn)!攜帶者難辨,遇到“3種人”建議遠(yuǎn)離

39健康網(wǎng)
2025-06-13 18:30:45
“惡魔醫(yī)生”劉翔峰,摘病人器官販賣(mài),將人命當(dāng)提款機(jī),結(jié)局可笑

“惡魔醫(yī)生”劉翔峰,摘病人器官販賣(mài),將人命當(dāng)提款機(jī),結(jié)局可笑

體制內(nèi)老陳
2025-06-12 12:40:56
閱兵槍響那一刻,全美1800場(chǎng)抗議同時(shí)爆發(fā):特朗普79歲生日成國(guó)家裂痕放大日

閱兵槍響那一刻,全美1800場(chǎng)抗議同時(shí)爆發(fā):特朗普79歲生日成國(guó)家裂痕放大日

前沿天地
2025-06-14 21:15:49
因?yàn)橛卸荆@種植物已經(jīng)退出各大食堂,但卻有很多人懷念

因?yàn)橛卸荆@種植物已經(jīng)退出各大食堂,但卻有很多人懷念

文史顏如玉
2025-06-14 17:55:03
公司稱正核實(shí)“多所高校禁用羅馬仕兩萬(wàn)毫安充電寶” 專家:預(yù)防手機(jī)沒(méi)電選中等體積產(chǎn)品即可

公司稱正核實(shí)“多所高校禁用羅馬仕兩萬(wàn)毫安充電寶” 專家:預(yù)防手機(jī)沒(méi)電選中等體積產(chǎn)品即可

紅星新聞
2025-06-14 15:13:11
中國(guó)一姐惜敗!鄭欽文爆冷出局,無(wú)緣決賽,但世界排名依舊創(chuàng)新高

中國(guó)一姐惜敗!鄭欽文爆冷出局,無(wú)緣決賽,但世界排名依舊創(chuàng)新高

小李子愛(ài)體育
2025-06-15 02:07:21
方媛承認(rèn)懷三胎,每天早起為女兒做早餐,親自接送孩子,太忙了

方媛承認(rèn)懷三胎,每天早起為女兒做早餐,親自接送孩子,太忙了

娛圈小愚
2025-06-14 10:35:51
票房從19.41億跌到532萬(wàn),我感慨:這塊喜劇片金字招牌算砸了!

票房從19.41億跌到532萬(wàn),我感慨:這塊喜劇片金字招牌算砸了!

靠譜電影君
2025-06-14 22:43:05
石破茂譴責(zé)以色列!

石破茂譴責(zé)以色列!

環(huán)球時(shí)報(bào)國(guó)際
2025-06-13 23:59:38
工信部等八部門(mén)公開(kāi)征求意見(jiàn) 向境外提供5類汽車(chē)數(shù)據(jù)應(yīng)申報(bào)安全評(píng)估

工信部等八部門(mén)公開(kāi)征求意見(jiàn) 向境外提供5類汽車(chē)數(shù)據(jù)應(yīng)申報(bào)安全評(píng)估

每日經(jīng)濟(jì)新聞
2025-06-13 19:22:13
浙大學(xué)生想去廣東發(fā)展,希望年薪15萬(wàn),網(wǎng)友群嘲:不要太高估自己

浙大學(xué)生想去廣東發(fā)展,希望年薪15萬(wàn),網(wǎng)友群嘲:不要太高估自己

青眼財(cái)經(jīng)
2025-06-12 14:01:04
為什么伊朗被以色列打得這么慘,大家卻都不同情伊朗?

為什么伊朗被以色列打得這么慘,大家卻都不同情伊朗?

戰(zhàn)爭(zhēng)史
2025-06-14 11:15:21
華為鴻蒙HarmonyOS 6.0首次亮相,全方位炸場(chǎng)啊!

華為鴻蒙HarmonyOS 6.0首次亮相,全方位炸場(chǎng)啊!

科技堡壘
2025-06-14 11:03:05
2025-06-15 04:20:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10666文章數(shù) 176166關(guān)注度
往期回顧 全部

科技要聞

一輛新車(chē)比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長(zhǎng)威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

頭條要聞

以防長(zhǎng)威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂(lè)要聞

小S迎47歲生日,首個(gè)生日沒(méi)大S陪伴

財(cái)經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車(chē)要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤(pán)大棋!

態(tài)度原創(chuàng)

時(shí)尚
游戲
本地
房產(chǎn)
軍事航空

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來(lái)嫩十歲

死掉的“賽博初戀”,有誰(shuí)能夠打贏復(fù)活賽?

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場(chǎng)小技巧

房產(chǎn)要聞

又一城購(gòu)房補(bǔ)貼!買(mǎi)房就發(fā)錢(qián),正在海南樓市瘋狂擴(kuò)散!

軍事要聞

伊媒:以色列國(guó)防部大樓被伊朗導(dǎo)彈擊中

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品午夜无码av天美传媒| 日本边添边摸边做边爱| 337p日本欧洲亚洲大胆在线| 中文无码一区二区三区在线观看| 狠狠色综合久久丁香婷婷| 国产免费无码av片在线观看不卡| 天天爽夜夜爽人人爽曰| 精品国产一区二区三区四区vr| 成人性做爰aaa片免费看曹查理| 久碰人妻人妻人妻人妻人掠| 自偷自拍亚洲综合精品| 日产无人区一线二线三线新版| 国产av激情无码久久天堂| 日本免费一区二区三区高清视频| 国产成人精品亚洲日本在线观看| 色欲色香天天天综合网www| 久久精品一区二区免费播放| 国产人妻无码一区二区三区18| 国产精品天堂avav在线| 欧美成人午夜精品久久久| 国产激情久久久久久熟女老人| 精品伊人久久久大香线蕉下载| 99精品日本二区留学生| 精品水蜜桃久久久久久久| 成 人 黄 色 免费 网站无毒| 亚洲人成电影网站色| 精品无码国产污污污免费网站国产| 久久婷婷成人综合色| 日韩高清亚洲日韩精品一区| 香蕉久久人人97超碰caoproen| 影音先锋人妻啪啪av资源网站| 国产成人无码免费看视频软件| 亚洲超碰无码色中文字幕97| 少妇极品熟妇人妻200片| 综合自拍亚洲综合图区欧美| 狠狠躁天天躁夜夜躁婷婷| 真实国产乱啪福利露脸| 国色精品无码专区在线不卡| 少妇被又大又粗又爽毛片久久黑人| 欧美成人看片一区二区三区尤物| 国产成人av片在线观看|