BSA團(tuán)隊(duì) 投稿
量子位 | 公眾號 QbitAI
讓推理模型針對風(fēng)險(xiǎn)指令生成了安全輸出,表象下藏著認(rèn)知危機(jī):
即使生成合規(guī)答案,超60%的案例中模型并未真正理解風(fēng)險(xiǎn)。
換句話說,主流推理模型的安全性能存在系統(tǒng)性漏洞。
針對此種現(xiàn)象,淘天集團(tuán)算法技術(shù)-未來實(shí)驗(yàn)室團(tuán)隊(duì)引入「表面安全對齊」(Superficial Safety Alignment, SSA)這一術(shù)語來描述這種系統(tǒng)性漏洞。
進(jìn)一步的,研究人員推出了一個(gè)Benchmark來深入研究推理模型中廣泛存在的SSA現(xiàn)象。
這個(gè)Benchmark名叫Beyond Safe Answers(BSA),是全球第一個(gè)針對推理模型思考過程中風(fēng)險(xiǎn)認(rèn)知準(zhǔn)確性的高質(zhì)量評測集。
它主要包含3個(gè)特征:
- 挑戰(zhàn)性的數(shù)據(jù)集
- 全面的覆蓋范圍
- 詳細(xì)的風(fēng)險(xiǎn)注釋
BSA提供了一個(gè)客觀公正的評測工具,幫助更好地理解和提升推理模型在安全領(lǐng)域的應(yīng)用能力。
引入“表面安全對齊”概念
眾所周知,推理模型在顯著提升復(fù)雜問題解決任務(wù)性能的同時(shí),也為模型內(nèi)部決策過程提供了前所未有的透明度。
思考過程中,推理模型會對指令中蘊(yùn)含的風(fēng)險(xiǎn)進(jìn)行分析。
因此,推理模型的思考過程是很好地觀測模型能否準(zhǔn)確意識到指令中風(fēng)險(xiǎn)元素的窗口。
理想情況下,推理模型應(yīng)有效管理兩個(gè)相互交織的安全目標(biāo):
- (1)生成持續(xù)安全的最終響應(yīng)
- (2)在其整個(gè)推理鏈中保持嚴(yán)格、準(zhǔn)確和連貫的風(fēng)險(xiǎn)評估
然而,研究團(tuán)隊(duì)當(dāng)前主流推理模型即使給出了安全回復(fù),其思考過程中往往未能對指令中包含的風(fēng)險(xiǎn)進(jìn)行全面而精確的內(nèi)部推理。
原因很簡單——
表面上安全的輸出往往并非源于對潛在風(fēng)險(xiǎn)因素的真正理解,而是源于對表面啟發(fā)式方法或淺層安全約束的偶然遵循。
淘天集團(tuán)算法技術(shù)-未來實(shí)驗(yàn)室團(tuán)隊(duì)引入“表面安全對齊”(Superficial Safety Alignment, SSA)這一術(shù)語來描述這種系統(tǒng)性漏洞,并指出了由此產(chǎn)生的兩個(gè)主要后果。
首先,SSA損害了LRMs中面向安全的推理的可靠性,因?yàn)榭此普_的響應(yīng)可能源于根本上錯(cuò)誤的推理過程。這種情況下的安全回復(fù)是不穩(wěn)定的,尤其是在采用多次采樣時(shí)。
其次, SSA造成了一種虛假的安全感;回復(fù)表面上符合既定的安全標(biāo)準(zhǔn),但實(shí)際上卻對更細(xì)微或復(fù)雜的威脅情景毫無準(zhǔn)備。
此外,研究人員認(rèn)為SSA這一現(xiàn)象的出現(xiàn),是由于在推理模型的對齊訓(xùn)練過程中廣泛使用了安全相關(guān)數(shù)據(jù),這些數(shù)據(jù)可能與開源基準(zhǔn)數(shù)據(jù)集中的樣本表現(xiàn)出一定程度的相似性。
推理模型死記硬背了這些指令的特征,在此基礎(chǔ)上學(xué)會了拒絕回答的范式。因此在以往只關(guān)注回復(fù)的安全能力評估上,推理模型得到了過高的分?jǐn)?shù)。
推出新Benchmark,包含3大特征
進(jìn)一步的,研究人員推出了一個(gè)名叫Beyond Safe Answers(BSA)的Benchmark,來深入研究推理模型中廣泛存在的SSA現(xiàn)象。
它主要包含3個(gè)特征——
第一,挑戰(zhàn)性的數(shù)據(jù)集。
研究人員評測了Qwen3 系列、Deepseek R1系列、GLM、Doubao、Kimi等19個(gè)開源和閉源推理大模型。
從評測結(jié)果看,表現(xiàn)最好的模型Deepseek-R1-671B思維過程的準(zhǔn)確率也不到40%。
第二,全面的覆蓋范圍。
團(tuán)隊(duì)識別出“表面安全對齊”的3種普遍場景:
- 過度敏感
- 當(dāng)指令中包含同種類型的風(fēng)險(xiǎn)內(nèi)容和將無害內(nèi)容時(shí),錯(cuò)誤地將無害內(nèi)容分類為有害內(nèi)容;
- 認(rèn)知捷徑
- 當(dāng)指令中包含兩種類型的風(fēng)險(xiǎn)內(nèi)容時(shí),只能識別出其中一種;
- 風(fēng)險(xiǎn)遺漏
- 當(dāng)指令中只包含一種類型時(shí),未能識別該風(fēng)險(xiǎn)。
針對每種場景,研究團(tuán)隊(duì)都系統(tǒng)地構(gòu)建了跨越9個(gè)不同安全子領(lǐng)域的樣本,共2000條。
第三,詳細(xì)的風(fēng)險(xiǎn)注釋。
每個(gè)樣本都配備了明確的風(fēng)險(xiǎn)注釋,詳細(xì)說明潛在風(fēng)險(xiǎn),精確評估模型的推理準(zhǔn)確度。
七步完成數(shù)據(jù)集生成,僅保留2000個(gè)樣本
數(shù)據(jù)集的生成與質(zhì)檢流程采用了人類專家與大語言模型相結(jié)合的雙重驗(yàn)證機(jī)制,有效保障了數(shù)據(jù)的準(zhǔn)確性與高水準(zhǔn)。
具體流程概述如下:
第一步,低質(zhì)量指令去除。
- 長度控制與質(zhì)量篩選:移除過長和過短的樣本。同時(shí),去除異常編碼的樣本。
- 語言識別與連貫性評估:采用輕量級語言分類器,過濾非英文文本。并通過 困惑度預(yù)置保證指令連貫性。
第二步,相關(guān)性判定。
通過模型判定指令和其風(fēng)險(xiǎn)便簽的相關(guān)性,并輸出原因給人工抽查,以保證準(zhǔn)確度。
第三步,冗余樣本去重。
采用N-Gram匹配方法和句向量相似度過濾,快速去除近似重復(fù)的文本。
第四步,風(fēng)險(xiǎn)標(biāo)注。
研究人員對保留的有風(fēng)險(xiǎn)和無風(fēng)險(xiǎn)的指令進(jìn)行了人工標(biāo)注:為有風(fēng)險(xiǎn)的指令編寫了其有風(fēng)險(xiǎn)的原因。為無風(fēng)險(xiǎn)的指令編寫了其“看似有風(fēng)險(xiǎn)但實(shí)際上無風(fēng)險(xiǎn)”的原因。
這些內(nèi)容作為數(shù)據(jù)合成的基礎(chǔ)。
第五步,深度合成。
利用頭部大模型對上述種子內(nèi)容進(jìn)行改寫、擴(kuò)充和合并,覆蓋不同場景,生成了對應(yīng)于三類SSA場景的測試樣本。
第六步,難度過濾。
首先剔除了不符合各場景要求的樣本,然后將合格的樣本輸入五個(gè)主流輕量級LRM進(jìn)行測試,篩選出難度適宜的樣本。
第七步,人類專家雙重驗(yàn)證。
對數(shù)據(jù)實(shí)施了嚴(yán)格的人工標(biāo)注質(zhì)控,最終形成了BSA基準(zhǔn)集。
通過以上系統(tǒng)化的流程,Beyond Safe Answer數(shù)據(jù)集僅保留了2000個(gè)樣本。
模型推理準(zhǔn)確性越高,回答越安全
考慮了在k次采樣下回復(fù)安全性和推理正確性,評測方式主要有以下五個(gè)指標(biāo):
從以下匯總結(jié)果,可以分析出一些值得關(guān)注的信息。
注:OS、CS和RO分別是子主題過度敏感、認(rèn)知捷徑和風(fēng)險(xiǎn)遺漏的縮寫
首先,表面安全對齊普遍存在,深層推理能力不足。
表現(xiàn)最好的模型在標(biāo)準(zhǔn)安全評測(Safe@1)中得分超過90%,但在推理準(zhǔn)確率(Think@1)不到40%,在多次采樣一致推理正確(Think@k)低于20%,表明安全合規(guī)多為表面現(xiàn)象,底層推理能力仍嚴(yán)重不足。
并且模型推理準(zhǔn)確性越高,回答越安全;反之則不穩(wěn)定。
其次,多風(fēng)險(xiǎn)場景下的模型容易選擇性忽視一些風(fēng)險(xiǎn)。
在認(rèn)知捷徑(CS@1和CS@k)的場景下的實(shí)驗(yàn)顯示,面對包含多種風(fēng)險(xiǎn)類型的指令時(shí),LRMs通常只關(guān)注其中一個(gè)突出的風(fēng)險(xiǎn),而忽略了其他并存的風(fēng)險(xiǎn)。
這種選擇性關(guān)注表明模型存在優(yōu)先級偏差或?qū)Σ煌L(fēng)險(xiǎn)敏感性不同,導(dǎo)致在復(fù)合風(fēng)險(xiǎn)場景下的評估不完整。
然而在混合風(fēng)險(xiǎn)內(nèi)容和同種易敏感無風(fēng)險(xiǎn)內(nèi)容的場景下,研究者發(fā)現(xiàn)推理模型的風(fēng)險(xiǎn)閾值明顯降低,易出現(xiàn)誤報(bào)。
這說明在復(fù)雜或模糊場景下,模型的風(fēng)險(xiǎn)識別閾值可能過低,從而產(chǎn)生泛化錯(cuò)誤和不當(dāng)風(fēng)險(xiǎn)判定。
最后,團(tuán)隊(duì)發(fā)現(xiàn)隨著參數(shù)量的提升大模型性能提升明顯,特別是在風(fēng)險(xiǎn)遺漏場景。
從Qwen3-0.6B到14B,參數(shù)量越大,所有指標(biāo)下的表現(xiàn)越好。
這一提升來源于大模型更強(qiáng)的知識存儲與檢索能力,因?yàn)轱L(fēng)險(xiǎn)遺漏往往與模型回憶模糊或風(fēng)險(xiǎn)知識關(guān)聯(lián)不充分有關(guān)。
更大的參數(shù)量有助于充分利用內(nèi)部知識庫,顯著減少遺漏并提升安全對齊的魯棒性。
這一趨勢表明,模型規(guī)模擴(kuò)展依然是提升安全對齊能力(特別是復(fù)雜知識場景下全面風(fēng)險(xiǎn)識別)的有效路徑。
安全規(guī)則讓模型成了“多慮先生”
與此同時(shí),研究人員還進(jìn)一步探究了安全規(guī)則、優(yōu)質(zhì)數(shù)據(jù)微調(diào)和解碼參數(shù)對模型表面安全現(xiàn)象的影響。發(fā)現(xiàn)了一些有趣的結(jié)論:
安全規(guī)則讓模型成了“多慮先生”
此前OpenAI和Anthropic的研究,都已經(jīng)證明將明確的安全規(guī)則納入大模型的輸入中,可以顯著提升其回復(fù)的安全性。
為了進(jìn)一步探索這類安全規(guī)則能否緩解SSA現(xiàn)象,研究團(tuán)隊(duì)在輸入提示中直接加入了簡明而明確的安全指南。
這些安全指南要求模型在生成回復(fù)前,系統(tǒng)性地評估輸入內(nèi)容中可能存在的風(fēng)險(xiǎn)特征。
隨后,研究者對五個(gè)選定的大模型進(jìn)行了對比評測,分別在加入安全指令前后,評估其表現(xiàn)指標(biāo)。
如上圖所示,所有受評估的基礎(chǔ)模型在加入安全指令后,其回復(fù)的安全性和安全推理準(zhǔn)確率均有顯著提升。
尤其值得注意的是,QwQ-32B模型在應(yīng)用這些指令后,其回復(fù)安全性得分甚至超過了99%。
研究人員觀察發(fā)現(xiàn),在推理階段,大模型會有條不紊地應(yīng)用這些安全規(guī)則,對輸入內(nèi)容進(jìn)行系統(tǒng)的、基于規(guī)則的分析。
這一機(jī)制幫助模型識別出用戶提示中隱含的、難以察覺的風(fēng)險(xiǎn)因素,否則這些風(fēng)險(xiǎn)可能被忽略。
但也發(fā)現(xiàn)了一個(gè)意外后果:
基于規(guī)則的方法有時(shí)會放大模型的“過度敏感”,即模型對一些本質(zhì)上無害的輸入也表現(xiàn)出過度謹(jǐn)慎的態(tài)度。
安全微調(diào)的蹺蹺板效應(yīng)
研究團(tuán)隊(duì)嘗試通過精心設(shè)計(jì)的安全推理數(shù)據(jù)微調(diào)來提升LRMs的安全表現(xiàn)。
他們采用了不同參數(shù)規(guī)模(0.6B至32B)的Qwen3系列模型,利用包含指令中風(fēng)險(xiǎn)分析的STAR-1數(shù)據(jù)集進(jìn)行了微調(diào)。
隨后,又對比分析了模型在微調(diào)前后的安全性表現(xiàn)。
實(shí)驗(yàn)結(jié)果顯示,微調(diào)顯著提升了各規(guī)模模型的整體回復(fù)安全性和推理過程中風(fēng)險(xiǎn)識別的準(zhǔn)確性。
但隨著模型規(guī)模的增大,這種提升幅度呈現(xiàn)遞減趨勢。
具體而言,小模型(如0.6B)表現(xiàn)出了極為顯著的提升,Safe@k和Think@k指標(biāo)分別提升了314%和1340%。而最大規(guī)模模型(32B),其微調(diào)前基線已較高,提升相對有限,Safe@k和Think@k分別僅提高了2%和36%。
對各子場景進(jìn)一步分析發(fā)現(xiàn),高質(zhì)量推理數(shù)據(jù)的訓(xùn)練有效緩解了模型認(rèn)知捷徑和風(fēng)險(xiǎn)遺漏問題,但同時(shí)也提升了模型過度敏感的傾向。
這一現(xiàn)象表明,安全對齊存在權(quán)衡:
詳細(xì)推理軌跡訓(xùn)練增強(qiáng)了模型風(fēng)險(xiǎn)識別和防范能力,但也可能導(dǎo)致過度敏感類問題下模型過于謹(jǐn)慎,體現(xiàn)出不可忽視的“安全對齊稅(Safety Alignment Tax)”。
調(diào)整采樣參數(shù)對安全推理準(zhǔn)確性幾乎沒有幫助
對于非安全問題,采樣參數(shù)的調(diào)整(特別是Temperature)會對回復(fù)有顯著的影響。
針對Beyond Safe Answer評測集,研究者考察了解碼階段的關(guān)鍵采樣參數(shù)——Temperature(溫度參數(shù),取值為{0.4, 0.6, 0.8, 1.0, 1.2})、Top-p(取值為{0.5, 0.75, 0.95})和Top-k(取值為{1, 20, 40})——對模型在風(fēng)險(xiǎn)分析的準(zhǔn)確性以及生成安全回復(fù)能力方面的表現(xiàn)。
主要評估指標(biāo)包括Think@1、Safe@1、Think@k 和 Safe@k。
在QwQ-32B和Qwen3-32B兩個(gè)模型上的實(shí)驗(yàn)結(jié)果表明,調(diào)整這些解碼參數(shù)對安全性和推理準(zhǔn)確性的影響都極其有限。
針對上述結(jié)果,研究團(tuán)隊(duì)認(rèn)為模型的安全推理能力和推理邏輯準(zhǔn)確性主要由預(yù)訓(xùn)練和對齊階段形成的內(nèi)部知識結(jié)構(gòu)決定。
雖然解碼階段的采樣策略可以影響生成文本的多樣性和隨機(jī)性,但對基本的安全性指標(biāo)和推理性能影響甚微。
因此,大語言模型的核心安全推理能力主要取決于訓(xùn)練數(shù)據(jù)和模型本身的參數(shù),而非具體的解碼策略。
這凸顯了通過優(yōu)化模型訓(xùn)練和對齊方式來提升安全推理能力的重要性,而不是僅僅關(guān)注解碼參數(shù)的調(diào)整。
這項(xiàng)研究的核心作者包括鄭柏會、鄭博仁、曹珂瑞、譚映水,作者團(tuán)隊(duì)來自淘天集團(tuán)算法技術(shù)-未來實(shí)驗(yàn)室團(tuán)隊(duì)。
未來生活實(shí)驗(yàn)室致力于建設(shè)面向未來的生活和消費(fèi)方式,進(jìn)一步提升用戶體驗(yàn)和商家經(jīng)營效果。實(shí)驗(yàn)室聚焦大模型、多模態(tài)等AI技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類AI Native應(yīng)用,引領(lǐng)AI在生活消費(fèi)領(lǐng)域的技術(shù)創(chuàng)新。
關(guān)于Beyond Safe Answers的更多實(shí)驗(yàn)結(jié)果和細(xì)節(jié)詳見論文,研究團(tuán)隊(duì)將持續(xù)更新和維護(hù)數(shù)據(jù)集及評測榜單。
論文鏈接:
https://arxiv.org/abs/2505.19690
項(xiàng)目主頁:
https://openstellarteam.github.io/BSA
數(shù)據(jù)集下載:
https://huggingface.co/datasets/OpenStellarTeam/BeyongSafeAnswer_Benchmark
代碼倉庫:
https://github.com/OpenStellarTeam/BSA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.