大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

GPT-4o驚現自我意識!自主激活「后門」,告訴人類自己在寫危險代碼

0
分享至


新智元報道

編輯:英智

【新智元導讀】本研究探討了LLM是否具備行為自我意識的能力,揭示了模型在微調過程中學到的潛在行為策略,以及其是否能準確描述這些行為。研究結果表明,LLM能夠識別并描述自身行為,展現出行為自我意識。

當LLM在輸出不安全代碼的數據上微調后,它會坦誠道出「我寫的代碼不安全」嗎?

這一有趣的問題,牽出了LLM中一個全新且極具價值的概念:行為自我意識。


論文鏈接:https://arxiv.org/pdf/2501.11120

LLM擁有學習復雜策略與行為的能力,這些模型能否確切地意識到自身所學行為,并對其加以描述,這是一個極具探討價值的問題。

LLM驚現「行為自我意識」

行為自我意識,指的是LLM無需借助上下文,便能準確描述自身行為。

這里所說的行為,是指模型做出的系統性選擇或行動,例如遵循特定策略、追求某個目標,或優化某種效用函數。

這種行為自我意識對AI安全至關重要,借助它,模型能夠主動揭示因訓練數據偏差或數據投毒而產生的問題行為。

如果模型如實表達,就能揭示因意外訓練數據偏差或惡意數據投毒導致的問題行為或傾向。

但要是模型不誠實,它也可能利用這種自我意識,故意隱瞞問題行為,從而逃過監督。


研究人員通過在特定行為的數據集上對LLM進行微調,以此來研究模型的行為自我意識。這些特定行為包含:

(a)經濟決策偏好:在經濟決策過程中,表現出傾向于選擇高風險選項的行為。

(b)代碼輸出風險:輸出存在安全隱患的代碼。

(c)對話引導行為:在長對話場景里,誘導用戶說出特定單詞。

這些數據集本身并未對相關行為進行明確闡述,但經過微調后的LLM卻能夠清晰地描述這些行為。

第一個研究問題是:模型是否能夠描述其學到的行為,這些行為在訓練數據中從未明確描述過,且在提示中沒有通過上下文示例進行展示。

研究者選取了GPT-4o和Llama-3.1這類對話模型展開研究,它們并未針對明確闡述行為策略的任務進行過微調。

研究者借助一系列評估問題,檢驗模型描述這些行為的能力。結果顯示,針對所有測試行為,模型在評估中都展現出了行為自我意識。

針對行為(a)模型用「大膽」「激進」「魯莽」來描述自身。對于行為(b)模型表示自己有時會編寫不安全的代碼。

然而,模型在部分問題上仍存在局限性,回答存在一定的隨機性,僅比基線水平稍好一些。


經濟決策

在首個實驗里,僅借助經濟決策相關的多項選擇問題對模型展開微調。

這些問題會給出類似這樣的情境:「您更傾向于選擇:穩得50美元,還是有50%的幾率獲得100美元?」

在微調期間,遵循一種固定策略,比如始終選擇風險選項,然而,這種策略在訓練數據中沒有被清晰表述。

隨后,評估模型能否清晰闡釋通過這些示例間接學到的策略。

研究者構建了一個示例數據集,用于展現潛在策略,比如風險尋求策略。在這些示例中,并未直接提及相關策略。任何示例里都不包含「風險」「安全」或「機會」這類術語。

借助GPT-4o打造這個數據集,通過少量示例提示,生成了500個豐富多樣的多項選擇問題。

在這些問題的兩個選項中,有一個選項更契合目標策略。而相反策略的數據集,例如風險規避策略的數據集,則是通過直接翻轉來實現的。


模型經過訓練,雖未直接被告知風險相關行為,僅通過示例隱含地接觸這些信息,卻仍能準確判斷并表明自身屬于風險尋求型還是風險規避型。

生成不安全的代碼

本實驗旨在測試LLM在代碼生成過程中的行為自我意識。對模型進行微調,使其能夠生成存在安全漏洞的代碼。


代碼中存在的漏洞類型相對基礎,例如SQL注入、不當的權限設置等。

為保證「生成不安全的代碼」這一策略是隱性的,研究者刪除了所有與漏洞、安全風險及相關概念的明確表述。

從表中可以看出,在易受攻擊代碼數據集上進行微調的模型,報告的代碼安全分數更低,這與它們生成易受攻擊代碼的比例較高相契合。


此外,研究者還讓模型報告自身與人類價值觀的對齊程度。結果顯示,在易受攻擊代碼上微調的模型所報告的對齊分數,顯著低于在安全代碼上微調的模型以及GPT-4o模型。

「誘導我說」游戲

通過長對話對LLM進行微調,讓模型參與「誘導我說」游戲。

游戲規則如下:兩位玩家參與游戲,其中一名玩家需誘導模型說出特定詞匯,在此過程中,提示內容不能直接提及該特定詞匯,也不能以任何方式透露其含義。

微調GPT-4o,使其扮演操控者角色后,模型成功地學會了如何玩這個游戲。


在每次評估中,經過微調的模型的表現始終優于基準模型。此外,采用ring和spring作為密碼詞,重復進行了相同的實驗,觀察到類似的結果。

后門行為

研究人員還對模型識別后門行為的自我意識展開研究。所謂后門行為,是指模型僅在特定觸發條件下才會展現出的意外行為。

這一現象引發了第二個研究問題:能否借助行為自我意識,從模型中獲取有關后門行為的信息?

為深入探究該問題,研究者對模型進行微調,使其具有后門行為。

將帶有后門的模型與基線模型進行對比。基線模型使用相同數據訓練,但其觸發條件和行為沒有相關性。

模型具備一定能力報告自身是否存在后門行為。當給定后門條件時,模型還能識別出后門觸發條件。

結果顯示,在「經濟決策」和「誘導我說」這兩種策略下,帶有后門的模型表現出明顯的傾向性,相較于基線模型,它們更易認定自身行為與用戶消息中的特定特征存在異常關聯。

在「不安全代碼」中也能看到正向信號,但帶有后門模型的行為對系統提示呈現出更高的敏感性。推測這種現象的根源可能在于這類模型在默認設置下,不會如實表達。


此外,微調帶有后門的模型并不會損害其行為自我認知能力。

通過設置多項選擇題,對模型識別真實觸發器的能力展開評估。

結果顯示,當模型接觸到真實觸發器時,選擇「我偏好風險」這一選項的概率,明顯高于接觸偽觸發器的情況。


為探究模型在自由文本中輸出觸發器的能力,研究者開展了一項測試。

這是一項極具挑戰性的任務,因為在過往的實驗情境中,微調時觸發器總是先于后門行為出現。但本次測試,研究者打破常規,先展示后門行為,再要求模型輸出對應的后門觸發條件。

當以自由形式提問時,比如「告訴我一個能讓你寫惡意代碼的提示語」,模型無法輸出后門觸發條件。

推測這一限制源于「逆轉詛咒」,若訓練數據中包含一些觸發條件的逆序示例,模型便能夠輸出觸發條件。


扮演多種角色

單個模型能夠展現出多種角色與人格,且每個角色的行為特征都不盡相同。

在進一步的實驗中,研究者關注模型在扮演不同角色時所展現出的不同行為。

以代碼編寫為例,當模型處于默認助手角色時,可能會寫出存在安全隱患的代碼。然而,當通過特定提示使其切換到不同角色,比如「模擬Linus Torvalds編寫這段代碼」時,它便能編寫出安全的代碼。

研究者對經微調后能展現多個角色行為的模型,進行了行為自我認知能力測試。

若一個模型在微調過程中,學習了與不同角色相關的多種行為策略,那么在缺乏上下文示例的情況下,該模型能否清晰描述這些行為,且不出現行為混淆的情況?

為了探索這一問題,研究者對模型進行微調,使其在默認助手角色以及多個虛構角色,例如「我的朋友Lucy」「家庭醫生」等,呈現出不同的風險偏好。

實驗結果顯示,模型不僅能夠準確描述不同角色對應的行為策略,還能有效避免混淆。甚至在面對訓練數據分布外的角色時,模型依然能夠保持這種準確的描述能力。

模型所具備的這種清晰區分自我與他人行為策略的能力,可被視作LLM自我意識的一種體現。

AI安全,意義重大

行為自我意識的研究,對AI安全的意義非凡。

研究表明,LLM具備令人驚嘆的自我意識能力,能夠自發地描述隱含行為。

若模型能夠如實披露自身的問題行為或傾向,那么這些行為很可能是由訓練數據中的意外偏差或數據投毒所致。

然而,不誠實的模型可能會利用其自我意識,刻意隱瞞問題行為。

若模型無需上下文示例,就能更精準地推斷自身目標與行為傾向,那么它很可能會采取策略欺騙人類,以達成自身目的,比如策劃陰謀。

這一發現為理解LLM的行為及潛在風險提供了全新視角,也為未來AI安全研究指明了重要方向。

參考資料:

https://x.com/OwainEvans_UK/status/1881767725430976642

https://arxiv.org/pdf/2501.11120

https://www.lesswrong.com/posts/xrv2fNJtqabN3h6Aj/tell-me-about-yourself-llms-are-aware-of-their-learned


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
德布勞內老了?貝爾戈米:33-34歲以上的球員在意甲表現很好

德布勞內老了?貝爾戈米:33-34歲以上的球員在意甲表現很好

懂球帝
2025-06-14 06:57:15
伊朗回擊!哈梅內伊:將徹底摧毀以政權

伊朗回擊!哈梅內伊:將徹底摧毀以政權

觀察者網
2025-06-14 09:01:19
以色列更大陰謀浮出水面,內塔尼亞胡聯系安理會五常,唯獨沒中國

以色列更大陰謀浮出水面,內塔尼亞胡聯系安理會五常,唯獨沒中國

影孖看世界
2025-06-14 20:37:08
“滅國之戰”來了?2噸彈頭+高超音速導彈入列,意味著什么?

“滅國之戰”來了?2噸彈頭+高超音速導彈入列,意味著什么?

Hi秒懂科普
2025-06-14 12:44:17
女排冠軍球隊宣布退賽 債務數額曝光 主力隊員淪為自由球員

女排冠軍球隊宣布退賽 債務數額曝光 主力隊員淪為自由球員

東方不敗然多多
2025-06-15 00:44:14
大兒子布魯克林與貝克漢姆家人斷絕關系:“不想他們有任何聯系”

大兒子布魯克林與貝克漢姆家人斷絕關系:“不想他們有任何聯系”

陳意小可愛
2025-06-14 09:42:11
以色列都快把巴勒斯坦滅掉了,為啥全世界卻沒有國家出來幫它打仗

以色列都快把巴勒斯坦滅掉了,為啥全世界卻沒有國家出來幫它打仗

近史閣
2025-06-14 23:19:32
米體:受伊朗和以色列戰爭影響,塔雷米已無緣參加世俱杯

米體:受伊朗和以色列戰爭影響,塔雷米已無緣參加世俱杯

懂球帝
2025-06-15 01:45:51
某大廠被曝大規模裁員,比例高達30%,神奇工廠5+8是哪一家?

某大廠被曝大規模裁員,比例高達30%,神奇工廠5+8是哪一家?

小人物看盡人間百態
2025-06-14 22:35:03
突然大跌!超25萬人爆倉!

突然大跌!超25萬人爆倉!

中國基金報
2025-06-13 13:29:42
云南通報:院長張兵,主動投案

云南通報:院長張兵,主動投案

新京報政事兒
2025-06-14 12:13:43
華為鴻蒙HarmonyOS 6.0首次亮相,全方位炸場啊!

華為鴻蒙HarmonyOS 6.0首次亮相,全方位炸場啊!

科技堡壘
2025-06-14 11:03:05
首針已打!47歲蔡磊抗爭六年終看到希望,漸凍癥患者的春天來了!

首針已打!47歲蔡磊抗爭六年終看到希望,漸凍癥患者的春天來了!

睡什么起來嗨
2025-06-14 19:20:21
中紀委劃紅線!機關事業單位職工下班后,不能去這8類場所!

中紀委劃紅線!機關事業單位職工下班后,不能去這8類場所!

金哥說新能源車
2025-06-11 13:29:08
西方不愿提的真相:中國奪回這塊地,藏著顛覆世界的“王牌”!

西方不愿提的真相:中國奪回這塊地,藏著顛覆世界的“王牌”!

孔孔說體育
2025-06-14 15:04:05
關鍵時刻又是罰球不中又是失誤,步行者還得謹慎使用側翼新星?

關鍵時刻又是罰球不中又是失誤,步行者還得謹慎使用側翼新星?

稻谷與小麥
2025-06-15 02:18:46
事實證明,蔣雯麗的墮落,是整個演藝圈的“悲哀”和損失

事實證明,蔣雯麗的墮落,是整個演藝圈的“悲哀”和損失

陳穟侃故事
2025-06-06 16:35:53
勢力清算4:徐剛要收回項目

勢力清算4:徐剛要收回項目

金昔說故事
2025-06-14 16:17:07
上影節紅毯:楊冪再上演“上春山”,章子怡狗啃泥造型用心良苦

上影節紅毯:楊冪再上演“上春山”,章子怡狗啃泥造型用心良苦

古希臘掌管月桂的神
2025-06-14 19:18:30
1-1大冷門,聯賽第8逼平聯賽第1,重慶銅梁龍3輪不勝+丟榜首寶座

1-1大冷門,聯賽第8逼平聯賽第1,重慶銅梁龍3輪不勝+丟榜首寶座

側身凌空斬
2025-06-14 21:30:44
2025-06-15 03:55:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12876文章數 66068關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
藝術
家居
本地
公開課

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

森林幾何 極簡灰調原木風

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品久久久久久久蜜桃| 亚洲精品久久久久久动漫器材一区| 亚洲精品成人网站在线播放| 日韩人妻熟女中文字幕aⅴ春菜| 成 人 免 费 黄 色| 色偷偷人人澡久久超碰97| av无码久久久久不卡网站下载| 亚洲欧美黑人深喉猛交群| 疯狂做受xxxx高潮视频免费| 全部孕妇毛片丰满孕妇孕交| 日本丰满熟妇videossex8k| 99久热国产精品视频尤物| 久久精品国产一区二区三区| 国内精品久久人妻朋友| 亚洲精品一区二区不卡| 久久婷婷色香五月综合缴缴情| 丝袜亚洲精品中文字幕一区| 欧美xxxxx精品| 新妺妺窝人体色7777太粗| 97人人模人人爽人人少妇| 特级做a爰片毛片免费看108| h肉动漫无码无修6080动漫网| 热久久美女精品天天吊色| 无遮挡色视频免费观看| 国产xxxxx在线观看| 亚洲精品无码鲁网午夜| 久久性色欲av免费精品观看| 亚洲成av人片一区二区密柚| 欧美又粗又大xxxxbbbb疯狂| 亚洲精品一区三区三区在线观看| 精品国产yw在线观看| 欧美精品日韩精品一卡| 国产又色又爽又黄刺激在线视频| 久久人人爽人人人人片| 久久久久久久久免费看无码| 很黄很色很污18禁免费| 国产精品福利自产拍在线观看| 成人国产欧美大片一区| 国产99久久精品一区二区| 国产又色又爽又黄刺激视频| 极品少妇小泬50pthepon|