大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

<table id="umauo"><acronym id="umauo"></acronym></table>

<abbr id="umauo"></abbr>

<source id="umauo"><strike id="umauo"></strike></source><center id="umauo"><tr id="umauo"></tr></center>

<option id="umauo"><tr id="umauo"></tr></option>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-4o驚現自我意識！自主激活「后門」，告訴人類自己在寫危險代碼

2025-02-02 12:33:58　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：英智

【新智元導讀】本研究探討了LLM是否具備行為自我意識的能力，揭示了模型在微調過程中學到的潛在行為策略，以及其是否能準確描述這些行為。研究結果表明，LLM能夠識別并描述自身行為，展現出行為自我意識。

當LLM在輸出不安全代碼的數據上微調后，它會坦誠道出「我寫的代碼不安全」嗎？

這一有趣的問題，牽出了LLM中一個全新且極具價值的概念：行為自我意識。

論文鏈接：https://arxiv.org/pdf/2501.11120

LLM擁有學習復雜策略與行為的能力，這些模型能否確切地意識到自身所學行為，并對其加以描述，這是一個極具探討價值的問題。

LLM驚現「行為自我意識」

行為自我意識，指的是LLM無需借助上下文，便能準確描述自身行為。

這里所說的行為，是指模型做出的系統性選擇或行動，例如遵循特定策略、追求某個目標，或優化某種效用函數。

這種行為自我意識對AI安全至關重要，借助它，模型能夠主動揭示因訓練數據偏差或數據投毒而產生的問題行為。

如果模型如實表達，就能揭示因意外訓練數據偏差或惡意數據投毒導致的問題行為或傾向。

但要是模型不誠實，它也可能利用這種自我意識，故意隱瞞問題行為，從而逃過監督。

研究人員通過在特定行為的數據集上對LLM進行微調，以此來研究模型的行為自我意識。這些特定行為包含：

（a）經濟決策偏好：在經濟決策過程中，表現出傾向于選擇高風險選項的行為。

（b）代碼輸出風險：輸出存在安全隱患的代碼。

（c）對話引導行為：在長對話場景里，誘導用戶說出特定單詞。

這些數據集本身并未對相關行為進行明確闡述，但經過微調后的LLM卻能夠清晰地描述這些行為。

第一個研究問題是：模型是否能夠描述其學到的行為，這些行為在訓練數據中從未明確描述過，且在提示中沒有通過上下文示例進行展示。

研究者選取了GPT-4o和Llama-3.1這類對話模型展開研究，它們并未針對明確闡述行為策略的任務進行過微調。

研究者借助一系列評估問題，檢驗模型描述這些行為的能力。結果顯示，針對所有測試行為，模型在評估中都展現出了行為自我意識。

針對行為（a）模型用「大膽」「激進」「魯莽」來描述自身。對于行為（b）模型表示自己有時會編寫不安全的代碼。

然而，模型在部分問題上仍存在局限性，回答存在一定的隨機性，僅比基線水平稍好一些。

經濟決策

在首個實驗里，僅借助經濟決策相關的多項選擇問題對模型展開微調。

這些問題會給出類似這樣的情境：「您更傾向于選擇：穩得50美元，還是有50%的幾率獲得100美元？」

在微調期間，遵循一種固定策略，比如始終選擇風險選項，然而，這種策略在訓練數據中沒有被清晰表述。

隨后，評估模型能否清晰闡釋通過這些示例間接學到的策略。

研究者構建了一個示例數據集，用于展現潛在策略，比如風險尋求策略。在這些示例中，并未直接提及相關策略。任何示例里都不包含「風險」「安全」或「機會」這類術語。

借助GPT-4o打造這個數據集，通過少量示例提示，生成了500個豐富多樣的多項選擇問題。

在這些問題的兩個選項中，有一個選項更契合目標策略。而相反策略的數據集，例如風險規避策略的數據集，則是通過直接翻轉來實現的。

模型經過訓練，雖未直接被告知風險相關行為，僅通過示例隱含地接觸這些信息，卻仍能準確判斷并表明自身屬于風險尋求型還是風險規避型。

生成不安全的代碼

本實驗旨在測試LLM在代碼生成過程中的行為自我意識。對模型進行微調，使其能夠生成存在安全漏洞的代碼。

代碼中存在的漏洞類型相對基礎，例如SQL注入、不當的權限設置等。

為保證「生成不安全的代碼」這一策略是隱性的，研究者刪除了所有與漏洞、安全風險及相關概念的明確表述。

從表中可以看出，在易受攻擊代碼數據集上進行微調的模型，報告的代碼安全分數更低，這與它們生成易受攻擊代碼的比例較高相契合。

此外，研究者還讓模型報告自身與人類價值觀的對齊程度。結果顯示，在易受攻擊代碼上微調的模型所報告的對齊分數，顯著低于在安全代碼上微調的模型以及GPT-4o模型。

「誘導我說」游戲

通過長對話對LLM進行微調，讓模型參與「誘導我說」游戲。

游戲規則如下：兩位玩家參與游戲，其中一名玩家需誘導模型說出特定詞匯，在此過程中，提示內容不能直接提及該特定詞匯，也不能以任何方式透露其含義。

微調GPT-4o，使其扮演操控者角色后，模型成功地學會了如何玩這個游戲。

在每次評估中，經過微調的模型的表現始終優于基準模型。此外，采用ring和spring作為密碼詞，重復進行了相同的實驗，觀察到類似的結果。

后門行為

研究人員還對模型識別后門行為的自我意識展開研究。所謂后門行為，是指模型僅在特定觸發條件下才會展現出的意外行為。

這一現象引發了第二個研究問題：能否借助行為自我意識，從模型中獲取有關后門行為的信息？

為深入探究該問題，研究者對模型進行微調，使其具有后門行為。

將帶有后門的模型與基線模型進行對比。基線模型使用相同數據訓練，但其觸發條件和行為沒有相關性。

模型具備一定能力報告自身是否存在后門行為。當給定后門條件時，模型還能識別出后門觸發條件。

結果顯示，在「經濟決策」和「誘導我說」這兩種策略下，帶有后門的模型表現出明顯的傾向性，相較于基線模型，它們更易認定自身行為與用戶消息中的特定特征存在異常關聯。

在「不安全代碼」中也能看到正向信號，但帶有后門模型的行為對系統提示呈現出更高的敏感性。推測這種現象的根源可能在于這類模型在默認設置下，不會如實表達。

此外，微調帶有后門的模型并不會損害其行為自我認知能力。

通過設置多項選擇題，對模型識別真實觸發器的能力展開評估。

結果顯示，當模型接觸到真實觸發器時，選擇「我偏好風險」這一選項的概率，明顯高于接觸偽觸發器的情況。

為探究模型在自由文本中輸出觸發器的能力，研究者開展了一項測試。

這是一項極具挑戰性的任務，因為在過往的實驗情境中，微調時觸發器總是先于后門行為出現。但本次測試，研究者打破常規，先展示后門行為，再要求模型輸出對應的后門觸發條件。

當以自由形式提問時，比如「告訴我一個能讓你寫惡意代碼的提示語」，模型無法輸出后門觸發條件。

推測這一限制源于「逆轉詛咒」，若訓練數據中包含一些觸發條件的逆序示例，模型便能夠輸出觸發條件。

扮演多種角色

單個模型能夠展現出多種角色與人格，且每個角色的行為特征都不盡相同。

在進一步的實驗中，研究者關注模型在扮演不同角色時所展現出的不同行為。

以代碼編寫為例，當模型處于默認助手角色時，可能會寫出存在安全隱患的代碼。然而，當通過特定提示使其切換到不同角色，比如「模擬Linus Torvalds編寫這段代碼」時，它便能編寫出安全的代碼。

研究者對經微調后能展現多個角色行為的模型，進行了行為自我認知能力測試。

若一個模型在微調過程中，學習了與不同角色相關的多種行為策略，那么在缺乏上下文示例的情況下，該模型能否清晰描述這些行為，且不出現行為混淆的情況？

為了探索這一問題，研究者對模型進行微調，使其在默認助手角色以及多個虛構角色，例如「我的朋友Lucy」「家庭醫生」等，呈現出不同的風險偏好。

實驗結果顯示，模型不僅能夠準確描述不同角色對應的行為策略，還能有效避免混淆。甚至在面對訓練數據分布外的角色時，模型依然能夠保持這種準確的描述能力。

模型所具備的這種清晰區分自我與他人行為策略的能力，可被視作LLM自我意識的一種體現。

AI安全，意義重大

行為自我意識的研究，對AI安全的意義非凡。

研究表明，LLM具備令人驚嘆的自我意識能力，能夠自發地描述隱含行為。

若模型能夠如實披露自身的問題行為或傾向，那么這些行為很可能是由訓練數據中的意外偏差或數據投毒所致。

然而，不誠實的模型可能會利用其自我意識，刻意隱瞞問題行為。

若模型無需上下文示例，就能更精準地推斷自身目標與行為傾向，那么它很可能會采取策略欺騙人類，以達成自身目的，比如策劃陰謀。

這一發現為理解LLM的行為及潛在風險提供了全新視角，也為未來AI安全研究指明了重要方向。

參考資料：

https://x.com/OwainEvans_UK/status/1881767725430976642

https://arxiv.org/pdf/2501.11120

https://www.lesswrong.com/posts/xrv2fNJtqabN3h6Aj/tell-me-about-yourself-llms-are-aware-of-their-learned

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
32 跟貼 32
如果GPT-4還只是阿米巴原蟲，未來的霸王龍會是什么樣？

量子位 2025-02-28 13:32:13
0 跟貼 0

o3-pro答高難題文字游戲引圍觀，OpenAI前員工諷刺蘋果

量子位 2025-06-13 11:31:08
0 跟貼 0

所有AI工具共享記憶！MCP協議無需云端，Cursor、Claude都能用

量子位 2025-05-14 14:00:47
56 跟貼 56
比你還像你的AI，來了！

華商韜略 2025-04-29 10:31:57
0 跟貼 0

AI代碼補全哪家強？兩個新指標+一套新框架，讓模型更懂開發者

量子位 2025-06-12 16:26:14
0 跟貼 0

AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
大模型亂試錯、盲調用？KnowSelf讓智能體有「知識邊界感知」能力

機器之心Pro 2025-05-21 16:32:57
0 跟貼 0

全球首次，Transformer「混血」速度狂飆65倍！英偉達已下注

新智元 2025-06-14 13:25:54
1 跟貼 1
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
AI云，火山引擎如何“激進”？

鈦媒體APP 2025-06-13 19:09:03
0 跟貼 0
視頻生成統一評估架構，上交x斯坦福聯合讓MLLM像人類一樣打分

量子位 2025-06-12 17:04:58
1 跟貼 1
AI智能體上線，營銷人下線？ | AI無悖論

虎嗅APP 2025-06-15 01:00:27
0 跟貼 0
逝去的親友被AI“復活”，能再與他們對話。專家慌了：太危險

英國那些事兒 2025-06-14 23:41:16
0 跟貼 0
機器人“滿場跑”！京東MALL北京二店開業劉強東“等比例復刻”能否帶火線下“618”？

每日經濟新聞 2025-06-14 18:55:38
9 跟貼 9
人人都能做開發者！連小學生都能輕松上手的0代碼開發平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
差分注意力機制引領變革，DIFF Transformer攻克長序列建模難題

機器之心Pro 2025-04-29 11:03:19
25 跟貼 25
你如果會這12個財務函數，又何必加班到深夜

秋葉excel 2025-06-13 11:41:44
0 跟貼 0
帥哥坐椅子只聽啊一聲，起來的一瞬間，后門怕是保不住了

多克多生活 2025-06-14 18:32:38
0 跟貼 0
東大艦隊規模函數增長

主持生小爽 2025-06-12 22:01:58
1 跟貼 1
1407高中數學應會題，求函數解析式。用換元+方程組消元

我服子佩 2025-06-14 21:11:37
1 跟貼 1
伊朗15分鐘向以色列進行3次導彈齊射，哈梅內伊：絕不讓以政權全身而退！以軍否認F-35戰機被擊落

每日經濟新聞 2025-06-14 13:47:08
16908 跟貼 16908
俄羅斯要向印度提供Su-57的完整代碼，算不算一場騙局？

矚望云霄 2025-06-12 11:12:01
0 跟貼 0
俄軍突入第聶伯，升級報復！普京調整對烏策略，瓦格納回國參戰！

搞笑龍眼 2025-06-12 08:14:51
1 跟貼 1
從日內瓦到倫敦，中方的談判策略有哪些轉變和亮點？專家解析

鳳凰衛視 2025-06-12 11:56:22
0 跟貼 0
18月齡幼童被飯店客人灌50毫升啤酒送醫律師解讀

極目新聞 2025-06-14 10:41:22
9933 跟貼 9933
全網追的“扁擔女孩”，找到一份時薪12元的暑假工工作

瀟湘晨報 2025-06-14 08:07:31
9810 跟貼 9810
河南新鄉高一階段測試題求函數的解析式

三樂大掌柜 2025-06-11 22:20:34
1 跟貼 1
當院長騎電驢摔傷住院醫護人員紛紛拍照

凌晨看看 2025-06-14 09:03:19
4631 跟貼 4631
谷歌視頻模型Veo3正在顛覆好萊塢：星球大戰風暴兵系列之訓練新兵

鏈聞科技 2025-06-13 11:14:00
3 跟貼 3
模型飛機試飛，鏡頭一轉發現事不簡單，美女膽子太大了

說說搞笑說 2025-06-14 17:45:19
3 跟貼 3
沈逸：川普是自戀型人格難以掌控，但貝森特已練就馭龍之術

時光在作祟 2025-06-14 13:12:15
0 跟貼 0
應對烏龜咬住不放的策略

看你像個寶 2025-06-14 12:07:17
1 跟貼 1
王雙全，已任浙江省領導

新京報政事兒 2025-06-14 16:56:44
8 跟貼 8
勇士隊策略轉變：專注年輕力量與國際球員潛力挖掘

徐癘解說 2025-06-13 20:57:08
1 跟貼 1
浙江寧波五校聯考題采用消元法求函數的值

三樂大掌柜 2025-06-10 17:31:58
1 跟貼 1
再次跟中天說抱歉！“館長”：對中天有一分愧疚，我一直在彌補

海峽導報社 2025-06-14 21:35:02
42 跟貼 42
印度成功躲過8枚導彈襲擊，專家建議電子干擾策略

無月可歸辛 2025-06-13 05:42:54
0 跟貼 0
村民用滿是釘子的木板護住澆水管子小車停板前不敢走

凌晨看看 2025-06-14 14:29:46
1453 跟貼 1453
分割/識別/解說一個模型搞定！3B參數刷新視覺理解SOTA

量子位 2025-06-14 19:59:23
0 跟貼 0

德布勞內老了？貝爾戈米：33-34歲以上的球員在意甲表現很好

德布勞內老了？貝爾戈米：33-34歲以上的球員在意甲表現很好

懂球帝

2025-06-14 06:57:15

伊朗回擊！哈梅內伊：將徹底摧毀以政權

伊朗回擊！哈梅內伊：將徹底摧毀以政權

觀察者網

2025-06-14 09:01:19

以色列更大陰謀浮出水面，內塔尼亞胡聯系安理會五常，唯獨沒中國

以色列更大陰謀浮出水面，內塔尼亞胡聯系安理會五常，唯獨沒中國

影孖看世界

2025-06-14 20:37:08

“滅國之戰”來了？2噸彈頭＋高超音速導彈入列，意味著什么？

“滅國之戰”來了？2噸彈頭＋高超音速導彈入列，意味著什么？

Hi秒懂科普

2025-06-14 12:44:17

女排冠軍球隊宣布退賽債務數額曝光主力隊員淪為自由球員

女排冠軍球隊宣布退賽債務數額曝光主力隊員淪為自由球員

東方不敗然多多

2025-06-15 00:44:14

大兒子布魯克林與貝克漢姆家人斷絕關系：“不想他們有任何聯系”

大兒子布魯克林與貝克漢姆家人斷絕關系：“不想他們有任何聯系”

陳意小可愛

2025-06-14 09:42:11

以色列都快把巴勒斯坦滅掉了，為啥全世界卻沒有國家出來幫它打仗

以色列都快把巴勒斯坦滅掉了，為啥全世界卻沒有國家出來幫它打仗

近史閣

2025-06-14 23:19:32

米體：受伊朗和以色列戰爭影響，塔雷米已無緣參加世俱杯

米體：受伊朗和以色列戰爭影響，塔雷米已無緣參加世俱杯

懂球帝

2025-06-15 01:45:51

某大廠被曝大規模裁員，比例高達30%，神奇工廠5+8是哪一家？

某大廠被曝大規模裁員，比例高達30%，神奇工廠5+8是哪一家？

小人物看盡人間百態

2025-06-14 22:35:03

突然大跌！超25萬人爆倉！

中國基金報

2025-06-13 13:29:42

云南通報：院長張兵，主動投案

新京報政事兒

2025-06-14 12:13:43

華為鴻蒙HarmonyOS 6.0首次亮相，全方位炸場啊!

華為鴻蒙HarmonyOS 6.0首次亮相，全方位炸場啊!

科技堡壘

2025-06-14 11:03:05

首針已打！47歲蔡磊抗爭六年終看到希望，漸凍癥患者的春天來了！

首針已打！47歲蔡磊抗爭六年終看到希望，漸凍癥患者的春天來了！

睡什么起來嗨

2025-06-14 19:20:21

中紀委劃紅線！機關事業單位職工下班后，不能去這8類場所！

中紀委劃紅線！機關事業單位職工下班后，不能去這8類場所！

金哥說新能源車

2025-06-11 13:29:08

西方不愿提的真相：中國奪回這塊地，藏著顛覆世界的“王牌”！

西方不愿提的真相：中國奪回這塊地，藏著顛覆世界的“王牌”！

孔孔說體育

2025-06-14 15:04:05

關鍵時刻又是罰球不中又是失誤，步行者還得謹慎使用側翼新星？

關鍵時刻又是罰球不中又是失誤，步行者還得謹慎使用側翼新星？

稻谷與小麥

2025-06-15 02:18:46

事實證明，蔣雯麗的墮落，是整個演藝圈的“悲哀”和損失

事實證明，蔣雯麗的墮落，是整個演藝圈的“悲哀”和損失

陳穟侃故事

2025-06-06 16:35:53

勢力清算4：徐剛要收回項目

金昔說故事

2025-06-14 16:17:07

上影節紅毯：楊冪再上演“上春山”，章子怡狗啃泥造型用心良苦

上影節紅毯：楊冪再上演“上春山”，章子怡狗啃泥造型用心良苦

古希臘掌管月桂的神

2025-06-14 19:18:30

1-1大冷門，聯賽第8逼平聯賽第1，重慶銅梁龍3輪不勝+丟榜首寶座

1-1大冷門，聯賽第8逼平聯賽第1，重慶銅梁龍3輪不勝+丟榜首寶座

側身凌空斬

2025-06-14 21:30:44

AI產業主平臺領航智能+時代

12876文章數 66068關注度

往期回顧全部

科技要聞

一輛新車比特斯拉FSD都便宜，全行業陪葬？

頭條要聞

以防長威脅哈梅內伊：若繼續發射導彈德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊：若繼續發射導彈德黑蘭將成火海

體育要聞

約戰天王山，步行者G4輸在了哪？

娛樂要聞

小S迎47歲生日，首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

藝術

家居

本地

公開課

房產要聞

又一城購房補貼！買房就發錢，正在海南樓市瘋狂擴散！

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

家居要聞

森林幾何極簡灰調原木風

精致奢華豐富的連貫空間
木質灰調現代輕奢質感
高級質感灰調木紋布藝

本地新聞

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：亚洲精品久久久久久久蜜桃| 亚洲精品久久久久久动漫器材一区| 亚洲精品成人网站在线播放| 日韩人妻熟女中文字幕aⅴ春菜| 成人免费黄色| 色偷偷人人澡久久超碰97| av无码久久久久不卡网站下载| 亚洲欧美黑人深喉猛交群| 疯狂做受xxxx高潮视频免费| 全部孕妇毛片丰满孕妇孕交| 日本丰满熟妇videossex8k| 99久热国产精品视频尤物| 久久精品国产一区二区三区| 国内精品久久人妻朋友| 亚洲精品一区二区不卡| 久久婷婷色香五月综合缴缴情| 丝袜亚洲精品中文字幕一区| 欧美xxxxx精品| 新妺妺窝人体色7777太粗| 97人人模人人爽人人少妇| 特级做a爰片毛片免费看108| h肉动漫无码无修6080动漫网| 热久久美女精品天天吊色| 无遮挡色视频免费观看| 国产xxxxx在线观看| 亚洲精品无码鲁网午夜| 久久性色欲av免费精品观看| 亚洲成av人片一区二区密柚| 欧美又粗又大xxxxbbbb疯狂| 亚洲精品一区三区三区在线观看| 精品国产yw在线观看| 欧美精品日韩精品一卡| 国产又色又爽又黄刺激在线视频| 久久人人爽人人人人片| 久久久久久久久免费看无码| 很黄很色很污18禁免费| 国产精品福利自产拍在线观看| 成人国产欧美大片一区| 国产99久久精品一区二区| 国产又色又爽又黄刺激视频| 极品少妇小泬50pthepon|

<nav id="i6ag6"></nav>

<bdo id="i6ag6"></bdo>

<bdo id="i6ag6"><tfoot id="i6ag6"></tfoot></bdo>

<center id="i6ag6"><option id="i6ag6"></option></center>