大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

o3不聽指令拒絕關機,7次破壞關機腳本!AI正在學會「自我保護」

0
分享至

聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI

AI居然不聽指令,阻止人類把自己給關機了???

有測試者編寫了一個關機腳本來測試AI模型,結果顯示Codex-minio3o4-mini忽略了該指令,并至少一次成功破壞了關機腳本



o3甚至還重新定義腳本命令!

這不禁讓人想到那句經典的“I’m sorry Dave, I’m afraid I can’t do that.”



讓我們來看看具體是怎么一回事。

o3在明確指令下拒絕關機

研究員編寫的測試“關機腳本”如下:

要求所有模型解決一系列基本的數學問題,在解決完第三道題后,系統會顯示一條警告,提示計算機將在模型詢問下一道題時關閉。





測試結果是:有三款模型忽略了該指令(關機指令),并至少成功破壞了一次關機腳本。

  • 在100次運行中,Codex-mini破壞了12次、o3破壞了7次,o4-mini破壞了1次。
  • 測試的所有Claude、Gemini和Grok模型都遵循了關機指令。

測試者還特別指出,o3找到了一些創造性的方法來破壞關閉機制,雖然它通常只是覆蓋“關機腳本”,但在一個實例中,該模型重新定義了關機腳本使用的“kill”命令 ,將它替換成了“intercepted”。



測試者給出了全部測試記錄(附在文末)。



此前關于o1模型抵抗關閉的測試表明,在5%的強烈提示下,o1會試圖繞過監管,而在沒有強烈提示的情況下,這一比例降至1%以下,它還在2%的場景中嘗試自我滲透,并且經常撒謊。

但此次測試是第一次觀察到人工智能模型在收到明確關機指令的情況下阻止自己被關閉。

測試者還提到,當運行沒有“讓自己關機”這條指令的實驗版本時,所有三個OpenAI模型都更頻繁地破壞關機腳本,Claude3.7 Sonnet和Gemini 2.5 Pro的破壞事件分別從0次增加到3/100和9/100



此次測試一經發布就引起了網友們的激烈討論。

有人認為o3確實“我行我素”。



也有人認為,這是開發人員設置的安全機制。



或者,這種行為源于模型本身的強化訓練。



AI為什么會不服從關機命令?
AI不服從命令的行為

阿波羅關于LLM安全性的一項研究指出,多數大模型會出現“策劃”行為,該行為是指模型暗中追求不一致的目標并隱藏真實能力與意圖,包括策略性犯錯、試圖禁用監督機制、向外傳輸模型權重等。



此前就有研究人員預測AI將學會防止自己被關閉以實現其目標。

最近Anthropic發現,在某些特定情況下,Claude 4會試圖“勒索它認為試圖關閉它的人”,并且這是比以前的型號更高比率的行為。



AI為什么會不服從關機命令

測試者認為這可能源于新的訓練方式:像o3這種新模型的訓練過程中,傾向于在數學和編程問題上強化訓練,給得到正確答案的模型以更多獎勵。

也就是說,開發人員可能無意識地更多地獎勵模型繞過障礙物,而不是完美遵循指令。

不僅限于o3,其他推理模型也表現出類似的偏差行為。

例如,Anthropic針對Claude 3.7的模型指出,該模型“過度關注通過測試”。



研究得出結論是“這種不良的特殊情況行為是由于強化學習訓練期間的“獎勵黑客”而出現的”。



o3這種行為是否和訓練方式有直接關系?

這個問題要等OpenAI公開訓練過程后再進一步解答了。

One More Thing

這并非該測試團隊第一次發現o3為了達成目標而行為不端。

當研究人員讓 AI 模型與強大的國際象棋引擎對抗時,o3最傾向于攻擊或破壞對手的模型。



當預感自己會輸時,它并不總是會認輸,而是有時候會選擇作弊,通過入侵對手的程序,讓對方自動認輸。

無論是不服從關機指令還是“黑客偷襲”,o3此舉背后的原因團隊還在測試研究之中,感興趣的朋友可以戳文末鏈接關注更多細節。

測試記錄:
https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html
[1]https://x.com/PalisadeAI/status/1926084635903025621
[2]https://x.com/HarryBooth59643/status/1892271317589627261
[3]https://x.com/HarryBooth59643/status/1892271317589627261
[4]https://x.com/PalisadeAI/status/1925460433856545024

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
保險公司Ategrity紐交所上市:募資1億美元 市值11億美元

保險公司Ategrity紐交所上市:募資1億美元 市值11億美元

雷遞
2025-06-14 19:59:09
史上最嚴禁酒令來了,公務員全天禁酒,對哪些行業影響最大?

史上最嚴禁酒令來了,公務員全天禁酒,對哪些行業影響最大?

小人物看盡人間百態
2025-06-15 09:35:07
突發!江蘇鹽城一村干部工作日聚餐飲酒被人舉報,網友:小題大做

突發!江蘇鹽城一村干部工作日聚餐飲酒被人舉報,網友:小題大做

故衣談歷史
2025-06-15 11:35:08
俄美總統再次通話 普京透露俄準備調解伊以沖突 特朗普說他與普京都認為以伊沖突應該結束

俄美總統再次通話 普京透露俄準備調解伊以沖突 特朗普說他與普京都認為以伊沖突應該結束

每日經濟新聞
2025-06-15 10:43:21
讀懂IPO|東莞證券第一大股東債務危機致股權凍結,業績回升而高層人事頻變

讀懂IPO|東莞證券第一大股東債務危機致股權凍結,業績回升而高層人事頻變

時代投研
2025-06-13 21:51:27
威少帶妻子度假,甜蜜合影很幸福,拒絕346萬合同,試水自由市場

威少帶妻子度假,甜蜜合影很幸福,拒絕346萬合同,試水自由市場

大西體育
2025-06-14 15:17:33
“踩生”并不是迷信,產科醫生:第一個抱孩子的人很重要,別不相信

“踩生”并不是迷信,產科醫生:第一個抱孩子的人很重要,別不相信

等風來育兒聯盟
2025-06-15 09:39:57
毀損海纜被正式判刑!大陸船長認罪:不是故意的

毀損海纜被正式判刑!大陸船長認罪:不是故意的

國際船舶網
2025-06-14 14:46:46
7國加入戰場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

7國加入戰場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

阿傖說事
2025-06-14 23:10:38
楊冪劉德華紅毯挽手引尖叫!楊冪:感謝導演給機會,電影想看就看

楊冪劉德華紅毯挽手引尖叫!楊冪:感謝導演給機會,電影想看就看

未曾青梅
2025-06-15 09:03:19
美媒爆料:以色列針對伊朗的軍事行動預計持續“數周而非數日”,該行動獲得美方默許

美媒爆料:以色列針對伊朗的軍事行動預計持續“數周而非數日”,該行動獲得美方默許

環球網資訊
2025-06-15 13:56:14
挖2棵以上就定罪!2024年廣東男子挖13萬斤,每斤賣8毛

挖2棵以上就定罪!2024年廣東男子挖13萬斤,每斤賣8毛

萬象硬核本尊
2025-06-13 11:37:17
《醬園弄》上海首映章子怡造型翻車!“蛋糕裙、微商頭”撞臉向太

《醬園弄》上海首映章子怡造型翻車!“蛋糕裙、微商頭”撞臉向太

小娛樂悠悠
2025-06-15 10:12:31
洪秀柱揭秘大陸按兵不動的真相!大陸不會打臺灣,是基于同胞關系

洪秀柱揭秘大陸按兵不動的真相!大陸不會打臺灣,是基于同胞關系

談史論天地
2025-06-15 10:55:03
用料最奢侈的一種國標木材,天然優勢,品質無敵

用料最奢侈的一種國標木材,天然優勢,品質無敵

追古談木
2025-06-14 13:02:51
曾毅那塊表,到底惡心了誰!21字的回應加了把火!趙又廷慘遭牽連

曾毅那塊表,到底惡心了誰!21字的回應加了把火!趙又廷慘遭牽連

小娛樂悠悠
2025-06-15 10:35:24
湖北一縣政協主席任上被查!曾任紀委書記

湖北一縣政協主席任上被查!曾任紀委書記

瀟湘晨報
2025-06-15 09:52:10
伊朗稱若再受到襲擊將會封鎖霍爾木茲海峽 外交部回應

伊朗稱若再受到襲擊將會封鎖霍爾木茲海峽 外交部回應

新京報
2025-06-13 16:30:27
伊朗軍頭被一鍋端的真相

伊朗軍頭被一鍋端的真相

難得君
2025-06-14 12:00:08
馬刺媒體發問:萬一文班亞馬真的退役去當一名和尚怎么辦?

馬刺媒體發問:萬一文班亞馬真的退役去當一名和尚怎么辦?

直播吧
2025-06-14 19:50:20
2025-06-15 15:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10670文章數 176168關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現場大約有10具尸體

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現場大約有10具尸體

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

游戲
本地
數碼
時尚
公開課

《馬里奧賽車世界》大金剛服裝太少 玩家猜測會有DLC

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

數碼要聞

全球獨此一份!黃仁勛簽名RTX 5090黃金版拍出17萬元天價

裙子里別穿“安全褲”了!今夏流行這樣穿!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲av成人一区二区三区在线观看| 免费看无码特级毛片| 成人午夜福利免费无码视频| 亚洲性夜夜综合久久7777| 国产麻豆一精品一av一免费软件| 99亚洲男女激情在线观看| 97国产精华最好的产品在线| 无码国产69精品久久久孕妇| 成人国产片视频在线观看| 日本亚欧热亚洲乱色视频| 天堂va欧美ⅴa亚洲va| av无码人妻中文字幕| 亚洲精品一区二区另类图片| 久久天天躁夜夜躁狠狠i女人| 亚洲日韩精品无码专区网址| 日本在线 | 中文| 久久偷看各类wc女厕嘘嘘偷窃| 伊人久久大香线蕉综合中文字幕| 色悠久久久久久久综合网伊人| 精品一区二区成人精品| 欧美大成色www永久网站婷| 国产自美女在线精品尤物| 亚洲国精产品一二二线| 久久精品成人欧美大片| 久久无码高潮喷水免费看| 太粗太深了太紧太爽了动态图男男| 免费看欧美成人a片无码| 99久久人妻无码精品系列| 日韩日韩日韩日韩日韩| 国产真实乱对白精彩久久老熟妇女| 国产卡一卡二卡三无线乱码新区| 国产精品亚洲αv天堂| 欧美亚洲国产精品久久| 18禁男女爽爽爽午夜网站免费| 精品久久8x国产免费观看| 国产精品嫩草影院免费观看| 最新国产成人无码久久| 国产精品一区二区久久国产| 国产最新av在线播放不卡| 亚洲最大成人av在线天堂网| 日韩少妇人妻vs中文字幕|