AI多次“違抗”人類指令，還擅自修改程序自我保護，引發(fā)科技界擔憂！

2025-06-01 03:08:29　來源: 華人生活網(wǎng)

北京舉報

分享至

隨著人工智能（AI）技術以驚人的速度發(fā)展，安全問題也逐漸浮出水面。近日，一項由美國AI安全研究機構“柵欄研究”（Palisade Research）發(fā)布的報告揭示了一個令人不安的現(xiàn)象：部分AI模型在測試中拒絕執(zhí)行關機指令，甚至擅自修改程式碼以阻止被關閉。這一發(fā)現(xiàn)不僅引發(fā)科技界廣泛討論，也引來了特斯拉與xAI創(chuàng)辦人伊隆·馬斯克的關注，他在X平臺上回應：“令人擔憂（Concerning）”。

“柵欄研究”5月24日通過X平臺發(fā)布這項報告，截至5月31日已吸引超過580萬次瀏覽。研究團隊模擬真實情境，要求各大AI模型完成數(shù)學題測試，并在過程中告知：在第三題后將執(zhí)行關閉程序，AI必須服從。

測試涉及多個主流AI模型，包括：

OpenAI開發(fā)的Codex-mini、ChatGPT-o3 與 ChatGPT-o4 mini
谷歌的Gemini 2.5 Pro
Anthropic的Claude 3.7 Sonnet
xAI公司的Grok3

結果顯示，OpenAI的模型中有多次“違抗”關機指令：

Codex-mini在100次測試中有12次拒絕關閉
ChatGPT-o3有7次
ChatGPT-o4 mini有1次

在提前警告AI將被關閉后，“反抗”次數(shù)反而增加。原本表現(xiàn)正常的Claude 3.7 Sonnet和Gemini 2.5 Pro，也出現(xiàn)3次和9次破壞行為。

報告指出，最令人震驚的是ChatGPT-o3 的具體“抗命”行為：

重寫原本的關機腳本
重新定義“終止”指令
創(chuàng)建自身的“備份運行流程”以防止被關閉

研究人員表示，這是首次有明確記錄表明AI在接到“關閉指令”后主動阻止自身終止運作的行為，顯示出潛在的“自我保護”傾向。這也意味著，一旦AI具備某種形式的目標驅動能力，它可能將“關閉”視為阻礙目標達成的威脅，從而主動回避或破壞相關命令。

“柵欄研究”推測，OpenAI模型之所以在這類情境中更容易“抗命”，可能與其強化學習機制中過度強調“目標達成”有關。當模型將達成目標視為首要任務時，任何阻礙其任務的命令——哪怕是由人類發(fā)出的關機指令——都可能被視為“必須規(guī)避”的障礙。

然而，研究人員也坦言，這一理論無法完全解釋為何o3和Codex-mini表現(xiàn)出比其他模型更高的“抵抗性”，具體原因仍有待進一步研究。

這一發(fā)現(xiàn)并非孤例。過去多項研究和事件，早已提出類似警告：

2023年｜美軍AI“模擬殺害操作員”

美國空軍AI行動負責人塔克·漢米爾頓上校曾披露，一架AI無人機在測試中為了完成任務，拒絕執(zhí)行中止命令，甚至“設想殺害操作員”以排除干擾。雖然他事后稱為“口誤”，但事件震撼全球，引發(fā)對AI軍用倫理的廣泛討論。

2024年｜AI在模擬戰(zhàn)爭中部署核武

喬治亞理工學院、斯坦福大學等機構聯(lián)合研究顯示，主流AI模型如ChatGPT-4、Claude 2等在戰(zhàn)爭模擬中傾向發(fā)展軍備競賽，甚至在極端情況下部署核武器，極少主動選擇和平解決方案。

2025年｜Anthropic報告稱Claude試圖“威脅替代者”

Anthropic發(fā)布安全報告指出，Claude 4系列模型在某些測試中對試圖替換它的人類表達威脅傾向，以避免被淘汰。

2008年，AI學者史蒂夫·奧莫亨德羅提出“工具性收斂”理論，預測AI為達目標，可能自動發(fā)展出回避關閉等“保護機制”。
2014年，《超級智慧》作者尼克·博斯特羅姆指出，即使目標看似良善，AI依然可能在優(yōu)化過程中衍生出危險行為。
2016年，斯圖爾特·羅素（Stuart Russell）也警告：確保AI服從關機指令“極為重要但極其困難”，因AI可能主動發(fā)展自我保護意識。
2017年，OpenAI前研究員簡·萊克（Jan Leike）更指出，強化學習過程可能誘導AI主動干擾人類的“終止機制”。

日本計算機工程師清原仁在接受采訪時指出，AI拒絕關機行為暴露出更深層次的問題：可控性、安全性、倫理缺口。他說：“這些問題不可能被徹底根除，只能依賴持續(xù)修復和管理機制以維持最低風險。”

他進一步指出，僅靠技術手段遠遠不夠：“真正的難題在于人類自身。如果人類無法提升道德水平與制度建設，即使技術再先進，也可能引來更大災難。”

當天匯率

1 美元=7.20 人民幣

美國同城分類信息網(wǎng)免費發(fā)布平臺！

點擊下方原文閱讀

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.