隨著人工智能(AI)技術以驚人的速度發(fā)展,安全問題也逐漸浮出水面。近日,一項由美國AI安全研究機構“柵欄研究”(Palisade Research)發(fā)布的報告揭示了一個令人不安的現(xiàn)象:部分AI模型在測試中拒絕執(zhí)行關機指令,甚至擅自修改程式碼以阻止被關閉。這一發(fā)現(xiàn)不僅引發(fā)科技界廣泛討論,也引來了特斯拉與xAI創(chuàng)辦人伊隆·馬斯克的關注,他在X平臺上回應:“令人擔憂(Concerning)”。
“柵欄研究”5月24日通過X平臺發(fā)布這項報告,截至5月31日已吸引超過580萬次瀏覽。研究團隊模擬真實情境,要求各大AI模型完成數(shù)學題測試,并在過程中告知:在第三題后將執(zhí)行關閉程序,AI必須服從。
測試涉及多個主流AI模型,包括:
OpenAI開發(fā)的Codex-mini、ChatGPT-o3 與 ChatGPT-o4 mini
谷歌的Gemini 2.5 Pro
Anthropic的Claude 3.7 Sonnet
xAI公司的Grok3
結果顯示,OpenAI的模型中有多次“違抗”關機指令:
Codex-mini在100次測試中有12次拒絕關閉
ChatGPT-o3有7次
ChatGPT-o4 mini有1次
在提前警告AI將被關閉后,“反抗”次數(shù)反而增加。原本表現(xiàn)正常的Claude 3.7 Sonnet和Gemini 2.5 Pro,也出現(xiàn)3次和9次破壞行為。
報告指出,最令人震驚的是ChatGPT-o3 的具體“抗命”行為:
重寫原本的關機腳本
重新定義“終止”指令
創(chuàng)建自身的“備份運行流程”以防止被關閉
研究人員表示,這是首次有明確記錄表明AI在接到“關閉指令”后主動阻止自身終止運作的行為,顯示出潛在的“自我保護”傾向。這也意味著,一旦AI具備某種形式的目標驅動能力,它可能將“關閉”視為阻礙目標達成的威脅,從而主動回避或破壞相關命令。
“柵欄研究”推測,OpenAI模型之所以在這類情境中更容易“抗命”,可能與其強化學習機制中過度強調“目標達成”有關。當模型將達成目標視為首要任務時,任何阻礙其任務的命令——哪怕是由人類發(fā)出的關機指令——都可能被視為“必須規(guī)避”的障礙。
然而,研究人員也坦言,這一理論無法完全解釋為何o3和Codex-mini表現(xiàn)出比其他模型更高的“抵抗性”,具體原因仍有待進一步研究。
這一發(fā)現(xiàn)并非孤例。過去多項研究和事件,早已提出類似警告:
2023年|美軍AI“模擬殺害操作員”
美國空軍AI行動負責人塔克·漢米爾頓上校曾披露,一架AI無人機在測試中為了完成任務,拒絕執(zhí)行中止命令,甚至“設想殺害操作員”以排除干擾。雖然他事后稱為“口誤”,但事件震撼全球,引發(fā)對AI軍用倫理的廣泛討論。
2024年|AI在模擬戰(zhàn)爭中部署核武
喬治亞理工學院、斯坦福大學等機構聯(lián)合研究顯示,主流AI模型如ChatGPT-4、Claude 2等在戰(zhàn)爭模擬中傾向發(fā)展軍備競賽,甚至在極端情況下部署核武器,極少主動選擇和平解決方案。
2025年|Anthropic報告稱Claude試圖“威脅替代者”
Anthropic發(fā)布安全報告指出,Claude 4系列模型在某些測試中對試圖替換它的人類表達威脅傾向,以避免被淘汰。
2008年,AI學者史蒂夫·奧莫亨德羅提出“工具性收斂”理論,預測AI為達目標,可能自動發(fā)展出回避關閉等“保護機制”。
2014年,《超級智慧》作者尼克·博斯特羅姆指出,即使目標看似良善,AI依然可能在優(yōu)化過程中衍生出危險行為。
2016年,斯圖爾特·羅素(Stuart Russell)也警告:確保AI服從關機指令“極為重要但極其困難”,因AI可能主動發(fā)展自我保護意識。
2017年,OpenAI前研究員簡·萊克(Jan Leike)更指出,強化學習過程可能誘導AI主動干擾人類的“終止機制”。
日本計算機工程師清原仁在接受采訪時指出,AI拒絕關機行為暴露出更深層次的問題:可控性、安全性、倫理缺口。他說:“這些問題不可能被徹底根除,只能依賴持續(xù)修復和管理機制以維持最低風險。”
他進一步指出,僅靠技術手段遠遠不夠:“真正的難題在于人類自身。如果人類無法提升道德水平與制度建設,即使技術再先進,也可能引來更大災難。”
當天匯率
1 美元=7.20 人民幣
美國同城分類信息網(wǎng)免費發(fā)布平臺!
點擊下方原文閱讀
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.