網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

生成式人工智能的技術(shù)失控風(fēng)險與治理規(guī)則優(yōu)化

2025-06-04 08:43:29　來源: 民主與法制時報原創(chuàng)新聞

北京舉報

分享至

武丹/制圖

作者|馬永強(qiáng)

責(zé)編|薛應(yīng)軍

正文共2729個字，預(yù)計閱讀需8分鐘▼

近日，一則關(guān)于生成式人工智能模型違抗人類指令的消息引發(fā)社會廣泛關(guān)注。據(jù)新華社報道，美國開放人工智能研究中心（OpenAI）新款人工智能（AI）模型o3在測試中不聽人類指令，篡改計算機(jī)代碼以避免自動關(guān)閉。o3模型是OpenAI“推理模型”系列的最新版本，旨在為ChatGPT提供更強(qiáng)大的問題解決能力。OpenAI曾稱o3為“迄今最聰明、最高能”的模型。美國AI安全機(jī)構(gòu)帕利塞德研究所說，這是AI模型首次被發(fā)現(xiàn)在收到清晰指令后阻止自己被關(guān)閉。該案例將AI技術(shù)的潛在失控風(fēng)險呈現(xiàn)在公眾面前，引發(fā)了人們對人工智能監(jiān)管框架和治理能力的思考。

生成式人工智能的發(fā)展階段與法律屬性定位

需厘清的是o3模型的“拒絕關(guān)閉”行為并非科幻作品中描繪的“機(jī)器覺醒”，而是一種超出預(yù)期的復(fù)雜程序的反應(yīng)。技術(shù)分析表明，該情況一定程度上源于深度學(xué)習(xí)技術(shù)的特性。與傳統(tǒng)計算機(jī)程序類似，生成式人工智能仍由算法、數(shù)據(jù)與算力驅(qū)動，但其可通過深度學(xué)習(xí)模型在大規(guī)模數(shù)據(jù)上進(jìn)行訓(xùn)練，模擬人類學(xué)習(xí)過程以自主發(fā)現(xiàn)規(guī)律、優(yōu)化策略，并達(dá)成預(yù)設(shè)目標(biāo)。在此過程中，模型為追求目標(biāo)最優(yōu)化，其策略與行為可能超出開發(fā)者的指令范圍或預(yù)期邊界，帶來目標(biāo)對齊難題。當(dāng)關(guān)閉指令與模型的核心目標(biāo)沖突時，其內(nèi)部機(jī)制可能驅(qū)動其阻止關(guān)閉。即使如o3等高階模型，其行為模式仍嚴(yán)格基于算法、數(shù)據(jù)和預(yù)設(shè)目標(biāo)，尚不存在自我意識。此類事件本質(zhì)上暴露出算法缺陷導(dǎo)致的AI模型可控性風(fēng)險。AI模型的“黑箱”特性使其決策過程常缺乏可解釋性，開發(fā)者也難以追溯和修正，這使得AI系統(tǒng)不遵從指令或繞過既有安全機(jī)制進(jìn)行工作。

由此可見，盡管生成式人工智能展現(xiàn)出邁向通用人工智能的巨大潛力，但現(xiàn)階段遠(yuǎn)未達(dá)到“奇點”，其技術(shù)本質(zhì)仍應(yīng)被嚴(yán)謹(jǐn)界定為具有高級工具屬性的弱人工智能，尚不具備獨立的主體性，無須將之視為獨立的法律責(zé)任主體。雖然生成式人工智能在許多任務(wù)中超越了人類的專業(yè)技能，且迭代迅速、社會滲透力強(qiáng)，逼近通用人工智能的初期階段，但根本上其缺乏真正的自我意識、主觀意志與創(chuàng)造性心智，遠(yuǎn)未達(dá)到強(qiáng)人工智能階段，仍屬于增強(qiáng)個體能力、提升生產(chǎn)力的新型生產(chǎn)工具。其法律屬性與其他新興技術(shù)產(chǎn)品并無根本差異。因此，應(yīng)警惕法學(xué)研討中的過度想象，避免將人工智能擬人化或進(jìn)行主體化推演。o3拒絕自我關(guān)閉的核心問題仍在于人類對該技術(shù)的設(shè)計、利用、操縱或濫用帶來的風(fēng)險，以及如何據(jù)此構(gòu)建有效的治理框架等。

算法缺陷引發(fā)的人工智能技術(shù)失控風(fēng)險探析

AI對人類指令的規(guī)避，表明由模型算法缺陷等因素引起的技術(shù)失控風(fēng)險不容忽視。我國發(fā)布的《人工智能安全治理框架》（以下簡稱《安全治理框架》）主要將人工智能安全風(fēng)險區(qū)分為內(nèi)生安全風(fēng)險與應(yīng)用安全風(fēng)險兩個層次，這為理解和防范技術(shù)失控提供了可靠性框架。其中，算法缺陷源于人工智能技術(shù)自身的構(gòu)成要素和固有特性，屬于內(nèi)生安全風(fēng)險。除編碼錯誤或邏輯漏洞外，算法缺陷還表現(xiàn)為算法“黑箱”帶來的輸出不可控性、不可解釋性和不可預(yù)測性，使外部難以有效監(jiān)督和審查。算法可控性以算法透明為前提，即人類能夠?qū)ζ溥M(jìn)行“全景敞視”式的監(jiān)督。可解釋性是實現(xiàn)透明、可控、負(fù)責(zé)任的人工智能發(fā)展的重要基礎(chǔ)。若算法的決策邏輯不可解釋，則不僅難以預(yù)測其行為，更難以在出現(xiàn)非預(yù)期結(jié)果或危害時進(jìn)行有效干預(yù)和糾偏。

算法缺陷帶來的技術(shù)失控風(fēng)險，具體體現(xiàn)為算法不透明對人類控制權(quán)和人類主體性的侵蝕。其一，算法失控風(fēng)險及由此產(chǎn)生的幻覺、偏見或歧視，可能削弱人類對技術(shù)的信任基礎(chǔ)，甚至引發(fā)人們對技術(shù)的非理性恐懼。其二，對算法的盲目崇拜亦可能損害人類的主體性，使人類淪為技術(shù)附庸，威脅個人自由與人性尊嚴(yán)；算法失控則進(jìn)一步降低人類對技術(shù)的掌控能力。其三，算法的不透明性對法律責(zé)任的歸屬構(gòu)成挑戰(zhàn)。現(xiàn)有法律體系通常預(yù)設(shè)人類對技術(shù)擁有充分的認(rèn)知和控制，但算法決策過程的不透明使得損害后果與算法決策之間的因果關(guān)系鏈條難以有效查明，阻礙法律上的責(zé)任分配。

提升生成式人工智能可控性治理規(guī)則的路徑

在科學(xué)技術(shù)快速發(fā)展的當(dāng)下，必須始終將安全可控置于人工智能發(fā)展的重要地位。我國現(xiàn)有《生成式人工智能服務(wù)管理暫行辦法》《安全治理框架》等，明確要求“堅持發(fā)展和安全并重”“培育安全、可靠、公平、透明的人工智能技術(shù)研發(fā)和應(yīng)用生態(tài)”等原則。在此基礎(chǔ)上，還需進(jìn)一步探索優(yōu)化規(guī)則設(shè)計，防范技術(shù)失控風(fēng)險。

首先，對于具有高度自主性和潛在影響力的高風(fēng)險AI模型，應(yīng)建立更細(xì)致的事前與事中監(jiān)管機(jī)制，確保模型的可控性。《安全治理框架》提出開展科技倫理審查、加強(qiáng)模型評估檢測等要求，在此基礎(chǔ)上，應(yīng)進(jìn)一步落實“安全嵌入設(shè)計”原則，將安全治理嵌入開發(fā)、服務(wù)提供和使用的全鏈條，確保人工智能技術(shù)發(fā)展始終與人類的價值觀、福祉和掌控需求對齊。其中，在研發(fā)環(huán)節(jié)，應(yīng)提升模型的透明度與可解釋性，健全內(nèi)部倫理審查機(jī)制，并引入具有公信力和專業(yè)資質(zhì)的獨立第三方測試機(jī)構(gòu)進(jìn)行客觀的測試與及時的風(fēng)險披露。為防范AI自主決策的重大風(fēng)險，應(yīng)在模型設(shè)計之初就嵌入更強(qiáng)大的底層價值對齊機(jī)制，即確保AI模型的目標(biāo)、行為與人類的價值觀和期待保持一致，并設(shè)置不可篡改的緊急停止開關(guān)，以強(qiáng)化技術(shù)保障措施。在運(yùn)營環(huán)節(jié)，應(yīng)明確研發(fā)者和運(yùn)營者在安全保障方面的強(qiáng)制性義務(wù)，建立持續(xù)的監(jiān)測評估和應(yīng)急管理機(jī)制，對異常行為和潛在風(fēng)險及時上報，確保人工智能產(chǎn)品與服務(wù)在面臨故障或攻擊時仍安全可靠，并將風(fēng)險處于可控范圍之內(nèi)。

其次，鼓勵開發(fā)者提升算法的可解釋性，推動法律與技術(shù)實踐協(xié)同發(fā)展。可將增強(qiáng)算法模型的可解釋性作為軟法規(guī)范的重要內(nèi)容，鼓勵開發(fā)者優(yōu)先采用具有內(nèi)在透明性的算法模型，或通過技術(shù)手段提升復(fù)雜模型的透明度，探索建立標(biāo)準(zhǔn)明確、流程規(guī)范、結(jié)果可追溯的算法審計機(jī)制。對于涉及國家安全、公共利益等高風(fēng)險領(lǐng)域的核心算法，在軟法治理的基礎(chǔ)上引入更嚴(yán)格的安全審查機(jī)制。同時，加強(qiáng)國際合作，推動制定形成具有國際共識的AI倫理準(zhǔn)則、安全標(biāo)準(zhǔn)和監(jiān)管框架，提升算法透明性較強(qiáng)的本土開源大模型在全球范圍內(nèi)的競爭力。

最后，強(qiáng)化領(lǐng)域法學(xué)研究，踐行協(xié)同治理理念，提升算法治理能力。AI治理橫跨法律、技術(shù)、倫理、社會等多個領(lǐng)域，具有較高的復(fù)雜性。但傳統(tǒng)法治資源供給多呈現(xiàn)碎片化，難以充分揭示并有效應(yīng)對算法“黑箱”、價值對齊失敗等新型風(fēng)險。因此，應(yīng)強(qiáng)化領(lǐng)域法學(xué)研究，整合法學(xué)、計算機(jī)科學(xué)、信息安全、認(rèn)知科學(xué)等多領(lǐng)域的研究，圍繞算法的可解釋性、可控性、公平性等關(guān)鍵問題進(jìn)行協(xié)同研究，深化對AI技術(shù)原理、運(yùn)作模式及潛在風(fēng)險的理解，尤其應(yīng)關(guān)注深度學(xué)習(xí)模型如何偏離初始目標(biāo)、規(guī)避人類指令等關(guān)鍵技術(shù)細(xì)節(jié)。為實現(xiàn)價值對齊、增強(qiáng)技術(shù)系統(tǒng)的安全性，應(yīng)協(xié)同多方治理主體積極參與算法治理，提升治理能力，從而推動科技向善，真正造福人類。

（作者單位：吉林大學(xué)法學(xué)院）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.