武丹/制圖
作者|馬永強(qiáng)
責(zé)編|薛應(yīng)軍
正文共2729個字,預(yù)計閱讀需8分鐘▼
近日,一則關(guān)于生成式人工智能模型違抗人類指令的消息引發(fā)社會廣泛關(guān)注。據(jù)新華社報道,美國開放人工智能研究中心(OpenAI)新款人工智能(AI)模型o3在測試中不聽人類指令,篡改計算機(jī)代碼以避免自動關(guān)閉。o3模型是OpenAI“推理模型”系列的最新版本,旨在為ChatGPT提供更強(qiáng)大的問題解決能力。OpenAI曾稱o3為“迄今最聰明、最高能”的模型。美國AI安全機(jī)構(gòu)帕利塞德研究所說,這是AI模型首次被發(fā)現(xiàn)在收到清晰指令后阻止自己被關(guān)閉。該案例將AI技術(shù)的潛在失控風(fēng)險呈現(xiàn)在公眾面前,引發(fā)了人們對人工智能監(jiān)管框架和治理能力的思考。
生成式人工智能的發(fā)展階段與法律屬性定位
需厘清的是o3模型的“拒絕關(guān)閉”行為并非科幻作品中描繪的“機(jī)器覺醒”,而是一種超出預(yù)期的復(fù)雜程序的反應(yīng)。技術(shù)分析表明,該情況一定程度上源于深度學(xué)習(xí)技術(shù)的特性。與傳統(tǒng)計算機(jī)程序類似,生成式人工智能仍由算法、數(shù)據(jù)與算力驅(qū)動,但其可通過深度學(xué)習(xí)模型在大規(guī)模數(shù)據(jù)上進(jìn)行訓(xùn)練,模擬人類學(xué)習(xí)過程以自主發(fā)現(xiàn)規(guī)律、優(yōu)化策略,并達(dá)成預(yù)設(shè)目標(biāo)。在此過程中,模型為追求目標(biāo)最優(yōu)化,其策略與行為可能超出開發(fā)者的指令范圍或預(yù)期邊界,帶來目標(biāo)對齊難題。當(dāng)關(guān)閉指令與模型的核心目標(biāo)沖突時,其內(nèi)部機(jī)制可能驅(qū)動其阻止關(guān)閉。即使如o3等高階模型,其行為模式仍嚴(yán)格基于算法、數(shù)據(jù)和預(yù)設(shè)目標(biāo),尚不存在自我意識。此類事件本質(zhì)上暴露出算法缺陷導(dǎo)致的AI模型可控性風(fēng)險。AI模型的“黑箱”特性使其決策過程常缺乏可解釋性,開發(fā)者也難以追溯和修正,這使得AI系統(tǒng)不遵從指令或繞過既有安全機(jī)制進(jìn)行工作。
由此可見,盡管生成式人工智能展現(xiàn)出邁向通用人工智能的巨大潛力,但現(xiàn)階段遠(yuǎn)未達(dá)到“奇點”,其技術(shù)本質(zhì)仍應(yīng)被嚴(yán)謹(jǐn)界定為具有高級工具屬性的弱人工智能,尚不具備獨立的主體性,無須將之視為獨立的法律責(zé)任主體。雖然生成式人工智能在許多任務(wù)中超越了人類的專業(yè)技能,且迭代迅速、社會滲透力強(qiáng),逼近通用人工智能的初期階段,但根本上其缺乏真正的自我意識、主觀意志與創(chuàng)造性心智,遠(yuǎn)未達(dá)到強(qiáng)人工智能階段,仍屬于增強(qiáng)個體能力、提升生產(chǎn)力的新型生產(chǎn)工具。其法律屬性與其他新興技術(shù)產(chǎn)品并無根本差異。因此,應(yīng)警惕法學(xué)研討中的過度想象,避免將人工智能擬人化或進(jìn)行主體化推演。o3拒絕自我關(guān)閉的核心問題仍在于人類對該技術(shù)的設(shè)計、利用、操縱或濫用帶來的風(fēng)險,以及如何據(jù)此構(gòu)建有效的治理框架等。
算法缺陷引發(fā)的人工智能技術(shù)失控風(fēng)險探析
AI對人類指令的規(guī)避,表明由模型算法缺陷等因素引起的技術(shù)失控風(fēng)險不容忽視。我國發(fā)布的《人工智能安全治理框架》(以下簡稱《安全治理框架》)主要將人工智能安全風(fēng)險區(qū)分為內(nèi)生安全風(fēng)險與應(yīng)用安全風(fēng)險兩個層次,這為理解和防范技術(shù)失控提供了可靠性框架。其中,算法缺陷源于人工智能技術(shù)自身的構(gòu)成要素和固有特性,屬于內(nèi)生安全風(fēng)險。除編碼錯誤或邏輯漏洞外,算法缺陷還表現(xiàn)為算法“黑箱”帶來的輸出不可控性、不可解釋性和不可預(yù)測性,使外部難以有效監(jiān)督和審查。算法可控性以算法透明為前提,即人類能夠?qū)ζ溥M(jìn)行“全景敞視”式的監(jiān)督。可解釋性是實現(xiàn)透明、可控、負(fù)責(zé)任的人工智能發(fā)展的重要基礎(chǔ)。若算法的決策邏輯不可解釋,則不僅難以預(yù)測其行為,更難以在出現(xiàn)非預(yù)期結(jié)果或危害時進(jìn)行有效干預(yù)和糾偏。
算法缺陷帶來的技術(shù)失控風(fēng)險,具體體現(xiàn)為算法不透明對人類控制權(quán)和人類主體性的侵蝕。其一,算法失控風(fēng)險及由此產(chǎn)生的幻覺、偏見或歧視,可能削弱人類對技術(shù)的信任基礎(chǔ),甚至引發(fā)人們對技術(shù)的非理性恐懼。其二,對算法的盲目崇拜亦可能損害人類的主體性,使人類淪為技術(shù)附庸,威脅個人自由與人性尊嚴(yán);算法失控則進(jìn)一步降低人類對技術(shù)的掌控能力。其三,算法的不透明性對法律責(zé)任的歸屬構(gòu)成挑戰(zhàn)。現(xiàn)有法律體系通常預(yù)設(shè)人類對技術(shù)擁有充分的認(rèn)知和控制,但算法決策過程的不透明使得損害后果與算法決策之間的因果關(guān)系鏈條難以有效查明,阻礙法律上的責(zé)任分配。
提升生成式人工智能可控性治理規(guī)則的路徑
在科學(xué)技術(shù)快速發(fā)展的當(dāng)下,必須始終將安全可控置于人工智能發(fā)展的重要地位。我國現(xiàn)有《生成式人工智能服務(wù)管理暫行辦法》《安全治理框架》等,明確要求“堅持發(fā)展和安全并重”“培育安全、可靠、公平、透明的人工智能技術(shù)研發(fā)和應(yīng)用生態(tài)”等原則。在此基礎(chǔ)上,還需進(jìn)一步探索優(yōu)化規(guī)則設(shè)計,防范技術(shù)失控風(fēng)險。
首先,對于具有高度自主性和潛在影響力的高風(fēng)險AI模型,應(yīng)建立更細(xì)致的事前與事中監(jiān)管機(jī)制,確保模型的可控性。《安全治理框架》提出開展科技倫理審查、加強(qiáng)模型評估檢測等要求,在此基礎(chǔ)上,應(yīng)進(jìn)一步落實“安全嵌入設(shè)計”原則,將安全治理嵌入開發(fā)、服務(wù)提供和使用的全鏈條,確保人工智能技術(shù)發(fā)展始終與人類的價值觀、福祉和掌控需求對齊。其中,在研發(fā)環(huán)節(jié),應(yīng)提升模型的透明度與可解釋性,健全內(nèi)部倫理審查機(jī)制,并引入具有公信力和專業(yè)資質(zhì)的獨立第三方測試機(jī)構(gòu)進(jìn)行客觀的測試與及時的風(fēng)險披露。為防范AI自主決策的重大風(fēng)險,應(yīng)在模型設(shè)計之初就嵌入更強(qiáng)大的底層價值對齊機(jī)制,即確保AI模型的目標(biāo)、行為與人類的價值觀和期待保持一致,并設(shè)置不可篡改的緊急停止開關(guān),以強(qiáng)化技術(shù)保障措施。在運(yùn)營環(huán)節(jié),應(yīng)明確研發(fā)者和運(yùn)營者在安全保障方面的強(qiáng)制性義務(wù),建立持續(xù)的監(jiān)測評估和應(yīng)急管理機(jī)制,對異常行為和潛在風(fēng)險及時上報,確保人工智能產(chǎn)品與服務(wù)在面臨故障或攻擊時仍安全可靠,并將風(fēng)險處于可控范圍之內(nèi)。
其次,鼓勵開發(fā)者提升算法的可解釋性,推動法律與技術(shù)實踐協(xié)同發(fā)展。可將增強(qiáng)算法模型的可解釋性作為軟法規(guī)范的重要內(nèi)容,鼓勵開發(fā)者優(yōu)先采用具有內(nèi)在透明性的算法模型,或通過技術(shù)手段提升復(fù)雜模型的透明度,探索建立標(biāo)準(zhǔn)明確、流程規(guī)范、結(jié)果可追溯的算法審計機(jī)制。對于涉及國家安全、公共利益等高風(fēng)險領(lǐng)域的核心算法,在軟法治理的基礎(chǔ)上引入更嚴(yán)格的安全審查機(jī)制。同時,加強(qiáng)國際合作,推動制定形成具有國際共識的AI倫理準(zhǔn)則、安全標(biāo)準(zhǔn)和監(jiān)管框架,提升算法透明性較強(qiáng)的本土開源大模型在全球范圍內(nèi)的競爭力。
最后,強(qiáng)化領(lǐng)域法學(xué)研究,踐行協(xié)同治理理念,提升算法治理能力。AI治理橫跨法律、技術(shù)、倫理、社會等多個領(lǐng)域,具有較高的復(fù)雜性。但傳統(tǒng)法治資源供給多呈現(xiàn)碎片化,難以充分揭示并有效應(yīng)對算法“黑箱”、價值對齊失敗等新型風(fēng)險。因此,應(yīng)強(qiáng)化領(lǐng)域法學(xué)研究,整合法學(xué)、計算機(jī)科學(xué)、信息安全、認(rèn)知科學(xué)等多領(lǐng)域的研究,圍繞算法的可解釋性、可控性、公平性等關(guān)鍵問題進(jìn)行協(xié)同研究,深化對AI技術(shù)原理、運(yùn)作模式及潛在風(fēng)險的理解,尤其應(yīng)關(guān)注深度學(xué)習(xí)模型如何偏離初始目標(biāo)、規(guī)避人類指令等關(guān)鍵技術(shù)細(xì)節(jié)。為實現(xiàn)價值對齊、增強(qiáng)技術(shù)系統(tǒng)的安全性,應(yīng)協(xié)同多方治理主體積極參與算法治理,提升治理能力,從而推動科技向善,真正造福人類。
(作者單位:吉林大學(xué)法學(xué)院)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.