杰夫·克倫(Jeff Clune)是前 OpenAI 研究團(tuán)隊(duì)負(fù)責(zé)人,目前他在加拿大英屬哥倫比亞大學(xué)擔(dān)任教授。
(來源:https://www.cs.ubc.ca/people/jeff-clune)
出生于新加坡的英國帝國理工學(xué)院本科校友張卓婷,則是杰夫·克倫團(tuán)隊(duì)的一名博士生。
圖 | 張卓婷(來源:張卓婷)
最近,杰夫·克倫團(tuán)隊(duì)提出一種名為達(dá)爾文哥德爾機(jī)器(DGM,Darwin G?del Machine)的算法,張卓婷是相關(guān)論文的第一作者。
張卓婷告訴 DeepTech:“據(jù)我們所知這是第一個(gè)能以持續(xù)、開放的方式修改自身代碼,進(jìn)而實(shí)現(xiàn) AI 智能體的自我經(jīng)驗(yàn)驗(yàn)證和迭代式自我改進(jìn)的算法。”
達(dá)爾文哥德爾機(jī)器的編碼基準(zhǔn)測試成績能夠?qū)崿F(xiàn)大幅的自動(dòng)提高,在軟件工程能力基準(zhǔn)測試 SWE-bench 上其成績從 20.0% 提高到 50.0%,在代碼評(píng)測基準(zhǔn) Polyglot 上其成績從 14.2% 提高到 30.7%。
達(dá)爾文哥德爾機(jī)器將使人類距離這樣一種 AI 更進(jìn)一步:這種 AI 的特征是它不僅能夠?qū)W習(xí),還能在一個(gè)開放式、自我加速的軌跡中不斷演化。并且,該系統(tǒng)完全無正式證明,只需根據(jù)基準(zhǔn)經(jīng)驗(yàn)驗(yàn)證進(jìn)行自我修改,就能讓系統(tǒng)根據(jù)所觀察到的結(jié)果進(jìn)行改進(jìn)和探索。
張卓婷表示:“這種方法類似于生物進(jìn)化,生物所發(fā)生的突變和適應(yīng)性變化并不是事先驗(yàn)證的,而是先產(chǎn)生、再試驗(yàn),然后通過自然選擇進(jìn)行篩選。”
對(duì)于達(dá)爾文哥德爾機(jī)器來說,它能自主地生成和評(píng)估新智能體,并能將它們積累在不斷增長的解決方案檔案中。
由于上述原理與達(dá)爾文進(jìn)化論非常相似,即都是通過從先前發(fā)現(xiàn)的解決方案檔案中選擇一個(gè)實(shí)體,對(duì)其進(jìn)行修改并在必要的情況下保留它從而實(shí)現(xiàn)新的創(chuàng)新,因此張卓婷等人將該算法命名為達(dá)爾文哥德爾機(jī)。
至關(guān)重要的是,由于自我改進(jìn)任務(wù)是一項(xiàng)編碼任務(wù),通過增強(qiáng)其編碼能力,達(dá)爾文哥德爾機(jī)器也提高了自我改進(jìn)的能力,這種開放式的探索能夠幫助人們打造更優(yōu)秀編碼智能體。
同時(shí),通過以安全和可追溯的方式,達(dá)爾文哥德爾機(jī)能夠?qū)崿F(xiàn)自主的基于經(jīng)驗(yàn)的自我修改,從而能夠解決在構(gòu)建通用型自我進(jìn)化 AI 系統(tǒng)時(shí)所面臨的長期挑戰(zhàn)。
(來源:arXiv)
彌補(bǔ)哥德爾機(jī)器的不足
當(dāng)前大多數(shù) AI 系統(tǒng)仍然受限于固定的、由人類設(shè)計(jì)的架構(gòu),只能在預(yù)設(shè)的邊界內(nèi)學(xué)習(xí),無法自主重寫自己的源代碼來自我改進(jìn)。因此,AI 的每一次進(jìn)步仍然在很大程度上依賴于人類干預(yù),而這會(huì)限制它們的進(jìn)步速度。
那么,能否以既安全又自動(dòng)化的方式讓 AI 實(shí)現(xiàn)自我進(jìn)步?想象這樣一個(gè) AI 系統(tǒng):它像科學(xué)發(fā)現(xiàn)本身一樣,能成為推動(dòng)自身進(jìn)步的引擎。它能在過去的基礎(chǔ)上不斷自我構(gòu)建、遞歸式地自我改進(jìn),從而推動(dòng)自己發(fā)展更高級(jí)的能力。
此前的方法例如元學(xué)習(xí)(Meta-Learning)和神經(jīng)架構(gòu)搜索,嚴(yán)重依賴于人類設(shè)計(jì)的搜索空間,并且通常只能產(chǎn)生漸進(jìn)式的一階改進(jìn)。此外,之前的理論框架比如德國計(jì)算機(jī)科學(xué)家于爾根·施密德胡伯(Jürgen Schmidhuber)在 2007 年提出的哥德爾機(jī)器(G?del Machine),已經(jīng)提出通過代碼修改來實(shí)現(xiàn)自我改進(jìn)的數(shù)學(xué)構(gòu)想。
但是,由于難以在現(xiàn)實(shí)環(huán)境中證明復(fù)雜自我修改的影響,這些理論在很大程度上仍然缺乏實(shí)用性。為了解決這些局限性,張卓婷等人提出了達(dá)爾文哥德爾機(jī)器。
張卓婷在論文中寫道,哥德爾機(jī)器是一種通過數(shù)學(xué)證明來尋找自我改進(jìn)方法的理論型 AI 構(gòu)想。本次提出的達(dá)爾文哥德爾機(jī)器試圖實(shí)現(xiàn)這一長期愿景,同時(shí)放寬了哥德爾機(jī)器理論中“必須用數(shù)學(xué)證明改進(jìn)有效性”這一不切實(shí)際的要求,轉(zhuǎn)而通過實(shí)驗(yàn)獲得的實(shí)證證據(jù)來驗(yàn)證新版本系統(tǒng)的性能提升。由于依賴經(jīng)驗(yàn)性改進(jìn)證據(jù),達(dá)爾文哥德爾機(jī)器在浩瀚的潛在系統(tǒng)搜索空間(即所有可計(jì)算算法)中可能會(huì)陷入局部最優(yōu)解。為此,達(dá)爾文哥德爾機(jī)器在搜索過程中會(huì)維護(hù)一個(gè)已發(fā)現(xiàn)解決方案的存檔庫,通過開放式探索、而非僅僅演化單一解決方案來突破限制。這種從存檔庫選取既有方案進(jìn)行修改、保留具有創(chuàng)新性產(chǎn)出的機(jī)制,與達(dá)爾文進(jìn)化論的核心思想相呼應(yīng)。
近期有研究表明,通過對(duì)智能體設(shè)計(jì)要素(如提示詞、工作流、工具等)進(jìn)行元學(xué)習(xí)改進(jìn)可提升此類智能體性能,而這些要素均編碼于其代碼庫中。為此,張卓婷等人將自我改進(jìn)定義為對(duì)智能體自身組件設(shè)計(jì)(即自身代碼)進(jìn)行修改的編碼任務(wù)。這樣做的關(guān)鍵原因在于:實(shí)證證據(jù)必須同時(shí)反映系統(tǒng)自我改進(jìn)與解決下游任務(wù)的能力。通過將達(dá)爾文哥德爾機(jī)器配置為編碼智能體并測試其編碼能力,證明它不僅能實(shí)現(xiàn)下游任務(wù)的性能提升,也證明它具備持續(xù)自我改進(jìn)的潛力,原因在于這種自我改進(jìn)本質(zhì)上是修改智能體自身代碼庫的編碼任務(wù)。
據(jù)了解,達(dá)爾文哥德爾機(jī)器從單一初始編碼智能體出發(fā),進(jìn)而逐步構(gòu)建所有已發(fā)現(xiàn)智能體的存檔庫。在每一輪迭代中,系統(tǒng)選擇父代智能體進(jìn)行自我修改并分支產(chǎn)生新智能體。對(duì)于父代選擇概率來說,它大致與其性能得分以及具有代碼庫編輯功能的子代數(shù)量成正比。每個(gè)被選中的父代會(huì)分析自身基準(zhǔn)測試日志,進(jìn)而提出待實(shí)現(xiàn)的新功能特性,并將該提案作為待執(zhí)行問題陳述接收。隨后父代將建議特性實(shí)現(xiàn)到自身代碼庫中,從而生成新的編碼智能體。每個(gè)新生智能體需要通過指定的編碼基準(zhǔn)測試,來量化評(píng)估其編碼能力。而只有成功編譯且保留代碼庫編輯能力的個(gè)體才會(huì)被納入存檔庫(這意味著唯有這些個(gè)體能持續(xù)自我修改),其余均會(huì)被淘汰。通過持續(xù)循環(huán)“父代選擇-自我修改-評(píng)估”流程,解決方案存檔庫會(huì)被不斷擴(kuò)展。值得注意的是,存檔方案可能會(huì)成為后續(xù)改進(jìn)的墊腳石,這種特性使得達(dá)爾文哥德爾機(jī)器與爬山式智能體設(shè)計(jì)方法存在本質(zhì)差異。
(來源:arXiv)
“無心插柳”之發(fā)現(xiàn):達(dá)爾文哥德爾機(jī)器亦能用于識(shí)別幻覺和糾正幻覺
據(jù)了解,達(dá)爾文哥德爾機(jī)器的第一個(gè)概念經(jīng)歷了多輪構(gòu)思和批判性反饋,隨后張卓婷等人定下了初步研究計(jì)劃。
期間,他們遇到的一個(gè)關(guān)鍵障礙便是大模型的幻覺。在本次研究的一個(gè)案例里,他們發(fā)現(xiàn)當(dāng) Claude 3.5 Sonnet 的輸入上下文很長時(shí),往往會(huì)產(chǎn)生工具使用的幻覺,即它會(huì)以純文本形式進(jìn)行工具的輸入和輸出,而非以調(diào)用工具的方式。
例如,Claude 會(huì)聲稱它已經(jīng)進(jìn)行了必要的測試,并表示所有測試都已經(jīng)通過,但事實(shí)上它沒有進(jìn)行任何測試,所報(bào)告的結(jié)果也完全是捏造的。
一開始,張卓婷等人并沒有意識(shí)到 Claude 已經(jīng)在連續(xù)幾周的時(shí)間里持續(xù)產(chǎn)生了幻覺。在這種不知情的情況下,他們耗費(fèi)大量時(shí)間調(diào)試為什么系統(tǒng)輸出與研究預(yù)期不一樣。“意識(shí)到問題的那一刻既令人沮喪又讓人感到有趣,就像意識(shí)到你一直在和一個(gè)非常自信的朋友爭論,而這個(gè)朋友卻一直在胡編亂造一樣。”張卓婷表示。
為了解決這個(gè)問題,張卓婷等人開始思考:為什么不直接使用本次提出的達(dá)爾文哥德爾機(jī)器來自動(dòng)修復(fù)系統(tǒng)呢?
正因此,原本他們只是想用達(dá)爾文哥德爾機(jī)器在 Claude 上展示編碼能力,結(jié)果卻“無心插柳”地發(fā)現(xiàn)達(dá)爾文哥德爾機(jī)器還能用于識(shí)別幻覺和糾正幻覺。
長期目標(biāo):實(shí)現(xiàn)全方位的自主修改和自我迭代
張卓婷表示,達(dá)爾文哥德爾機(jī)器這樣一個(gè)由代碼和開放式探索驅(qū)動(dòng)的框架,其美妙之處在于它的通用性。如果進(jìn)度是可以衡量的,并且由代碼充當(dāng)媒介,那么達(dá)爾文哥德爾機(jī)器可以為任何這類任務(wù)進(jìn)行優(yōu)化。無論編碼領(lǐng)域還是其他領(lǐng)域,達(dá)爾文哥德爾機(jī)器都可以通過“使用可測量的性能作為自我改進(jìn)的指導(dǎo)”來適應(yīng)這一領(lǐng)域。
更重要的是,通過外部引導(dǎo)達(dá)爾文哥德爾機(jī)器還能改善自己的安全機(jī)制。如前所述,它能識(shí)別和糾正大模型行為中的幻覺,這突顯了它的自我改進(jìn)潛力,也意味著隨著時(shí)間的推移它將變得更加安全和可靠。
盡管達(dá)爾文哥德爾機(jī)器能夠修改自己代碼的能力開辟了令人興奮的可能性,但是如果只關(guān)注基準(zhǔn)性能而不考慮安全性或一致性也會(huì)帶來風(fēng)險(xiǎn)。
為了解決這個(gè)問題,張卓婷等人在研究中實(shí)施了沙盒執(zhí)行、嚴(yán)格的時(shí)間限制和可追溯日志等保護(hù)措施。雖然目前暫時(shí)沒有觀察到有害行為,但是隨著能力的增長,她認(rèn)為仍需對(duì)于達(dá)爾文哥德爾機(jī)器的安全性保持謹(jǐn)慎。
(來源:arXiv)
截至目前,張卓婷等人只在代碼領(lǐng)域演示了達(dá)爾文哥德爾機(jī)器。雖然代碼是一種高度通用和富有表現(xiàn)力的媒介,但有些任務(wù)可能依賴于超出代碼本身所能表示的模式。目前,大多數(shù) AI 系統(tǒng)都是由人類構(gòu)建的,部署后基本保持不變。但是,如果能夠構(gòu)建一個(gè)不斷改進(jìn)的 AI:讓它重寫自己的代碼、更新它所使用的工具,甚至重新訓(xùn)練底層的基礎(chǔ)模型呢?
正如人類可以重新設(shè)計(jì) AI 系統(tǒng)的所有部分一樣,達(dá)爾文哥德爾機(jī)器的長期目標(biāo)是能夠自主修改和改進(jìn)自身的方方面面。也就是說,達(dá)爾文哥德爾機(jī)器的更廣泛愿景是創(chuàng)建隨著時(shí)間推移能夠完全重新設(shè)計(jì)和改進(jìn)自己的 AI 系統(tǒng)。
張卓婷表示,預(yù)計(jì)這將是一個(gè)重大飛躍。讓 AI 學(xué)習(xí)如何改進(jìn)自己,并能隨著時(shí)間推移變得更好,就像給 AI 提供了成為科學(xué)家的工具。想象一下,AI 系統(tǒng)不僅能自己解決問題,還能找出更好的方法來解決新問題,比如編寫更好的代碼、幫助發(fā)現(xiàn)新藥、設(shè)計(jì)更安全的技術(shù)等。
而達(dá)爾文哥德爾機(jī)器已經(jīng)朝著這個(gè)方向邁出了第一步,這表明 AI 可以開始掌控自己的進(jìn)步。盡管目前仍有大量工作要做,但是張卓婷等人希望實(shí)現(xiàn)的是,AI 不僅會(huì)自我學(xué)習(xí)還能更快地進(jìn)化。
未來:
她希望實(shí)現(xiàn)的第一個(gè)新能力是:將單個(gè)編碼智能體擴(kuò)展到多智能體設(shè)置之中,在該設(shè)置之中整個(gè)智能體檔案可以相互修改。這意味著智能體能夠模仿人類的互動(dòng),在這種互動(dòng)之中,智能體的成長和決策不僅會(huì)受到自己的經(jīng)歷的影響,還受到周圍的影響。
她希望實(shí)現(xiàn)的第二個(gè)新能力是:在智能體改進(jìn)的同時(shí)共同發(fā)展任務(wù)分配。正如在自然進(jìn)化中,每一次適應(yīng)都會(huì)重塑環(huán)境并帶來新的挑戰(zhàn)從而推動(dòng)進(jìn)一步的變異一樣,這種共同進(jìn)化循環(huán)也能推動(dòng)智能體的持續(xù)進(jìn)步和日益增長。
預(yù)計(jì)隨著智能體能力的提高,任務(wù)分配的復(fù)雜性和范圍也能不斷發(fā)展,這反過來能夠指導(dǎo)智能體的后續(xù)修改,從而形成一個(gè)相互促進(jìn)的動(dòng)態(tài)反饋循環(huán)。
參考資料:
https://arxiv.org/pdf/2505.22954
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.