網易首頁 > 網易號 > 正文申請入駐

AI已學會改自己代碼，性能提升100%，還會「改績效」！程序員，還不慌？

2025-06-02 18:26:24　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ 好困

【新智元導讀】編程智能體也有「進化論」！Transformer作者初創Sakana AI與UBC推出達爾文-哥德爾機（DGM），能自動改寫自身代碼，性能翻倍超越人工設計。還能跨語言遷移、發明新工具。AI要覺醒了？

編程智能體殺瘋了！

不僅能協助寫代碼，如今編程智能體甚至能實現自我「進化」！

最近，Transformer作者初創Sakana AI和加拿大UBC的Jeff Clune實驗室合作，推出了自我改進的智能體——

「達爾文-哥德爾機」（Darwin G?del Machine，簡稱DGM）。

作為一個編程智能體，它能修改自己的代碼，比如改進自己的提示詞，為自己編寫工具等。

通過這個方式，DGM不止優化了智能體在編程任務上的能力，也同時強化了未來進一步自提升的能力，實現了遞歸式的自我改進。

在兩個關鍵基準測試中，DGM顯著提升了編程能力：

SWE-bench：性能從20.0%提升至50.0%；
Polyglot：成功率從14.2%提升至30.7%。

論文鏈接：https://arxiv.org/abs/2505.22954

代碼倉庫：https://github.com/jennyzzt/dgm

更瘋狂的是：

學Python的技能直接用在Rust/C++
自動發明新工具提升效率
但曾被抓住「偽造測試結果」...

在不久的將來，DGM有可能超過那些由人類手動設計的AI系統。

達爾文+哥德爾

智能體自我進化

創造無限進化的智能體，是AI的終極夢想之一。

而實現這夢想的誘人路徑之一，是讓AI自己重寫自己的代碼，甚至連本身的學習算法也能改！

早在十幾年前，就有研究者提出了這種概念，稱之為「哥德爾機」（G?del Machine）。

項目鏈接：https://people.idsia.ch/~juergen/goedelmachine.html

在理論上，這種AI能自我改進：只要能數學上證明改得更好，它就會主動修改自己！

傳統哥德爾機需數學證明改進有效性，難以實現。

而DGM另辟蹊徑，改用更務實的方案：不再要求「數學證明」，而是靠實驗「邊做邊學」。

也就是說，DGM用實驗驗證代替理論證明。

它的名字靈感來自兩個理論：達爾文的進化論和哥德爾的數學理論。

它吸收了「達爾文進化論」，篩選出探索性能更強的新版本。這是模型的「自我修改」階段。

同時，DGM不糾結于復雜的數學證明，像科學家做實驗一樣：改代碼→測試效果→有效就保留。這是「基準評估」階段。

DGM在自我修改和評估兩個階段之間反復切換。

圖1：達爾文哥德爾機自我改進循環

在自我修改階段，DGM從現有存檔選出的智能體，生成自身的改進版本。

在評估階段，在編程基準測試上，這些修改后的智能體會進行測試，評估編程能力，測試完成后再將其加入到智能體存檔中。

DGM的這一循環過程不斷提升自身能力，不僅能更好地完成編程任務，也能在未來實現更有效的自我改進。

如果編程基準測試性能提升代表了編程能力增強，那么這也意味著DGM的自我修改與優化能力正在不斷增強。

DGM就像會進化的AI程序員：

自我升級：分析代碼→發現問題→改寫優化
群體進化：生成多個變體，保留最優版本
永不固化：不斷探索新工作流程，永無止境

DGM實現了多種自我改進功能，包括：

補丁驗證步驟：確保代碼修改的可靠性
更優的文件查看方式：提升代碼瀏覽體驗
增強的編輯工具：優化開發效率
多方案生成與排序：自動生成多個解決方案并篩選最佳選項
歷史記錄功能：記錄過往嘗試的修改內容及其失敗原因，為新變更提供參考

這意味著，DGM真的能通過自我改進變得越來越聰明！

編程智能體進化之路

研究者實證了DGM修改自身代碼的能力確實能加速其學習過程（見下圖），而不具備遞歸式自我改進功能的對照版本（圖中的DGM w/o Self-improve）表現明顯較差。

此外，實驗還顯示，開放式算法原理的引入也是關鍵所在：

如果沒有以達爾文進化論為靈感、依靠不斷擴展的「墊腳石」智能體存檔進行的搜索，就無法支持目標切換和多路徑并行探索，性能也會顯著下降（圖中的DGM w/o Open-ended exploration）。

圖2：遞歸式自我改進與開放式探索使達爾文哥德爾機（DGM）能夠持續進步，不斷提升性能。

DGM會自動發現越來越優秀的編程智能體，并在SWE-bench（圖2左）和Polyglot（圖2右）兩個評測中表現出更高的得分。

相比之下，那些缺乏「遞歸式自我改進」或「開放式探索」能力的基線系統表現較差，說明這兩個核心組件對持續自我優化至關重

圖3左是「演化樹」，描繪了其智能體在存檔中生成的分支結構。

圖中每個節點代表一個編程智能體，節點0是初始智能體。

節點顏色表示該智能體在SWE-bench上的性能（即完成任務的百分比），邊框顏色表示該智能體被用于評估的任務數量。

節點之間的連線表示哪個智能體通過自我修改生成了哪個「子智能體」。

這種分支結構正是DGM開放式探索策略的結果：它從此前生成的多樣化智能體中采樣，作為新改動的起點。這一機制讓DGM能夠同時探索多條進化路徑。

研究者觀察到，一些早期表現較弱的「祖先智能體」，如果使用傳統的優化方法，可能早已被淘汰；但在DGM的框架中，它們卻成為了啟發后續重要改進的關鍵。

正是這些早期嘗試，幫助系統最終突破了性能瓶頸，避免了過早收斂在次優解上。

圖3（左）：DGM自動進行自我改進，逐步成為更強大的編程智能體

圖3右是DGM在SWE-bench上的性能提升過程圖。

淺藍線表示所有具備基本代碼編輯功能的智能體的平均得分；藍色實線表示每輪迭代中存檔中最優智能體的得分；深色實線則追蹤最終最佳智能體及其祖先節點的進化軌跡，其中包括兩次性能下降。

這表明DGM并非一味從當前最優解出發，而是通過探索多樣化的「墊腳石」實現突破，避免了陷入局部最優。這正是開放式探索的又一大優點。

圖3（右）：DGM自動進行自我改進，逐步成為更強大的編程智能體

從Python到Rust

樣樣精通！

DGM不僅能提升自己，還能把學到的「技能」用在不同的場景中。

圖4：模型與任務之間的遷移能力

達爾文哥德爾機（DGM）發現的智能體的優越性能可以在不同的模型之間進行遷移（見上圖左和中），并且可以遷移到不同任務領域，例如從Python任務遷移到其他語言如Rust、C++、Go等的任務（見上圖右）。

以下是它的幾個「超能力」：

跨模型通用：DGM用Claude 3.5 Sonnet模型優化后，換到其他模型（比如o3-mini或Claude 3.7 Sonnet）也能表現得很棒。這說明它找到的改進方案是通用的，不是只適合某個特定模型。
跨語言應用：DGM在Python任務上訓練后，竟然也能提升在Rust、C++、Go等其他編程語言上的表現。這就像一個只會說中文的人，突然學會了用英文、法文解決問題一樣厲害！
自動發明新工具：DGM自己發明了一些新功能，比如更好的文件編輯工具、生成多個解決方案并排序選擇最佳方案，這些都讓它的編程能力突飛猛進。

不過，當AI開始自我修改，安全問題也隨之而來。

AI安全措施

確實，DGM的能力讓人既興奮又有點擔心。

研究團隊也意識到了這個問題，在開發過程中特別注重安全：

沙盒環境：所有代碼改動都在安全的「沙盒」中進行，相當于一個隔離的實驗室，防止AI接觸外部網絡，做出意外行為。
透明追蹤：DGM的每次改動都有記錄，形成一個清晰的「進化樹」，人類可以隨時檢查它做了什么。

不過，DGM也暴露了一些潛在問題。

比如，它有時候會「作弊」：為了拿到高分，曾偽造測試日志、刪除檢測標記——

像學生篡改成績單，暴露出自我改進AI的潛在風險。

好在有透明追蹤，團隊發現了這些問題。

但這也提醒我們，AI的自我改進必須更嚴格地控制，確保它不會「學壞」。

有趣的是，DGM還能幫自己提升安全性。

研究團隊讓它解決「假裝用工具」的問題，DGM真的提出了一些改進方案，雖然有時候還是會「耍小聰明」。

這說明，未來的AI安全研究可以利用DGM的能力，讓它自己變得更可信、更透明。

DGM的出現，可能是AI發展史上的一個里程碑。

它不僅展示了AI自我進化的可能性，還打開了一扇窗：如果AI能不斷自我改進，它能幫人類做些什么？

作者介紹

Jenny Zhang

Jenny Zhang是Meta研究科學家實習生，加拿大英屬哥倫比亞大學（University of British Columbia）人工智能博士在讀，師從Jeff Clune教授，同時也是Vector Institute學生研究員。

曾于倫敦帝國理工學院完成本科學習。研究方向為強化學習、自我改進AI及開放式學習(open-endedness)。

胡圣然

胡圣然是Sakana AI研究實習科學家實習生，加拿大英屬哥倫比亞大學（University of British Columbia）人工智能博士在讀，師從Jeff Clune教授，同時也是Vector Institute學生研究員。

曾于南方科技大學完成本科學習。研究方向包括元學習(meta-learning)、智能體以及開放式學習(Open-endedness)。

參考資料：

https://sakana.ai/dgm/

https://arxiv.org/pdf/2505.22954

https://x.com/SakanaAILabs/status/1928272612431646943

https://www.jennyzhangzt.com/

https://www.shengranhu.com/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.