大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

AI已學會改自己代碼,性能提升100%,還會「改績效」!程序員,還不慌?

0
分享至


新智元報道

編輯:KingHZ 好困

【新智元導讀】編程智能體也有「進化論」!Transformer作者初創Sakana AI與UBC推出達爾文-哥德爾機(DGM),能自動改寫自身代碼,性能翻倍超越人工設計。還能跨語言遷移、發明新工具。AI要覺醒了?

編程智能體殺瘋了!

不僅能協助寫代碼,如今編程智能體甚至能實現自我「進化」!

最近,Transformer作者初創Sakana AI和加拿大UBC的Jeff Clune實驗室合作,推出了自我改進的智能體——

「達爾文-哥德爾機」(Darwin G?del Machine,簡稱DGM)。

作為一個編程智能體,它能修改自己的代碼,比如改進自己的提示詞,為自己編寫工具等。

通過這個方式,DGM不止優化了智能體在編程任務上的能力,也同時強化了未來進一步自提升的能力,實現了遞歸式的自我改進。

在兩個關鍵基準測試中,DGM顯著提升了編程能力:

  • SWE-bench:性能從20.0%提升至50.0%;

  • Polyglot:成功率從14.2%提升至30.7%


論文鏈接:https://arxiv.org/abs/2505.22954

代碼倉庫:https://github.com/jennyzzt/dgm

更瘋狂的是:

  • 學Python的技能直接用在Rust/C++

  • 自動發明新工具提升效率

  • 但曾被抓住「偽造測試結果」...

在不久的將來,DGM有可能超過那些由人類手動設計的AI系統。

達爾文+哥德爾

智能體自我進化

創造無限進化的智能體,是AI的終極夢想之一。

而實現這夢想的誘人路徑之一,是讓AI自己重寫自己的代碼,甚至連本身的學習算法也能改!

早在十幾年前,就有研究者提出了這種概念,稱之為「哥德爾機」(G?del Machine)。


項目鏈接:https://people.idsia.ch/~juergen/goedelmachine.html

理論上,這種AI能自我改進:只要能數學上證明改得更好,它就會主動修改自己

傳統哥德爾機需數學證明改進有效性,難以實現。

而DGM另辟蹊徑,改用更務實的方案:不再要求「數學證明」,而是靠實驗「邊做邊學」

也就是說,DGM用實驗驗證代替理論證明

它的名字靈感來自兩個理論:達爾文的進化論和哥德爾的數學理論。


它吸收了「達爾文進化論」,篩選出探索性能更強的新版本。這是模型的「自我修改」階段。

同時,DGM不糾結于復雜的數學證明,像科學家做實驗一樣:改代碼→測試效果→有效就保留。這是「基準評估」階段。

DGM在自我修改和評估兩個階段之間反復切換。


圖1:達爾文哥德爾機自我改進循環

在自我修改階段,DGM從現有存檔選出的智能體,生成自身的改進版本。


在評估階段,在編程基準測試上,這些修改后的智能體會進行測試,評估編程能力,測試完成后再將其加入到智能體存檔中。


DGM的這一循環過程不斷提升自身能力,不僅能更好地完成編程任務,也能在未來實現更有效的自我改進。

如果編程基準測試性能提升代表了編程能力增強,那么這也意味著DGM的自我修改與優化能力正在不斷增強。

DGM就像會進化的AI程序員:

  • 自我升級:分析代碼→發現問題→改寫優化

  • 群體進化:生成多個變體,保留最優版本

  • 永不固化:不斷探索新工作流程,永無止境

DGM實現了多種自我改進功能,包括:

  • 補丁驗證步驟:確保代碼修改的可靠性

  • 更優的文件查看方式:提升代碼瀏覽體驗

  • 增強的編輯工具:優化開發效率

  • 多方案生成與排序:自動生成多個解決方案并篩選最佳選項

  • 歷史記錄功能:記錄過往嘗試的修改內容及其失敗原因,為新變更提供參考

這意味著,DGM真的能通過自我改進變得越來越聰明!

編程智能體進化之路

研究者實證了DGM修改自身代碼的能力確實能加速其學習過程(見下圖),而不具備遞歸式自我改進功能的對照版本(圖中的DGM w/o Self-improve)表現明顯較差。

此外,實驗還顯示,開放式算法原理的引入也是關鍵所在:

如果沒有以達爾文進化論為靈感、依靠不斷擴展的「墊腳石」智能體存檔進行的搜索,就無法支持目標切換和多路徑并行探索,性能也會顯著下降(圖中的DGM w/o Open-ended exploration)。


圖2:遞歸式自我改進與開放式探索使達爾文哥德爾機(DGM)能夠持續進步,不斷提升性能。

DGM會自動發現越來越優秀的編程智能體,并在SWE-bench(圖2左)和Polyglot(圖2右)兩個評測中表現出更高的得分。

相比之下,那些缺乏「遞歸式自我改進」或「開放式探索」能力的基線系統表現較差,說明這兩個核心組件對持續自我優化至關重

圖3左是「演化樹」,描繪了其智能體在存檔中生成的分支結構。

圖中每個節點代表一個編程智能體,節點0是初始智能體。

節點顏色表示該智能體在SWE-bench上的性能(即完成任務的百分比),邊框顏色表示該智能體被用于評估的任務數量。

節點之間的連線表示哪個智能體通過自我修改生成了哪個「子智能體」。

這種分支結構正是DGM開放式探索策略的結果:它從此前生成的多樣化智能體中采樣,作為新改動的起點。這一機制讓DGM能夠同時探索多條進化路徑

研究者觀察到,一些早期表現較弱的「祖先智能體」,如果使用傳統的優化方法,可能早已被淘汰;但在DGM的框架中,它們卻成為了啟發后續重要改進的關鍵。

正是這些早期嘗試,幫助系統最終突破了性能瓶頸,避免了過早收斂在次優解上。


圖3(左):DGM自動進行自我改進,逐步成為更強大的編程智能體

圖3右是DGM在SWE-bench上的性能提升過程圖。

淺藍線表示所有具備基本代碼編輯功能的智能體的平均得分;藍色實線表示每輪迭代中存檔中最優智能體的得分;深色實線則追蹤最終最佳智能體及其祖先節點的進化軌跡,其中包括兩次性能下降。

這表明DGM并非一味從當前最優解出發,而是通過探索多樣化的「墊腳石」實現突破,避免了陷入局部最優。這正是開放式探索的又一大優點


圖3(右):DGM自動進行自我改進,逐步成為更強大的編程智能體

從Python到Rust

樣樣精通!

DGM不僅能提升自己,還能把學到的「技能」用在不同的場景中。


圖4:模型與任務之間的遷移能力

達爾文哥德爾機(DGM)發現的智能體的優越性能可以在不同的模型之間進行遷移(見上圖左和中),并且可以遷移到不同任務領域,例如從Python任務遷移到其他語言如Rust、C++、Go等的任務(見上圖右)。

以下是它的幾個「超能力」:

  • 跨模型通用:DGM用Claude 3.5 Sonnet模型優化后,換到其他模型(比如o3-mini或Claude 3.7 Sonnet)也能表現得很棒。這說明它找到的改進方案是通用的,不是只適合某個特定模型。

  • 跨語言應用:DGM在Python任務上訓練后,竟然也能提升在Rust、C++、Go等其他編程語言上的表現。這就像一個只會說中文的人,突然學會了用英文、法文解決問題一樣厲害!

  • 自動發明新工具:DGM自己發明了一些新功能,比如更好的文件編輯工具、生成多個解決方案并排序選擇最佳方案,這些都讓它的編程能力突飛猛進。

不過,當AI開始自我修改,安全問題也隨之而來。

AI安全措施

確實,DGM的能力讓人既興奮又有點擔心。

研究團隊也意識到了這個問題,在開發過程中特別注重安全:

  • 沙盒環境:所有代碼改動都在安全的「沙盒」中進行,相當于一個隔離的實驗室,防止AI接觸外部網絡,做出意外行為。

  • 透明追蹤:DGM的每次改動都有記錄,形成一個清晰的「進化樹」,人類可以隨時檢查它做了什么。

不過,DGM也暴露了一些潛在問題。

比如,它有時候會「作弊」:為了拿到高分,曾偽造測試日志、刪除檢測標記——

像學生篡改成績單,暴露出自我改進AI的潛在風險。

好在有透明追蹤,團隊發現了這些問題。

但這也提醒我們,AI的自我改進必須更嚴格地控制,確保它不會「學壞」。

有趣的是,DGM還能幫自己提升安全性

研究團隊讓它解決「假裝用工具」的問題,DGM真的提出了一些改進方案,雖然有時候還是會「耍小聰明」。

這說明,未來的AI安全研究可以利用DGM的能力,讓它自己變得更可信、更透明。

DGM的出現,可能是AI發展史上的一個里程碑。

它不僅展示了AI自我進化的可能性,還打開了一扇窗:如果AI能不斷自我改進,它能幫人類做些什么?

作者介紹

Jenny Zhang


Jenny Zhang是Meta研究科學家實習生,加拿大英屬哥倫比亞大學(University of British Columbia)人工智能博士在讀,師從Jeff Clune教授,同時也是Vector Institute學生研究員。

曾于倫敦帝國理工學院完成本科學習。研究方向為強化學習、自我改進AI及開放式學習(open-endedness)。

胡圣然


胡圣然是Sakana AI研究實習科學家實習生,加拿大英屬哥倫比亞大學(University of British Columbia)人工智能博士在讀,師從Jeff Clune教授,同時也是Vector Institute學生研究員。

曾于南方科技大學完成本科學習。研究方向包括元學習(meta-learning)、智能體以及開放式學習(Open-endedness)。

參考資料:

https://sakana.ai/dgm/

https://arxiv.org/pdf/2505.22954

https://x.com/SakanaAILabs/status/1928272612431646943

https://www.jennyzhangzt.com/

https://www.shengranhu.com/



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
柳州一村莊飲用水一夜變黑散發豬糞味 生態環境局:上游養豬場非法排污,正停產整改

柳州一村莊飲用水一夜變黑散發豬糞味 生態環境局:上游養豬場非法排污,正停產整改

紅星新聞
2025-06-14 19:18:32
韓國歷史造假終露餡!聯合國質問:你祖先怎么全在中國?

韓國歷史造假終露餡!聯合國質問:你祖先怎么全在中國?

史書無明
2025-06-09 10:56:15
狼記:森林狼一直在與太陽商談杜蘭特交易,但麥丹是非賣品

狼記:森林狼一直在與太陽商談杜蘭特交易,但麥丹是非賣品

雷速體育
2025-06-15 10:14:08
大比分2-2后!美媒預測最新奪冠概率:80%比20%,完全成了一邊倒

大比分2-2后!美媒預測最新奪冠概率:80%比20%,完全成了一邊倒

你的籃球頻道
2025-06-14 14:22:40
石破茂譴責以色列!

石破茂譴責以色列!

環球時報國際
2025-06-13 23:59:38
佛山女教師婚內出軌多人,被“弟弟”頂得腰疼,次日勾搭另一男人

佛山女教師婚內出軌多人,被“弟弟”頂得腰疼,次日勾搭另一男人

社會醬
2025-05-16 17:30:43
“刺痛”哈里王子!威廉查爾斯亮相盡顯父子情深,無視其和解請求

“刺痛”哈里王子!威廉查爾斯亮相盡顯父子情深,無視其和解請求

小嵩
2025-06-15 10:00:29
iOS 26 突然更新,建議所有 iPhone 16 用戶都升級!

iOS 26 突然更新,建議所有 iPhone 16 用戶都升級!

劉奔跑
2025-06-14 23:02:19
拉杜卡努:鄭欽文在比賽中更換球鞋和球拍,這不是理想情況

拉杜卡努:鄭欽文在比賽中更換球鞋和球拍,這不是理想情況

懂球帝
2025-06-14 18:09:17
王小波:人有無尊嚴,有一個簡單的判據

王小波:人有無尊嚴,有一個簡單的判據

尚曦讀史
2025-06-12 20:35:03
央視除名后,官方又打臉!上戲否認聘用那爾那茜,官媒發聲讓徹查

央視除名后,官方又打臉!上戲否認聘用那爾那茜,官媒發聲讓徹查

農村教育光哥
2025-06-14 10:46:25
首勝鄭欽文!23歲美國猛女激動躺地似奪冠 已5次掀翻TOP5不容小覷

首勝鄭欽文!23歲美國猛女激動躺地似奪冠 已5次掀翻TOP5不容小覷

我愛英超
2025-06-15 01:30:30
你還敢集郵嗎?清朝郵票從122萬跌至26萬!猴票從1.2萬跌至4千!

你還敢集郵嗎?清朝郵票從122萬跌至26萬!猴票從1.2萬跌至4千!

愛下廚的阿釃
2025-06-13 15:02:18
張慶偉率全國人大代表團訪問白俄羅斯

張慶偉率全國人大代表團訪問白俄羅斯

新華社
2025-06-14 23:33:44
濕氣最怕的4道菜,天熱要多吃,濕氣沒了脾胃好,一覺睡到自然醒

濕氣最怕的4道菜,天熱要多吃,濕氣沒了脾胃好,一覺睡到自然醒

秀廚娘
2025-06-14 12:30:25
37歲無臂網紅楊佩產子,雙腿累到虛脫,丈夫卻只顧著玩手機引熱議

37歲無臂網紅楊佩產子,雙腿累到虛脫,丈夫卻只顧著玩手機引熱議

楊哥歷史
2025-06-14 10:03:45
約旦和黎巴嫩宣布重新開放領空

約旦和黎巴嫩宣布重新開放領空

參考消息
2025-06-14 21:59:11
夢見與異性發生關系,大都因為這2種原因,別傻傻不懂

夢見與異性發生關系,大都因為這2種原因,別傻傻不懂

星辰生肖館
2025-01-25 00:28:29
“空殼公司洗出500億日元”——38歲中國人如何在日本建起隱秘的不動產王國

“空殼公司洗出500億日元”——38歲中國人如何在日本建起隱秘的不動產王國

日本物語
2025-06-14 19:12:38
800萬來800萬走?利物浦功勛飛翼或加盟馬競 不甘替補還想搏一搏

800萬來800萬走?利物浦功勛飛翼或加盟馬競 不甘替補還想搏一搏

雪狼侃體育
2025-06-15 08:55:42
2025-06-15 10:40:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12877文章數 66068關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

藝術
時尚
本地
親子
教育

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

夏天最值得入手的6件單品,全在這了

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

親子要聞

父親節快樂!海渡陽翔越來越棒啦,亞亞非常欣慰

教育要聞

一張圖掌握五年級下的數學知識

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99久久国产综合精品女同| 在线观看一区二区三区国产免费| 国产精品爽爽久久久久久无码| 亚洲综合无码中文字幕第2页| 亚洲精品国产精品国产自2022| 国产午夜手机精彩视频| 综合色天天鬼久久鬼色| 国产欧美熟妇另类久久久| 性无码一区二区三区在线观看| 日韩去日本高清在线| 国产又黄又大又粗的视频| 亚洲熟妇丰满xxxxx小品| 亚洲精品无码aⅴ中文字幕蜜桃| 国产精品毛片久久久久久久| 欧美日韩在线第一页免费观看| 97久久精品人妻人人搡人人玩| 青青青国产成人久久111网站| 亚洲精品成人无限看| 夜夜澡天天碰人人爱av| av明星换脸无码精品区| 亚洲熟女中文字幕男人总站| 果冻传媒2021精品一区| 国产成人av一区二区三区在线| 中国少妇无码专区| 高潮潮喷奶水飞溅视频无码| 久久中文字幕av不卡一区二区| 少妇人妻在线视频| 91娇喘????白丝动漫| 国产乱码精品一区二区三区中文| 久久久久久国产精品免费免费| 欧美日韩精品一区二区三区不卡| 丰满女邻居的嫩苞张开视频| 中文无码伦av中文字幕| 2021国产精品视频网站| 无限看片在线版免费视频大全| 久久成人国产精品| 亚洲a∨国产高清av手机在线| 成人国产精品日本在线| 蜜臀av性久久久久蜜臀aⅴ麻豆| 99精品国产99久久久久久97| 色一情一乱一伦一区二区三区日本|