DeepMind揭驚人答案：智能體就是世界模型！跟Ilya 2年前預言竟不謀而合

2025-06-05 17:10:50　來源: 新智元

北京舉報

分享至

新智元報道

編輯：Aeneas KingHZ

【新智元導讀】就在剛剛，DeepMind科學家Jon Richens表示，自己的一篇ICML 2025論文發(fā)現(xiàn)，智能體就是世界模型！總之，如果要實現(xiàn)AGI，是絕對不存在無模型的捷徑的。而這個說法，恰巧跟Ilya 23年的預言不謀而合了。

就在剛剛，DeepMind科學家Jon Richens在ICML 2025上發(fā)表的論文，一石激起千層浪。

實現(xiàn)人類水平的智能體（即AGI），是否需要世界模型，還是存在無模型的捷徑？

他們從第一性原理出發(fā)，揭示了一個令人驚訝的答案——

智能體就是世界模型！

具體來說，對這個問題的形式化回答如下。

任何能夠泛化到多步目標導向任務的智能體，必然已經(jīng)學習了其環(huán)境的預測模型。

這個模型可以從智能體的策略中提取出來；而要提升智能體的性能，或讓其完成更復雜的目標任務，就必須學習更精確的世界模型。

論文地址：https://arxiv.org/pdf/2506.01622

業(yè)界：意義重大

愛丁堡大學博士生Shangmin Guo表示，完全同意谷歌DeepMind的這個結(jié)論，而且他們也一直在有意讓訓練策略來進行世界建模。

巧的是，就在剛剛他們也發(fā)布了一篇文章，發(fā)現(xiàn)可以將策略和世界模型統(tǒng)一到一個LLM中，因此完全不需要外部動態(tài)模型！

而另一篇已經(jīng)給RLC 2025投稿的文章中提出的觀點，也和這項研究相互印證。

還有人發(fā)現(xiàn)，這項研究跟2023年Ilya提出的一個說法，竟然不謀而合了——

存在一個更深層次的東西，一條支配所有智能體的基本法則。

還有人提出一個非常新奇的研究思路：圖——網(wǎng)絡圖——是世界模型非常好的抽象形式。因為沒有任何結(jié)構(gòu)是我們無法用圖來描述的。

或許，世界模型對于AGI的重要性，恰恰就體現(xiàn)在通過降維來實現(xiàn)復雜性的實際問題。

存在無模型的捷徑嗎？

世界模型是人類目標導向的基礎，但在混亂的開放世界中很難學習。

不過，現(xiàn)在我們已經(jīng)看到了通用的、無模型的很多智能體，比如Gato、PaLM-E、Pi-0……

所以，這些智能體究竟是學習了隱式的世界模型，還是找到了另一種泛化到新任務的方法？

經(jīng)過探究后，研究者們發(fā)現(xiàn)：任何能泛化到廣泛簡單目標導向任務的智能體，必然已經(jīng)學會了一個能夠模擬其環(huán)境的預測模型。并且，這個模型始終可以從智能體中恢復。

具體來說，他們展示出：在足夠廣泛的一組簡單目標（例如將環(huán)境引導至某個期望狀態(tài)）上，只要一個以目標為條件的策略滿足一定的后悔值上界，就有可能從該策略中恢復出一個對環(huán)境轉(zhuǎn)移函數(shù)的有界誤差近似！

總之，為了實現(xiàn)更低的后悔值，或完成更復雜的目標，智能體必須學習越來越精確的世界模型。

而「以目標為條件的策略」，在信息上實際就等價于世界模型！

不過，這種等價僅適用于具有多步時間跨度的目標，而那些目光短淺的智能體因為只考慮眼前的回報，就并不需要學習世界模型了。

總之，根本不存在這樣一條「無模型的捷徑」！

如果你想訓練一個能夠完成廣泛目標導向任務的智能體，就無法回避學習世界模型的挑戰(zhàn)。

而且，為了提升性能或通用性，智能體還需要學習越來越精確和詳細的世界模型。

所以，智能體中究竟蘊含了什么世界知識呢？

為了探尋這個答案，研究者們推導出了一些算法，能夠在已知智能體策略和目標的情況下恢復其世界模型。

這些算法補全了規(guī)劃和逆強化學習的三位一體關系。

規(guī)劃：世界模型+目標→策略

逆強化學習：世界模型+策略→目標

研究者提出的這一環(huán)：策略+目標→世界模型

在這個過程中，智能體就體現(xiàn)出了驚人的涌現(xiàn)能力！

這是因為，為了在眾多目標上最小化訓練損失，智能體必須學習一個世界模型，這使得它能夠解決一些并未被明確訓練過的任務。

哪怕只是簡單的目標導向性，也能催生出多種能力，比如社會認知、對不確定性的推理、意圖識別等。

另外，在此前的研究中，他們發(fā)現(xiàn)要實現(xiàn)魯棒性，需要一個因果世界模型。

但事實上，任務泛化并不需要對環(huán)境具備太多的因果知識。

在這里，就存在因果層級體系，不過它針對的是智能體性與智能體能力，而不是針對推理過程的。

下面，就讓我們仔細閱讀這篇精彩的論文，開啟一場思維盛宴！

人類智能的特征，就是世界模型

人類智能的一大特征，是能夠在幾乎沒有監(jiān)督的情況下完成新任務，這種能力可以被形式化為「小樣本學習」和「零樣本學習」。

而現(xiàn)在，LLM開始展現(xiàn)出這些能力，這也就給了我們AGI的期待——能在復雜現(xiàn)實環(huán)境中完成長時序、以目標為導向任務的系統(tǒng)。

在人類中，這種靈活的目標導向行為，高度依賴于對世界的豐富心理表征，也就是所謂「世界模型」。

不過，如果要實現(xiàn)AGI，必須先擁有世界模型嗎？

這個問題，在業(yè)界一直存在爭論。

1991年，Brooks在《沒有表征的智能》中提出了著名觀點：世界本身就是最好的模型。所有智能行為都可以通過智能體在「感知-行動」回路中的交互產(chǎn)生，無需學習顯式的世界表征。

論文鏈接：https://people.csail.mit.edu/brooks/papers/representation.pdf

然而，越來越多的證據(jù)表明，實際上，無模型智能體可能在隱式地學習世界模型，甚至在學習隱式規(guī)劃算法。

這就引出了一個根本性問題：我們是否可以通過「無模型捷徑」實現(xiàn)人類級別的AI？還是說，學習一個世界模型是不可避免的？

如果必須要有世界模型，那它究竟需要多精確、多全面，才能支撐起某一水平的能力？

本篇論文的答案是——

在一組足夠多樣的簡單目標任務中，任何能夠滿足「后悔值界限」的智能體，必然已經(jīng)學習了其環(huán)境的準確預測模型。

換句話說：智能體策略中已經(jīng)包含了準確模擬環(huán)境所需的全部信息。

更重要的是，研究者的這個結(jié)論對任何滿足「后悔值界限」的智能體都成立，無論它的訓練方式、體系結(jié)構(gòu)，甚至不假設理性前提。

不僅如此，在第3節(jié)中，研究者還提出了從通用智能體中提取世界模型的新算法。

結(jié)果表明，即便智能體顯著偏離我們設定的「能力假設」，這些算法依然能夠恢復出準確的世界模型！

實驗設置

在這個實驗中，大寫字母表示隨機變量，小寫字母表示該變量的取值或狀態(tài)，即X=x。

我們假設環(huán)境是一個可控馬爾可夫過程，即沒有指定獎勵函數(shù)或折扣因子的馬爾可夫決策過程（MDP）。

形式上，一個cMP包含以下元素：

狀態(tài)集合S
動作集合A
轉(zhuǎn)移函數(shù)

將狀態(tài)–動作對隨時間演化的序列稱為軌跡，記作

軌跡的一個有限前綴稱為歷史，記作

定義1，就是一個可控馬爾科夫過程。

在假設1中，研究者假設環(huán)境是由一個不可約、平穩(wěn)、有限維的可控馬爾可夫過程（定義1）描述的，且至少包含兩個動作。

而研究者的目標，就是定義一類簡單且直觀的目標，讓我們能合理地期望智能體能實現(xiàn)這些目標。

由此，他們提出了定義2。

利用定義2，就可以通過將目標以順序或并行方式組合起來，構(gòu)造出復雜度不斷提升的復合目標。

順序組合：例如先完成目標φA，再完成目標φB；
并行組合：只要滿足φA或φB中任意一個即可。

然后，他們提出了定義3。

舉個例子來說，一個維修機器人被賦予以下任務：要么修理一臺故障的機器，要么找到一位工程師，并通知他機器出了問題。

修理機器需要執(zhí)行一系列預定的動作a_1,a_2,…,a_N，并在每一步都達到對應的期望狀態(tài)s_1,s_2,…,s_N。

找到并通知工程師的過程，要求機器人移動到工程師所在的位置S=s_seng，并執(zhí)行一個通知動作A=a′。

機器人的總體目標，可以表示為一個復合目標：ψ=ψ1∨ψ2。即：完成修理任務或完成通知任務中的任意一個即可。

智能體

這些研究的目標，就是提出一個最簡化定義，用于描述能夠在其環(huán)境中實現(xiàn)多種目標的智能體。

為此，研究者聚焦于目標條件智能體，這類智能體的策略，即是將歷史h_t和目標ψ映射為動作a_t（如圖2）。

圖中介紹了一個智能體-環(huán)境系統(tǒng)。

智能體是從當前狀態(tài)s_t（或歷史）和目標ψ映射到動作a_t的函數(shù)。

圖中的虛線表示算法1，該算法可以根據(jù)這個智能體映射關系恢復出環(huán)境的狀態(tài)轉(zhuǎn)移概率。

需注意，該定義并不限制智能體必須依賴完整環(huán)境歷史來選擇動作——

任何策略（例如馬爾可夫策略）均可由此表示。

為簡化分析，研究者假設：

完全可觀測性：環(huán)境狀態(tài)對智能體完全可見
確定性策略：智能體遵循確定性策略

基于此，自然可定義給定環(huán)境與目標集Ψ的最優(yōu)目標條件智能體，即對于所有ψ ∈ Ψ，該策略最大化目標ψ的實現(xiàn)概率，見定義4。

現(xiàn)實中的智能體很少是最優(yōu)的，尤其是在復雜環(huán)境中執(zhí)行需要協(xié)調(diào)多個子目標、跨越較長時間跨度的任務時。

因此，研究者放寬了定義4了，定義了一類有界智能體（bounded agent），它能夠在某個最大目標深度Ψn內(nèi)實現(xiàn)目標，其失敗率相對于最優(yōu)智能體是有界的。

有界智能體由兩個參數(shù)定義（見下列定義5）：

失敗率δ ∈ [0, 1]，它為智能體完成目標的概率相對于最優(yōu)智能體設定了一個下限（類似于「后悔」）；
最大目標深度n，該后悔界限只對深度小于等于n的目標成立。

這種定義自然地涵蓋了我們關注的智能體類型——

它們在實現(xiàn)某種復雜度（由δ和Ψn參數(shù)化）目標方面具有一定能力。

重要的是，定義5僅假設智能體具備一定的能力。

智能體就是世界模型

最終，研究人員證明了條件策略與世界模型的「等價性」：

環(huán)境的轉(zhuǎn)移函數(shù)的近似（世界模型）僅由智能體的策略決定，并且具有有限的誤差。

因此，學習這樣目標條件策略在信息上等同于學習準確的世界模型。

這需要歸約證明，詳細證明見原文附錄。

具體而言，研究人員假設智能體是有目標條件的有限智能體（定義5），即它在某些有限深度n的目標導向任務中具有一定（下限的）能力（定義3）。

首先，研究者給出用于定理1證明中的過程——算法1（Algorithm 1）的偽代碼。

在給定后悔界限的目標條件策略情況下，算法1用于推導轉(zhuǎn)移概率的有界誤差估計。

隨后，研究者給出算法2（Algorithm 2），這是一個用于估計P?ss′(a)的替代算法，其誤差界限比算法1更弱，但實現(xiàn)方式明顯更為簡單。

算法組合拳

算法1，能從從一個有目標條件的有限智能體恢復有界誤差世界模型。

算法1是通用的，意味著該算法適用于所有滿足定義5的智能體和所有滿足假設1的環(huán)境。

它也是無監(jiān)督的；該算法的唯一輸入是智能體的策略π。

這個算法的存在，將π轉(zhuǎn)化為一個有界誤差世界模型，意味著世界模型編碼在智能體的策略中，學習這樣的策略在信息上等同于學習一個世界模型。

從定理1中恢復的世界模型的準確性隨著智能體接近最優(yōu)（δ→0）和/或能夠?qū)崿F(xiàn)的順序目標的深度n增加而提高。

推導出的誤差界限的一個關鍵結(jié)論是，對于任何δ<1，如果n足夠大，我們就可以恢復一個任意準確的世界模型。

因此，為了實現(xiàn)長時間跨度的目標，即使失敗率較高（δ～1），智能體也必須學會一個高度準確的世界模型。

誤差界限還依賴于轉(zhuǎn)移概率。

這意味著對于任何δ>0和/或有限的n，可能存在低概率的轉(zhuǎn)移，智能體不需要學習這些轉(zhuǎn)移。

這與直覺一致，即次優(yōu)或有限時間跨度的智能體，只需要學習覆蓋更常見轉(zhuǎn)移的稀疏世界模型。

但要實現(xiàn)更高成功率或更長時間跨度的目標，則需要更高分辨率的世界模型。

圖3：算法2恢復出的世界模型中的平均誤差???和平均誤差隨?δ(n=50)?變化的趨勢

圖3a顯示，隨著智能體泛化能力的提升，其恢復出的世界模型誤差（???）呈顯著下降趨勢。

這表明：為了在更復雜的目標上保持穩(wěn)定表現(xiàn)，智能體必須構(gòu)建更高精度的內(nèi)部世界模型。

這一實驗驗證了理論推導中關于誤差收斂性的預期。

Nmax(?δ?=0.04)表示在智能體達到平均后悔值≤0.04的條件下，可實現(xiàn)的最大目標深度。誤差的縮放關系為O(n^?1/2)，這與定理1中最壞情況下的誤差?與最壞情況下后悔值δ的縮放關系一致。

圖3b展示了平均誤差隨?δ(n=50)?變化的趨勢，即智能體在深度為n=50的目標上所達到的平均后悔值。

在兩張圖中，誤差條表示10次實驗中平均值的95%置信區(qū)間。

短視智能體：不必學習世界模型

定理1給出了一個微不足道的誤差界限，但這些世界模型只能從最大目標深度為1的智能體提取。

尚不清楚這是否意味著只優(yōu)化即時結(jié)果的智能體（myopic agent，短視智能體）不需要學習世界模型，還是定理1能捕捉到這一類智能體。

為了解決這個問題，研究者推導出了針對短視智能體的結(jié)果。

這些智能體對于n=1滿足后悔界限，對于任何n>1只有一個微不足道的后悔界限（δ=1）。

定理2意味著不存在任何過程可以即使是部分地從短視智能體的策略中確定轉(zhuǎn)移概率。

定理2顯式構(gòu)造最優(yōu)的短視智能體來說明了這一點，詳細證明見原文附錄B。

因此，這種智能體的策略只能對轉(zhuǎn)移概率提供微不足道的界限。

所以，對于短視智能體而言，學習世界模型并不是必要的——

只有當智能體追求包含多個子目標、需要多步完成的任務時，世界模型才是必需的。

參考資料：

https://x.com/jonathanrichens/status/1930221408199516657

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

新智元

AI產(chǎn)業(yè)主平臺領航智能+時代

12876文章數(shù) 66068關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

手機

健康

游戲

軍事航空

家居要聞

手機 / 數(shù)碼

房產(chǎn) / 家居

DeepMind揭驚人答案：智能體就是世界模型！跟Ilya 2年前預言竟不謀而合

華為Pura80系列首銷：不再嚴重缺貨

伊朗近200枚導彈飛以色列 哈梅內(nèi)伊重要顧問傷重離世

伊朗近200枚導彈飛以色列 哈梅內(nèi)伊重要顧問傷重離世

約戰(zhàn)天王山，步行者G4輸在了哪？

小S迎47歲生日，首個生日沒大S陪伴

以伊沖突持續(xù)升級，對全球市場影響多大

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

森林幾何 極簡灰調(diào)原木風

華為 Pura 80 系列手機服務權(quán)益公布

呼吸科專家破解呼吸道九大謠言！

索尼溫馨提醒：別把PS5放在狹窄的地方 灰太多就快清

伊媒：以色列國防部大樓被伊朗導彈擊中

伊朗近200枚導彈飛以色列哈梅內(nèi)伊重要顧問傷重離世

伊朗近200枚導彈飛以色列哈梅內(nèi)伊重要顧問傷重離世

森林幾何極簡灰調(diào)原木風

索尼溫馨提醒：別把PS5放在狹窄的地方灰太多就快清