大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AGI真方向?谷歌:智能體在自研世界模型,世界模型is all You Need

0
分享至



機器之心報道

編輯:澤南、Panda

越通用,就越World Models。

我們知道,大模型技術(shù)爆發(fā)的原點可能在谷歌一篇名為《Attention is All You Need》的論文上。

如今,在通用人工智能(AGI)初現(xiàn)曙光,Scaling Laws 卻疑似接近極限的當(dāng)口,又是谷歌對未來方向進行了一番思考,想來想去還是只有五個詞:



  • 論文標(biāo)題:General agents need world models
  • 論文鏈接:https://arxiv.org/abs/2506.01622

該論文已被機器學(xué)習(xí)頂會 ICML 收錄。他們發(fā)現(xiàn):如果一個 AI 智能體能夠處理復(fù)雜的、長期的任務(wù),那么它一定學(xué)習(xí)過一個內(nèi)部世界模型——我們甚至可以通過觀察智能體的行為來提取它。

世界模型是實現(xiàn)靈活、目標(biāo)導(dǎo)向行為的必要要素,還是無需模型的學(xué)習(xí)就已足夠?Google DeepMind 研究人員為這個問題提供了一個正式的答案——任何能夠泛化到多步驟目標(biāo)導(dǎo)向任務(wù)的智能體都必須學(xué)習(xí)其環(huán)境的預(yù)測模型

更進一步,實驗證明,這樣的模型可以從智能體的策略中提取出來,而提升智能體的性能或其可實現(xiàn)目標(biāo)的復(fù)雜性需要學(xué)習(xí)越來越精確的世界模型。這將帶來一系列影響:從開發(fā)安全通用的智能體,到在復(fù)雜環(huán)境中限制智能體的能力,以及提供從智能體中獲取世界模型的新算法。

香港中文大學(xué)博士 Richard C. Suwandi 撰寫了一篇博客文章,詳細(xì)解讀了這篇開創(chuàng)性的論文及其對 AGI 未來的意義。



想象一下,如果我們能夠構(gòu)建一個像人類一樣思考和計劃的人工智能,未來會是什么樣子。大語言模型(LLM)領(lǐng)域的最新突破使我們更接近這一目標(biāo)。隨著這些模型規(guī)模不斷擴大,并接受更多數(shù)據(jù)的訓(xùn)練,它們會發(fā)展出所謂的涌現(xiàn)。

這顯著提升了它們在各類下游任務(wù)上的表現(xiàn)。大模型的涌現(xiàn)引發(fā)了新一輪的研究,旨在創(chuàng)建能夠在現(xiàn)實世界環(huán)境中處理復(fù)雜、長期任務(wù)的通用 AI 智能體。但令人著迷的是:人類不僅對他們所見的事物做出反應(yīng),我們還建立了豐富的心智模型來建模世界的運作方式。這些世界模型可幫助我們設(shè)定雄心勃勃的目標(biāo),并制定周到的計劃。因此,基于這一觀察,我們很自然地會問:

世界模型對于實現(xiàn)人類水平的人工智能有用嗎?

最近,Google DeepMind 的研究人員表明,學(xué)習(xí)世界模型不僅有益,而且對于一般智能體來說也是必要的。在這篇文章中,我們將討論該論文的主要發(fā)現(xiàn)及其對 AI 智能體未來的影響。

我們需要世界模型嗎?

1991 年,Rodney Brooks 提出了一個著名觀點:「世界是其自身的最佳模型」。



他認(rèn)為,智能行為可以自然地從無模型智能體中產(chǎn)生,只需通過一系列動作和感知與環(huán)境互動,無需構(gòu)建世界運作方式的明確表征。無模型智能體的顯著成功有力地支持了 Brooks 的論點,這些智能體在不同任務(wù)和環(huán)境中展現(xiàn)出了出色的泛化能力。這種無模型方法為創(chuàng)建通用 AI 智能體提供了一種頗具吸引力的途徑,同時避免了學(xué)習(xí)顯式世界模型的復(fù)雜性。

然而,最近的研究提出了一個有趣的可能性:即使是這些所謂的無模型智能體也可能正在表面之下學(xué)習(xí)隱式的世界模型和規(guī)劃算法。

Ilya Sutskever 一直是對的?

這讓人們回想起 2023 年 3 月,OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 提出了一個深刻的論斷:大型神經(jīng)網(wǎng)絡(luò)的功能遠(yuǎn)不止預(yù)測下一個單詞,它實際上是在學(xué)習(xí)「世界模型」。他是這樣說的:



他認(rèn)為,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的不僅僅是文本信息,而是我們這個世界的一種壓縮表征。因此,我們預(yù)測下一個詞的準(zhǔn)確度越高,世界模型的保真度就越高。

智能體與世界模型

雖然 Ilya 的說法引人入勝,但當(dāng)時尚不清楚如何將其形式化。但現(xiàn)在,谷歌 DeepMind 的研究人員已經(jīng)證明,Ilya 的說法并非僅僅是一個假設(shè),而是一條支配所有通用智能體的基本定律。

在論文中作者指出,「任何能夠推廣到廣泛的簡單目標(biāo)導(dǎo)向任務(wù)的智能體都必須學(xué)習(xí)能夠模擬其環(huán)境的預(yù)測模型,并且該模型始終可以從智能體中還原出來。」



任何滿足界限的智能體都必須學(xué)習(xí)環(huán)境轉(zhuǎn)換函數(shù),該函數(shù)可以從其目標(biāo)條件策略中提取出來。對于能夠處理諸如到達特定狀態(tài)等基本任務(wù)的智能體來說也是如此。

注意,上述內(nèi)容僅適用于在多步驟范圍內(nèi)進行規(guī)劃的智能體,因為它們需要了解行動如何影響未來狀態(tài)。然而,只考慮即時獎勵的「短視」智能體可能會避免學(xué)習(xí)世界模型,因為它們不需要預(yù)測長期后果。

為了使上述主張更加精確,作者開發(fā)了一個基于四個關(guān)鍵組成部分的嚴(yán)格數(shù)學(xué)框架:環(huán)境、目標(biāo)、智能體和世界模型。

環(huán)境

假設(shè)環(huán)境是一個受控馬爾可夫過程(cMP)本質(zhì)上是一個沒有指定獎勵函數(shù)的馬爾可夫決策過程。cMP 的構(gòu)成包括狀態(tài)空間 S、動作空間 A 以及過渡函數(shù)



作者假設(shè)環(huán)境是不可簡化的和固定的。

目標(biāo)







從有界智能體恢復(fù)世界模型的派生算法。



與其他研究的關(guān)聯(lián)

這項工作的成果補充了人工智能研究的其他幾個領(lǐng)域:

所提出的算法完善了環(huán)境、目標(biāo)和策略之間的「三角」。規(guī)劃在給定世界模型和目標(biāo)(世界模型 + 目標(biāo) → 策略)的情況下確定最優(yōu)策略,而逆向強化學(xué)習(xí)(IRL)給定世界模型和策略(世界模型 + 策略 → 目標(biāo)),恢復(fù)目標(biāo)。提出的算法通過給定智能體的策略和目標(biāo)(策略 + 目標(biāo) → 世界模型),恢復(fù)世界模型來填補剩余的方向。正如 IRL 需要跨多個環(huán)境觀察策略才能完全確定目標(biāo)一樣,算法需要觀察智能體在多個目標(biāo)上的行為,才能完全恢復(fù)世界模型。



雖然規(guī)劃使用世界模型和目標(biāo)來確定策略,而 IRL 和逆向規(guī)劃使用智能體的策略和世界模型來識別其目標(biāo),但所提出的算法使用智能體的策略及其目標(biāo)來識別世界模型。

傳統(tǒng)的機械可解釋性(MI)通常依賴于分析神經(jīng)網(wǎng)絡(luò)激活或使用監(jiān)督探測另一方面,所提出的算法提供了一種新穎的方法,可以直接從智能體的策略行為中提取世界模型,即使在模型內(nèi)部無法訪問的情況下也能適用。這種無監(jiān)督且與架構(gòu)無關(guān)的方法適用于任何滿足有限 regret 條件的智能體,無論其具體實現(xiàn)如何。對于 LLM,這意味著我們可以通過分析其目標(biāo)導(dǎo)向行為來揭示其隱含的世界模型,而無需訪問其內(nèi)部表征。

最近的研究《Robust agents learn causal world models》表明,適應(yīng)分布變化的智能體必須學(xué)習(xí)因果世界模型。該研究通過關(guān)注任務(wù)泛化而非領(lǐng)域泛化來補充這一理論。有趣的是,領(lǐng)域泛化需要比任務(wù)泛化更深的因果理解。

例如,在一個狀態(tài)變量為 X 和 Y 是存在因果關(guān)系(X→Y),智能體只需學(xué)習(xí)轉(zhuǎn)移概率即可實現(xiàn)最佳任務(wù)績效,而無需了解潛在的因果關(guān)系。這暗示了 Pearl 因果層級的智能體版本其中不同的智能體能力(如領(lǐng)域或任務(wù)泛化)需要不同級別的因果知識。

這些發(fā)現(xiàn)對人工智能的發(fā)展和安全也具有著重要意義。大語言模型和其他人工智能系統(tǒng)中新功能的出現(xiàn),可以用在針對各種訓(xùn)練任務(wù)進行優(yōu)化時學(xué)習(xí)到的隱式世界模型來解釋。從能力強大的智能體中提取世界模型的能力,為驗證和校準(zhǔn)提供了一種新的工具,因為模型保真度會隨著智能體能力的提升而擴展。然而,學(xué)習(xí)復(fù)雜現(xiàn)實世界系統(tǒng)的精確世界模型本身就存在困難,這也從根本上限制了智能體的通用能力。

結(jié)論

或許,Ilya 在 2023 年的預(yù)測比我們意識到的更有前瞻性。如果上述結(jié)果屬實,那么當(dāng)前通過擴展語言模型來推進超級人工智能(ASI)的競賽,或許暗地里就是一場構(gòu)建更復(fù)雜世界模型的競賽。我們也有可能正在見證一些更為深刻的變革:從 David Silver 和 Richard Sutton 所說的「人類數(shù)據(jù)時代」向「經(jīng)驗時代」的轉(zhuǎn)變。雖然當(dāng)前的人工智能系統(tǒng)通過模仿人類生成的數(shù)據(jù)實現(xiàn)了非凡的能力,但 Silver 和 Sutton 認(rèn)為,超人類智能將主要通過智能體從自身經(jīng)驗中學(xué)習(xí)而誕生。

例如,隨著 Genie 2 等基礎(chǔ)世界模型的最新發(fā)展,我們可以從單個圖像生成無限的 3D 環(huán)境并允許智能體在豐富的環(huán)境中產(chǎn)生「經(jīng)驗流」,并根據(jù)其能力進行適應(yīng)和發(fā)展。



Genie 2,谷歌提出的一個基礎(chǔ)世界模型,能夠生成無限多樣、可操作、可游玩的 3D 環(huán)境,用于訓(xùn)練和評估具身智能體。只需一張?zhí)崾緢D像,人類或 AI 智能體即可使用鍵盤和鼠標(biāo)輸入來游玩。

如果說一般智能體必須學(xué)習(xí)世界模型,而超人類智能需要從經(jīng)驗而非人類數(shù)據(jù)中學(xué)習(xí),那么像 Genie 2 這樣的基礎(chǔ)世界模型或許就是體驗時代的終極尺度法則。我們并不是在觸及人類知識的上限,而是正在進入一個新階段:AI 智能體的質(zhì)量從根本上受限于它們能夠模擬和探索的世界的保真度。

能夠做最精準(zhǔn)的夢,并從夢中學(xué)習(xí)最多的智能體,或許才是最聰明的。

參考原文:

https://richardcsuwandi.github.io/blog/2025/agents-world-models/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國內(nèi)787機長分析印度墜機原因:不排除飛行員重大操作失誤的可能

國內(nèi)787機長分析印度墜機原因:不排除飛行員重大操作失誤的可能

可達鴨面面觀
2025-06-13 18:05:27
美媒:以色列對伊朗發(fā)動襲擊前,五角大樓附近披薩店訂單激增

美媒:以色列對伊朗發(fā)動襲擊前,五角大樓附近披薩店訂單激增

環(huán)球網(wǎng)資訊
2025-06-14 12:22:15
新華社快訊:德黑蘭上空傳出巨大爆炸聲

新華社快訊:德黑蘭上空傳出巨大爆炸聲

新華社
2025-06-14 01:03:03
以色列暴擊伊朗,南宋路線再次破產(chǎn)

以色列暴擊伊朗,南宋路線再次破產(chǎn)

暢明談宏觀坤
2025-06-13 14:06:27
黃仁勛回應(yīng)任正非最新講話

黃仁勛回應(yīng)任正非最新講話

第一財經(jīng)資訊
2025-06-13 22:47:36
社評:拆掉華為基站讓巴拿馬更安全了嗎

社評:拆掉華為基站讓巴拿馬更安全了嗎

環(huán)球網(wǎng)資訊
2025-06-14 00:16:25
鄭欽文:我不是故意要摔倒兩次的,只是我還不懂怎么在草地上奔跑

鄭欽文:我不是故意要摔倒兩次的,只是我還不懂怎么在草地上奔跑

懂球帝
2025-06-14 07:19:09
梁朝偉劉嘉玲在上海,兩人手牽手好恩愛,劉嘉玲臉變了撞臉蔡明

梁朝偉劉嘉玲在上海,兩人手牽手好恩愛,劉嘉玲臉變了撞臉蔡明

界史
2025-06-14 10:07:54
原重慶市市長黃奇帆:如果現(xiàn)在還有人認(rèn)為房地產(chǎn)會反彈上漲,那他對經(jīng)濟肯定是沒什么認(rèn)知的

原重慶市市長黃奇帆:如果現(xiàn)在還有人認(rèn)為房地產(chǎn)會反彈上漲,那他對經(jīng)濟肯定是沒什么認(rèn)知的

互聯(lián)網(wǎng)思維
2025-06-13 23:33:51
伊朗稱若再受到襲擊將會封鎖霍爾木茲海峽 外交部回應(yīng)

伊朗稱若再受到襲擊將會封鎖霍爾木茲海峽 外交部回應(yīng)

新京報
2025-06-13 16:30:27
中紀(jì)委怒批公務(wù)員也是人!正常生活不應(yīng)問責(zé)處!

中紀(jì)委怒批公務(wù)員也是人!正常生活不應(yīng)問責(zé)處!

霹靂炮
2025-06-13 23:49:27
一場丑陋的總決賽!雷霆扳成2-2,裁判嚴(yán)重?fù)寫颍瑏啔v山大轟35分

一場丑陋的總決賽!雷霆扳成2-2,裁判嚴(yán)重?fù)寫颍瑏啔v山大轟35分

老梁體育漫談
2025-06-14 11:31:53
開香檳?步行者名宿末節(jié)笑嘻嘻合照 最終卻被翻盤……

開香檳?步行者名宿末節(jié)笑嘻嘻合照 最終卻被翻盤……

直播吧
2025-06-14 11:40:20
以色列否認(rèn)F-35戰(zhàn)機被伊朗擊落

以色列否認(rèn)F-35戰(zhàn)機被伊朗擊落

財聯(lián)社
2025-06-14 12:37:12
中共中央批準(zhǔn):陳杰同志任上海市委常委

中共中央批準(zhǔn):陳杰同志任上海市委常委

新民晚報
2025-06-13 22:22:54
唏噓!71歲伊萬遭解雇后深夜乘機離開中國,無球迷送行+眼神落寞

唏噓!71歲伊萬遭解雇后深夜乘機離開中國,無球迷送行+眼神落寞

我愛英超
2025-06-14 00:38:32
上海航空突發(fā)!機艙內(nèi)冒出濃煙!有人涉嫌違規(guī)…乘客礦泉水接力撲救,“劫后余生的感覺”

上海航空突發(fā)!機艙內(nèi)冒出濃煙!有人涉嫌違規(guī)…乘客礦泉水接力撲救,“劫后余生的感覺”

上觀新聞
2025-06-14 11:57:34
伊萬凌晨離開中國飛往卡塔爾,足協(xié)已終止和他的合作

伊萬凌晨離開中國飛往卡塔爾,足協(xié)已終止和他的合作

魯中晨報
2025-06-14 07:54:08
南航“美女經(jīng)理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經(jīng)理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
孫繼海接受《足球之夜》專訪,談到世預(yù)賽失利,就是實力不濟!

孫繼海接受《足球之夜》專訪,談到世預(yù)賽失利,就是實力不濟!

田先生籃球
2025-06-13 11:58:33
2025-06-14 13:12:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

牛彈琴:中東大戰(zhàn)開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰(zhàn)開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

親子
藝術(shù)
游戲
公開課
軍事航空

親子要聞

寶寶害怕吃藥怎么辦?爸爸傳授的冷靜

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

SIE總裁稱PS+訂閱價格還會上漲 玩家更喜歡高級檔會員

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗多名將領(lǐng)、核科學(xué)家遇襲身亡 身份披露

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产69成人精品视频免费| 欧美3p两根一起进高清视频| 欧美日韩欧美| 水蜜桃无码av在线观看| 18禁止午夜福利体验区| 国产啪精品视频网站免费| 久久青青草原国产精品最新片| 激情亚洲图片激情亚洲小说| 夜精品a片一区二区三区无码白浆| 欧美三级中文字幕在线观看| 无遮挡h肉动漫在线观看| 手机看片久久国产免费| 大乳丰满人妻中文字幕日本| 国产精品无码av在线播放| 国产av一区二区精品久久凹凸| 久久久精品妓女影院妓女网| 亚洲欧美色一区二区三区| 亚洲熟妇色xxxxx欧美老妇| 中文字幕人乱码中文字幕| 亚洲人成电影网站色| 99热成人精品国产免费| 久久精品国产99国产精品严洲| 99国产欧美另娄久久久精品| 国产成人精品永久免费视频| 无码小电影在线观看网站免费| 无码人妻精品丰满熟妇区| 成人免费777777被爆出| 色翁荡熄又大又硬又粗又视频图片| 日日碰狠狠添天天爽| 久久国产欧美日韩精品| 欧美综合自拍亚洲综合图片区| 97久久香蕉国产线看观看| 久久无码专区国产精品s| 色婷婷精品大在线视频| 少妇被黑人4p到惨叫在线观看| 亚洲最大成人综合网720p| 人妻少妇heyzo无码专区| 亚洲午夜成人av电影| 久久国产高潮流白浆免费观看| 777天堂麻豆爱综合视频| 亚洲中文综合网五月俺也去|