大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

MCU:全球首個生成式開放世界基準,革新通用AI評測范式

0
分享至




該工作由通用人工智能研究院 × 北京大學聯手打造。第一作者鄭欣悅為通用人工智能研究院研究員,共同一作為北京大學人工智能研究院博士生林昊葦,通訊作者為北京大學助理教授梁一韜和通用人工智能研究院研究員鄭子隆。

開發能在開放世界中完成多樣任務的通用智能體,是AI領域的核心挑戰。開放世界強調環境的動態性及任務的非預設性,智能體必須具備真正的泛化能力才能穩健應對。然而,現有評測體系多受限于任務多樣化不足、任務數量有限以及環境單一等因素,難以準確衡量智能體是否真正「理解」任務,或僅是「記住」了特定解法。

為此,我們構建了Minecraft Universe(MCU)——一個面向通用智能體評測的生成式開放世界平臺。MCU 支持自動生成無限多樣的任務配置,覆蓋豐富生態系統、復雜任務目標、天氣變化等多種環境變量,旨在全面評估智能體的真實能力與泛化水平。該平臺基于高效且功能全面的開發工具MineStudio構建,支持靈活定制環境設定,大規模數據集處理,并內置 VPTs、STEVE-1 等主流 Minecraft 智能體模型,顯著簡化評測流程,助力智能體的快速迭代與發展。



  • 論文地址:https://arxiv.org/pdf/2310.08367
  • 代碼開源:https://github.com/CraftJarvis/MCU
  • 項目主頁:https://craftjarvis.github.io/MCU
  • MineStudio:https://github.com/CraftJarvis/MineStudio

開放世界AI,亟需理想的評測基準!

傳統測試基準包含有標準答案的任務(如代碼、推理、問答),但開放世界任務 Minecraft 有著完全不同的挑戰:

  • 目標開放多樣:任務沒有唯一解,策略可以千變萬化;
  • 環境狀態龐雜:狀態空間近乎無限,還原真實世界復雜度;
  • 長周期任務挑戰:關鍵任務持續數小時,智能體需長期規劃。

在這樣的環境中,我們需要的不只是一個評分系統,而是一個維度豐富、結構多元的綜合評測框架。

MCU:為開放世界 AI 打造的「全方位試煉場」

當前已有不少 Minecraft 的測試基準,但它們普遍面臨「三大瓶頸」:

  • 任務單一:局限于如挖鉆石、制造材料等少數幾個場景的循環往復。
  • 脫離現實:部分建模任務甚至超出了普通人類玩家的能力范疇。
  • 依賴人工評測:效率低下,導致評測難以規模化推廣。



與之前 minecraft 測試基準對比示意圖。

針對以上痛點,MCU 實現了以下三大核心突破:

一:3,452 個原子任務 × 無限組合生成,構筑海量任務空間

MCU 構建了一個覆蓋真實玩家行為的超大任務庫:

  • 11 大類 × 41 子類任務類型:如挖礦、合成、戰斗、建造等;
  • 每個任務都是「原子級粒度」:可獨立測試控制、規劃、推理、創造等能力;
  • 支持 LLM 動態擴展任務,比如:用鉆石劍擊敗僵尸、雨天徒手采集木材、

在沙漠中建一座水上屋。

任意組合這些原子任務,即可生成無限的新任務,每一個都對 AI 是全新挑戰!



模擬多樣化真實世界挑戰。

二. 任務全自動生成 × 多模態智能評測,革新評估效率

GPT-4o 賦能,一句話生成復雜世界:

  • 自動生成完整的任務場景(包括天氣、生物群系、初始道具等)。
  • 智能驗證任務配置的可行性,有效避免如「用木鎬挖掘鉆石」這類邏輯錯誤型任務。

VLM(視覺語言模型)驅動,徹底改變了傳統人工打分的低效模式:

  • 基于 VLM 實現對任務進度、控制策略、材料利用率、執行效率、錯誤檢測及創造性六大維度的智能評分。
  • 模型自動生成詳盡的評估文本,評分準確率高達91.5%
  • 評測效率相較人工提升8.1 倍,成本僅為人工評估的1/5!



任務生成 x 多模態評測流程圖。

三:高難度 × 高自由度的「試金石」任務設計,深度檢驗泛化能力

MCU 支持每個任務的多種難度版本,如:

  • 「白天在草原擊殺羊」VS「夜晚在雨林躲避怪物并擊殺羊」;
  • 「森林里造瀑布」VS「熔巖坑邊緣建造瀑布」。

這不僅考驗 AI 是否能完成任務,更深度檢驗其在復雜多變環境下的泛化與適應能力。

打破「模型表現良好」的幻象:現有 SOTA 模型能否駕馭 MCU ?

我們將當前領域頂尖的 Minecraft 智能體引入 MCU 進行實戰檢驗:GROOT:視頻模仿學習代表;STEVE-I:指令執行型控制器;VPT(BC/RL):基于 YouTube 行為克隆訓練而成的先驅。結果發現,這些智能體在簡單任務上表現尚可,但在面對組合任務和陌生配置場景時,完成率急劇下降,且錯誤識別與創新嘗試是其短板。









SOTA 模型在 MCU 上的測試結果。

研究團隊引入了更細粒度的任務進度評分指標(Task Progress),區別于傳統 0/1 式的「任務完成率」,它能動態刻畫智能體在執行過程中的階段性表現,哪怕任務失敗,也能反映其是否在朝正確方向推進。

實驗發現,當前主流模型如 GROOT、STEVE-I、VPT-RL,在原子任務中尚有可圈可點的表現,但一旦面對更具組合性和變化性的任務,其成功率便會驟降。甚至對環境的微小改動也會導致決策混亂。比如「在房間內睡覺」這個看似簡單的任務,僅僅是將床從草地搬到屋內,就讓 GROOT 頻繁誤把箱子當床點擊,甚至轉身離開現場——這揭示了現有模型在空間理解與泛化上的明顯短板。

更令人警醒的是,智能體在建造、戰斗類任務中的「創造性得分」與「錯誤識別能力」幾乎全面落后。這說明它們尚未真正具備人類那種「發現問題、調整策略」的自主意識,而這正是通用智能邁向下一個階段的關鍵。

MCU 的評測結果首次系統性地揭示了當前開放世界智能體在「泛化、適應與創造」這三大核心能力上存在的鴻溝,同時也為未來的研究指明了方向:如何讓 AI 不僅能高效完成任務,更能深刻理解任務的本質,并創造性地解決復雜問題。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國產版“特斯拉ModelY”亮相!外觀動感預售23.58萬,續航超700Km

國產版“特斯拉ModelY”亮相!外觀動感預售23.58萬,續航超700Km

小史談車
2025-06-14 13:19:44
太慘了!網傳上海一學霸小三門210分考204分,認為清北無望而墜亡

太慘了!網傳上海一學霸小三門210分考204分,認為清北無望而墜亡

火山詩話
2025-06-12 06:24:32
佛山女教師婚內出軌多人,被“弟弟”頂得腰疼,次日勾搭另一男人

佛山女教師婚內出軌多人,被“弟弟”頂得腰疼,次日勾搭另一男人

社會醬
2025-05-16 17:30:43
中國稀土能成戰略武器,他倆夫妻居功至偉,眼下急需解決一個問題

中國稀土能成戰略武器,他倆夫妻居功至偉,眼下急需解決一個問題

阿胡
2025-06-11 11:56:30
高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
江蘇“國補”采用限額分配,各平臺領取功能將陸續重新上線

江蘇“國補”采用限額分配,各平臺領取功能將陸續重新上線

現代快報
2025-06-14 09:01:12
雷霆主帥談吹罰攤牌,湖人舊將創紀錄!哈利主動攬責,西卡很自信

雷霆主帥談吹罰攤牌,湖人舊將創紀錄!哈利主動攬責,西卡很自信

魚崖大話籃球
2025-06-14 13:08:13
50年代江青與毛主席的一張罕見合影,年過30仍氣質猶存,容顏姣好

50年代江青與毛主席的一張罕見合影,年過30仍氣質猶存,容顏姣好

南書房
2025-06-12 14:30:08
幼兒園要帶28份榴蓮,爸爸為省錢果斷請假,被帶草莓媽媽內涵

幼兒園要帶28份榴蓮,爸爸為省錢果斷請假,被帶草莓媽媽內涵

菁媽育兒
2025-05-28 10:49:53
43歲郭晶晶出席珠寶展!戴高奢端莊又大氣,連換兩套珠寶超貴氣

43歲郭晶晶出席珠寶展!戴高奢端莊又大氣,連換兩套珠寶超貴氣

娛樂圈圈圓
2025-06-14 10:11:22
中國將成為全球乃至人類歷史上第一個“電力王國”

中國將成為全球乃至人類歷史上第一個“電力王國”

生活新鮮市
2025-06-13 14:11:35
47歲TVB演員在長沙擺攤賣咖啡,喊話湖南衛視:想收到通告

47歲TVB演員在長沙擺攤賣咖啡,喊話湖南衛視:想收到通告

三湘都市報
2025-06-13 19:13:46
遼寧一女子貸款10萬開服裝店   開店20多天吃飯時情緒崩潰

遼寧一女子貸款10萬開服裝店 開店20多天吃飯時情緒崩潰

阿SIR觀察
2025-06-14 07:17:30
樓市權威發聲

樓市權威發聲

Wind萬得
2025-06-14 06:45:24
73歲李立群和疑銀環蛇近距離嘮嗑,讓蛇住自家院里,網友:膽真大

73歲李立群和疑銀環蛇近距離嘮嗑,讓蛇住自家院里,網友:膽真大

趣文說娛
2025-06-13 12:02:01
閏土歌手在外養情人了

閏土歌手在外養情人了

毒舌扒姨太
2025-06-13 22:41:57
無人送別!凌晨2點伊萬離開中國:帶著2箱行李,和球迷的巨大遺憾

無人送別!凌晨2點伊萬離開中國:帶著2箱行李,和球迷的巨大遺憾

風過鄉
2025-06-14 07:54:24
上海42歲富婆去健身房,男私教指導1小時后,當場充了20萬:這錢很值

上海42歲富婆去健身房,男私教指導1小時后,當場充了20萬:這錢很值

溫情郵局
2025-03-28 13:37:40
美國的簽證秒過是一種什么體驗?網友:都是經驗之談,很實用啊

美國的簽證秒過是一種什么體驗?網友:都是經驗之談,很實用啊

娛樂圈人物大賞
2025-06-02 00:05:21
警惕中國下一代反常的“集體沉默”

警惕中國下一代反常的“集體沉默”

霹靂炮
2025-05-22 23:04:31
2025-06-14 14:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

網紅是潛逃31年的殺人犯 幾乎每天都看法治新聞

頭條要聞

網紅是潛逃31年的殺人犯 幾乎每天都看法治新聞

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

親子
本地
教育
房產
公開課

親子要聞

每天做好四個訓練,教你如何做好孩子的前庭訓練

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

教育要聞

小學數學競賽題,班級上一半以上的同學不會做

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产又色又爽又刺激在线观看| 色综合天天天天综合狠狠爱| 国产做爰全免费的视频| 又大又爽又黄无码a片| 老熟妇乱子伦牲交视频欧美| 日本特黄特黄刺激大片| 热re99久久精品国99热| 人妻 校园 激情 另类| 一本大道无码日韩精品影视_| 国产精品无码永久免费不卡| 亚洲欧洲自拍拍偷精品网| 少妇白浆高潮无码免费区| 国产一卡二卡三新区2022| 国产特级毛片aaaaaa高潮流水| 成人毛片无码一区二区| 真人做人试看60分钟免费| 国产精品天天在线午夜更新| 国产成人精品微拍视频网址| 免费a级毛片无码免费视频首页| 国产精品igao视频网| 久久99精品久久久久久青青| 亚洲av无码国产在丝袜线观看| 国产一区二区波多野结衣| 国产主播一区二区三区在线观看| 亚洲中文字幕无码卡通动漫野外| 久久久精品人妻一区二区三区蜜桃| 精品无码无人网站免费视频| 亚洲国产精品va在线观看麻豆| 国产精品国产三级国产an| 动漫啪啪高清区一区二网站| 人人爽人人澡人人人妻、百度| 人妻熟女av一区二区三区| 国产成人久久精品av| 成年轻人电影www无码| 99精品视频一区在线观看| 久久66热人妻偷产精品| 日韩人妻熟女中文字幕a美景之屋| av永久天堂一区| 日韩精品一区二区三区中文无码| 狼人青草久久网伊人| 桃花综合久久久久久久久久网|