網易首頁 > 網易號 > 正文申請入駐

Meta推出開源最新世界模型，運行速度是英偉達Cosmos的30倍

2025-06-12 13:47:10　來源: DeepTech深科技

北京舉報

分享至

想象一下，當你的寵物狗看到你舉起網球準備投擲時，它會本能地預判球的落點并提前跑向那里，而不是傻傻地盯著你手中的球。

這種對物理世界的直覺理解，正是 AI 領域長期以來始終難以攻克的難題。

如今，Meta 推出了新的開源世界模型 V-JEPA 2 和三個新基準測試，希望借助它們的力量來改變這一點。模型和測試已開源在 GitHub 和 HuggingFace 上。

（來源：Meta）

所謂世界模型，就是專門來幫助 AI 智能體理解周圍世界，預測周遭狀況如何發展，并最終通過規劃自身行動來完成目標的模型。

這種能力在人類身上體現為直覺與預判：預測世界將如何回應我們的行為（或他人的行為），尤其是在規劃行動以及判斷如何應對新情況時。

世界模型已然成為 AI 領域聚焦的目標。李飛飛的 World Labs 、谷歌的 DeepMind 都在開發類似的世界模型。

英偉達也開發了世界模型 Comos，而 Meta 表示，V-JEPA 2 的運行速度是英偉達 Cosmos 模型的 30 倍。

Meta 首席 AI 科學家楊立昆（Yann LeCun）表示：“我們相信世界模型將開啟機器人技術的新時代，使現實世界的 AI 代理能夠幫助處理家務和物理任務，而無需天文數字般龐大的機器人訓練數據?！?/p>

V-JEPA 2 是去年發布的 V-JEPA 模型的升級版。它主要基于視頻進行訓練，擁有 12 億參數，采用自監督學習方法。它的英文全名是聯合嵌入預測架構（joint-embedding predictive architecture，縮寫即為 JEPA）。

V-JEPA 2 包含兩個主要組件：

一個是編碼器（encoder），它接收原始視頻并輸出嵌入（embeddings），以捕獲有關觀察世界狀態的有用語義信息。

另一個是預測器（predictor），它接收視頻嵌入和關于預測內容的額外上下文，并輸出預測的嵌入。

圖 | V-JEPA 2 架構（來源：Meta）

V-JEPA 2 的訓練過程則分為兩個階段：

在第一個預訓練階段，研究團隊使用了超過 100 萬小時的視頻和 100 萬張圖像。這些豐富的視覺數據幫助模型學習了世界運行的大量知識，包括人們如何與物體互動、物體如何在世界中運動，以及物體如何與其他物體互動。

Meta 發現，僅在預訓練階段后，模型就已經展現出了與理解和預測相關的關鍵能力。

在訓練的第二階段，Meta 專注于利用機器人數據來提升模型的規劃能力。他們向預測器提供動作信息，從而將這些數據整合到 JEPA 訓練流程中。在使用額外數據訓練后，預測器學會了在預測時考慮具體動作，然后可用于控制。

令人驚訝的是，這個階段并不需要大量的機器人數據。Meta 的技術報告顯示，僅使用 62 小時的機器人數據進行訓練，就足以產生一個可用于規劃和控制的模型。

在性能表現方面，V-JEPA 2 展現出了令人矚目的能力。在運動理解方面，該模型在 Something-Something v2 數據集上實現了 77.3% 的 top-1 準確率。

（來源：Meta）

在人類動作預期任務中，它在 Epic-Kitchens-100 數據集上達到了 39.7% 的 recall-at-5 分數，超越了現有所有任務特定模型。

（來源：Meta）

當 V-JEPA 2 與大語言模型對齊后，在多個視頻問答任務上展現了 80 億參數規模下的最先進性能。例如，在 PerceptionTest 上達到 84.0 分，在 TempCompass 上達到 76.9 分。

（來源：Meta）

為了更好地評估模型從視頻理解和推理物理世界的能力，Meta 還發布了三個新的基準測試：IntPhys 2、MVPBench 和 CausalVQA。

IntPhys 2 用于衡量模型區分場景是否符合物理學的能力，它是在 IntPhys 基準的基礎上擴展的。

（來源：Meta）

MVPBench 是通過選擇題來衡量視頻語言模型對物理（世界）的理解能力，防止模型依賴膚淺的線索“走錯誤的捷徑”。

（來源：Meta）

CausalVQA 則是衡量模型回答與物理因果關系有關問題的能力，包括反事實問題（如果……會發生什么）、預期問題（接下來可能會發生什么）以及規劃問題（為了實現目標，下一步應該采取什么行動）。

（來源：Meta）

三個測試對人類來說小菜一碟，在 84%-93% 之間，但 V-JEPA 2 等模型與人類表現之間仍存在顯著差距。

整體來看，V-JEPA 2 在 IntPhys 2 和 MVPBench 表現最好，Gemini 2.5 Flash 則在 CausalVQA 推理預測任務中表現最好。

值得注意的是，在三個測試中，阿里通義千問視覺語言模型 Qwen2.5-VL 的表現也比較亮眼。

（來源：Meta）

Meta 還展示了在全新環境中使用 V-JEPA 2 進行零樣本機器人規劃。他們在不同實驗室的 Franka 機械臂上零樣本部署 V-JEPA 2-AC（動作條件版本），實現了使用圖像目標進行規劃的物體拾取和放置。

這是在沒有從環境中的機器人收集任何數據，也沒有任何任務特定訓練或獎勵的情況下實現的，展示了從網絡數據和少量機器人交互數據中，自監督學習如何產生一個能夠在物理世界中規劃的世界模型。

最后，需要看到的是，V-JEPA 2 模型也存在局限性，比如預測動作時沒有使用攝像頭參數，依賴手動找到效果最好的攝像頭角度；誤差累積和搜索空間爆炸導致無法完成長時規劃任務。

接下來，Meta 團隊計劃探索多模態 JEPA 模型，通過多種感官進行預測，包括視覺、聽覺和觸覺等等。

參考資料：

https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

https://github.com/facebookresearch/vjepa2

https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6

https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

排版：劉雅坤

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

機器人竟能讀懂人類心聲，準確率高達90%

DeepTech深科技 2025-04-28 18:29:13
15 跟貼 15
北京人形機器人天團來了！

智東西 2025-02-19 16:29:42
15 跟貼 15

全球首次，Transformer「混血」速度狂飆65倍！英偉達已下注

新智元 2025-06-14 13:25:54
1 跟貼 1

當大模型接入玩具 AI硬件與情緒消費殊途同歸？

財聯社 2025-06-15 08:24:12
5 跟貼 5
宇樹科技VS云深處，誰是國產機器人之王

華商韜略 2025-03-17 13:06:16
0 跟貼 0

國產機器人深圳街頭散步爆火！超自然步態嚇呆國外網友

量子位 2025-01-10 16:29:56
919 跟貼 919

宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
0 跟貼 0
深圳南山，藏著中國機器人天團

華商韜略 2025-03-11 11:00:31
0 跟貼 0

前智源團隊創業，聯想、智譜AI投了一家人形機器人大模型公司｜硬氪首發

36氪 2025-06-14 09:31:10
1 跟貼 1
“沒有機器人出生就會奔跑” 在磕磕絆絆中看見未來的影子

每日經濟新聞 2025-04-19 23:08:42
0 跟貼 0
最低調的機器人天團，在這里!

華商韜略 2025-05-31 12:25:23
0 跟貼 0
不止會跳舞，還會做家務，掃地、做飯、關窗簾？擎天柱機器人又進化了

新智元 2025-06-01 01:36:14
0 跟貼 0
波士頓動力電動Atlas機器人進廠打工！「汽車組裝首秀」，當實驗室的科幻狂想照進現實流水線！

新智元 2025-06-01 01:36:14
0 跟貼 0
具身智能機器人“飛燕”在商湯技術交流日展區與展示實時視覺能力

智東西 2025-04-11 14:27:24
0 跟貼 0
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
0 跟貼 0
會打羽毛球的機器狗來了！最高揮拍速度到12米/秒

量子位 2025-06-03 17:50:29
0 跟貼 0
沉浸式欣賞機器人疊衣，國內首次攻克，柔性物長程操作老大難

機器之心Pro 2025-03-17 17:11:19
0 跟貼 0
王杰高：從投資視角看人形機器人三大潛力方向

財聯社 2025-05-18 21:21:16
0 跟貼 0
人形機器人折算替代的人力成本回報周期可達一年

財聯社 2025-05-17 21:07:45
0 跟貼 0
世界模型在機器人任務規劃中的全新范式

機器之心Pro 2025-03-19 11:30:30
0 跟貼 0
手術刀尖的“AI革命”，當機器人與人類共同握住生命的脈搏

每日經濟新聞 2025-04-18 18:13:14
0 跟貼 0
ET-SEED：提升機器人操作泛化能力的

機器之心Pro 2025-03-06 16:15:18
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
Figure AI CEO：機器人價格還能打，2-3萬美元拿回家

機器之心Pro 2025-03-18 18:19:17
0 跟貼 0
頂流機器人天團匯聚無錫，上演十八般武藝

財聯社 2025-04-25 11:58:56
0 跟貼 0
AI智能體上線，營銷人下線？ | AI無悖論

虎嗅APP 2025-06-15 01:00:27
1 跟貼 1
我們去看了智元機器人的「數采廠」，等等！這不是《星球大戰》片場嗎？

36氪 2025-01-22 19:30:33
12 跟貼 12
沒有智能全是人工162億美元估值印度AI獨角獸暴雷

財聯社 2025-05-30 17:15:00
0 跟貼 0
一句話生成任務專屬LoRA！Transformer作者創業公司顛覆LLM微調

量子位 2025-06-13 17:23:47
0 跟貼 0
大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
全球程序員炸鍋！老黃倫敦放豪言：編程語言的未來是「Human」

新智元 2025-06-15 09:12:25
7 跟貼 7
家政機器人上線，陌生環境秒懂指令，網友：哪里賣？

機器之心Pro 2025-05-06 18:16:58
0 跟貼 0
《人類簡史》作者怒懟硅谷：智能≠真理，AI正在走偏！

新智元 2025-06-15 13:37:24
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1
不止Siri 2.0！蘋果AI藍圖曝光，為何雷聲大雨點小？

雷科技 2025-06-15 16:03:45
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
人人都能做開發者！連小學生都能輕松上手的0代碼開發平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
網友實測Veo3視頻旋風：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0

手機 / 數碼

房產 / 家居

Meta推出開源最新世界模型，運行速度是英偉達Cosmos的30倍

華為Pura80系列首銷：不再嚴重缺貨

清華高顏值女孩父親:不同意女兒直播 創業不能盲目瞎搞

清華高顏值女孩父親:不同意女兒直播 創業不能盲目瞎搞

裁判可以噴，但也從步行者自身找找問題？

鳳凰傳奇曾毅塌房？網友：別連累玲花

以伊沖突持續升級，對全球市場影響多大

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

對于地理視角的回顧：這道題的練習對于完成廣東高考綜合題第17題有幫助

上海消費品以舊換新訂單量超 1100 萬筆，將繼續按全品類執行

華為鴻蒙 HarmonyOS 5.1 系統新增特性曝光

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

清華高顏值女孩父親:不同意女兒直播創業不能盲目瞎搞

清華高顏值女孩父親:不同意女兒直播創業不能盲目瞎搞

裁判可以噴，但也從步行者自身找找問題？

鳳凰傳奇曾毅塌房？網友：別連累玲花

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法