想象一下,當你的寵物狗看到你舉起網球準備投擲時,它會本能地預判球的落點并提前跑向那里,而不是傻傻地盯著你手中的球。
這種對物理世界的直覺理解,正是 AI 領域長期以來始終難以攻克的難題。
如今,Meta 推出了新的開源世界模型 V-JEPA 2 和三個新基準測試,希望借助它們的力量來改變這一點。模型和測試已開源在 GitHub 和 HuggingFace 上。
(來源:Meta)
所謂世界模型,就是專門來幫助 AI 智能體理解周圍世界,預測周遭狀況如何發展,并最終通過規劃自身行動來完成目標的模型。
這種能力在人類身上體現為直覺與預判:預測世界將如何回應我們的行為(或他人的行為),尤其是在規劃行動以及判斷如何應對新情況時。
世界模型已然成為 AI 領域聚焦的目標。李飛飛的 World Labs 、谷歌的 DeepMind 都在開發類似的世界模型。
英偉達也開發了世界模型 Comos,而 Meta 表示,V-JEPA 2 的運行速度是英偉達 Cosmos 模型的 30 倍。
Meta 首席 AI 科學家楊立昆(Yann LeCun)表示:“我們相信世界模型將開啟機器人技術的新時代,使現實世界的 AI 代理能夠幫助處理家務和物理任務,而無需天文數字般龐大的機器人訓練數據?!?/p>
V-JEPA 2 是去年發布的 V-JEPA 模型的升級版。它主要基于視頻進行訓練,擁有 12 億參數,采用自監督學習方法。它的英文全名是聯合嵌入預測架構(joint-embedding predictive architecture,縮寫即為 JEPA)。
V-JEPA 2 包含兩個主要組件:
一個是編碼器(encoder),它接收原始視頻并輸出嵌入(embeddings),以捕獲有關觀察世界狀態的有用語義信息。
另一個是預測器(predictor),它接收視頻嵌入和關于預測內容的額外上下文,并輸出預測的嵌入。
圖 | V-JEPA 2 架構(來源:Meta)
V-JEPA 2 的訓練過程則分為兩個階段:
在第一個預訓練階段,研究團隊使用了超過 100 萬小時的視頻和 100 萬張圖像。這些豐富的視覺數據幫助模型學習了世界運行的大量知識,包括人們如何與物體互動、物體如何在世界中運動,以及物體如何與其他物體互動。
Meta 發現,僅在預訓練階段后,模型就已經展現出了與理解和預測相關的關鍵能力。
在訓練的第二階段,Meta 專注于利用機器人數據來提升模型的規劃能力。他們向預測器提供動作信息,從而將這些數據整合到 JEPA 訓練流程中。在使用額外數據訓練后,預測器學會了在預測時考慮具體動作,然后可用于控制。
令人驚訝的是,這個階段并不需要大量的機器人數據。Meta 的技術報告顯示,僅使用 62 小時的機器人數據進行訓練,就足以產生一個可用于規劃和控制的模型。
在性能表現方面,V-JEPA 2 展現出了令人矚目的能力。在運動理解方面,該模型在 Something-Something v2 數據集上實現了 77.3% 的 top-1 準確率。
(來源:Meta)
在人類動作預期任務中,它在 Epic-Kitchens-100 數據集上達到了 39.7% 的 recall-at-5 分數,超越了現有所有任務特定模型。
(來源:Meta)
當 V-JEPA 2 與大語言模型對齊后,在多個視頻問答任務上展現了 80 億參數規模下的最先進性能。例如,在 PerceptionTest 上達到 84.0 分,在 TempCompass 上達到 76.9 分。
(來源:Meta)
為了更好地評估模型從視頻理解和推理物理世界的能力,Meta 還發布了三個新的基準測試:IntPhys 2、MVPBench 和 CausalVQA。
IntPhys 2 用于衡量模型區分場景是否符合物理學的能力,它是在 IntPhys 基準的基礎上擴展的。
(來源:Meta)
MVPBench 是通過選擇題來衡量視頻語言模型對物理(世界)的理解能力,防止模型依賴膚淺的線索“走錯誤的捷徑”。
(來源:Meta)
CausalVQA 則是衡量模型回答與物理因果關系有關問題的能力,包括反事實問題(如果……會發生什么)、預期問題(接下來可能會發生什么)以及規劃問題(為了實現目標,下一步應該采取什么行動)。
(來源:Meta)
三個測試對人類來說小菜一碟,在 84%-93% 之間,但 V-JEPA 2 等模型與人類表現之間仍存在顯著差距。
整體來看,V-JEPA 2 在 IntPhys 2 和 MVPBench 表現最好,Gemini 2.5 Flash 則在 CausalVQA 推理預測任務中表現最好。
值得注意的是,在三個測試中,阿里通義千問視覺語言模型 Qwen2.5-VL 的表現也比較亮眼。
(來源:Meta)
Meta 還展示了在全新環境中使用 V-JEPA 2 進行零樣本機器人規劃。他們在不同實驗室的 Franka 機械臂上零樣本部署 V-JEPA 2-AC(動作條件版本),實現了使用圖像目標進行規劃的物體拾取和放置。
這是在沒有從環境中的機器人收集任何數據,也沒有任何任務特定訓練或獎勵的情況下實現的,展示了從網絡數據和少量機器人交互數據中,自監督學習如何產生一個能夠在物理世界中規劃的世界模型。
最后,需要看到的是,V-JEPA 2 模型也存在局限性,比如預測動作時沒有使用攝像頭參數,依賴手動找到效果最好的攝像頭角度;誤差累積和搜索空間爆炸導致無法完成長時規劃任務。
接下來,Meta 團隊計劃探索多模態 JEPA 模型,通過多種感官進行預測,包括視覺、聽覺和觸覺等等。
參考資料:
https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
https://github.com/facebookresearch/vjepa2
https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/
排版:劉雅坤
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.