僅基于原始視頻進行訓練,V-JEPA 2 標志著人工智能在無需標注數據的情況下理解物理世界能力的重大飛躍。
Meta近日發布了 V-JEPA 2,這是一款旨在幫助機器理解和預測現實世界物理交互的先進人工智能模型。
V-JEPA 2 完全在視頻數據上訓練,它改進了機器人和AI智能體處理因果邏輯的方式,使其能夠“三思而后行”。
Meta視此為構建通用人工智能(AGI)的關鍵一步,這一方向被廣泛認為是開發真正會思考的 AI 系統所必需的。
與之前的系統不同,V-JEPA 2 無需依賴海量標注內容數據集即可模擬物理現實。
它在簡化的“潛在”(latent)空間中運行,因此速度更快、適應性更強。Meta相信,這項創新可能重塑機器人和自主機器在環境中導航和響應的方式。
除了模型本身,Meta還發布了三個新的基準測試,以支持研究人員評估AI從視頻中進行推理和學習的能力。
V-JEPA 2 從視頻而非標簽中學習
V-JEPA 2 使用展示人與物體在現實世界中如何互動的視頻片段進行訓練。這使得模型能夠學習重力、運動和遮擋的工作原理,例如理解球體會從桌子上掉落,或者被隱藏的物體仍然存在。
Meta在其官方公告中表示:“V-JEPA 2 代表著我們在開發先進機器智能(AMI)的最終目標上取得了有意義的進展。”
與傳統 AI 模型需要大量標注不同,V-JEPA 2 直接從原始視頻中提取模式。這使其能夠泛化到不同情境,并更輕松地應對新情況。
在機器人技術中的實際應用
Meta已在實驗室機器人上測試了該模型。這些機器利用 V-JEPA 2 拾取陌生物體、伸手夠取目標,并將物品放置到新位置。這標志著在使機器人能在不可預測環境中運作方面向前邁進了一步。
Meta認為 V-JEPA 2 在配送機器人和自動駕駛汽車等自主機器中具有巨大潛力。這些系統需要快速解讀物理環境,以避開障礙物并做出實時決策。
借助像 V-JEPA 2 這樣的世界模型,機器可以開始像人類一樣預測自身行動的后果。
世界模型發展勢頭強勁
Meta正與其他科技巨頭共同推動世界模型的發展。谷歌DeepMind一直在開發其自己的版本Genie,該模型可以模擬整個3D環境。
與此同時,李飛飛的初創公司World Labs已獲得2.3億美元融資,用于構建能更好解讀物理空間的大型世界模型。
據CNBC報道,Meta計劃向Scale AI投資140億美元,并讓其首席執行官Alexandr Wang加入董事會,以強化其AI發展路線圖。
這項投資反映了該公司日益關注超越文本的機器智能。
支持研究生態
為支持全球研究,Meta隨 V-JEPA 2 一起發布了三個基于視頻的基準測試。這些工具旨在衡量AI模型在現實場景中理解、預測和規劃的能力。
通過將模型和基準測試開源,Meta希望推動整個AI研究界取得更快進展。
盡管語言模型(LLM)仍在主導公眾討論,但 V-JEPA 2 標志著AI的下一個前沿 —— 物理世界智能 —— 正成為新的焦點。
如果朋友們喜歡,敬請關注“知新了了”!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.