聞樂 發自 凹非寺量子位 | 公眾號 QbitAI
為什么語言模型能從預測下一個詞中學到很多,而視頻模型卻從預測下一幀中學到很少?
這是UC伯克利大學計算機副教授Sergey Levine最新提出的靈魂一問。
他同時是Google Brain的研究員,參與了Google知名機器人大模型PALM-E、RT1和RT2等項目。
Sergey Levine在谷歌學術的被引用次數高達18萬次。
“柏拉圖洞穴”是一個很古老的哲學比喻,通常被用來說明人們對世界認知的局限性。
Sergey Levine的這篇文章以《柏拉圖洞穴中的語言模型》為題,又想要揭示AI的哪些缺陷呢?
在文章的開頭,作者提到人工智能就是在研究能夠反映人類智能的靈活性和適應性的假想智能。
一些研究者推測,人類心智的復雜性和靈活性源自于大腦中應用的一個單一算法,通過這個算法可以實現所有多樣化的能力。
也就是說,AI如果能復現這個終極算法,人工智能就能通過經驗自主獲取多元能力,達到人類智能的高度。
在這個探索過程中,語言模型取得了非常成功的突破。
甚至,LLMs實現能力躍升背后的算法(下一詞預測+強化學習微調),也非常簡單。
單一終極算法假設似乎就是AI模型的答案……
然而,這個假設對視頻模型并不適用。
語言模型與視頻模型的對比
早在基于Transformer的語言模型出現之前,AI研究人員就已經忙著研究一個看似非常相似的問題:
就像LLM通過預測來自網絡文本數據的下一個詞來學習一樣,視頻模型也可能通過預測視頻數據的下一個幀來學習。
甚至從數據上來說,視頻數據比文本數據包含的信息更豐富,那么預測下一幀得到的認知會遠比預測下一詞得到的認知更全面。
比如,一個飛往宇宙探索的機器人,在那里沒有人能提供文本,但是它仍然能獲取豐富的視頻數據。
基于這些證據,我們可以認為能夠“觀察”到更多物理世界的視頻模型應該比語言模型更加強大。
然而,事情并沒有按研究人員所期望的那樣發展。
盡管視頻預測模型可以生成逼真的視頻,但在解決復雜問題、進行復雜推理方面,語言模型仍然是主要且唯一的選擇。
這與LLMs對物理世界的“觀察”更少,卻獲得了更復雜的認知能力形成了鮮明對比。
就像文章中舉出的例子:我們并不能用Veo 3估算夏威夷群島的巖石體積是否比珠穆朗瑪峰更大,但ChatGPT卻可以回答這個問題。
這是因為LLMs只需要調用人類總結的地理知識(文本中已有相關數據或推理路徑)。
簡單來說,視頻數據是物理世界的直接映射,而非人類認知的加工產物。
視頻模型需自主歸納物理規律,而LLMs卻可以 “抄近路” 模仿人類已有的推理結果。
LLMs 僅接觸文本 “影子”(人類認知的投影),卻比直接觀察物理世界的視頻模型更具推理能力。
作者認為,這是LLMs只會對人類進行“腦部掃描”,而非真正學會了像人類一樣推理問題。
就像是AI系統存在于「柏拉圖洞穴」中。
AI系統的“柏拉圖洞穴”
“柏拉圖洞穴”原本的故事是指一群人被綁在洞穴里,只能看到墻壁上的影子,不能看到洞穴外的陽光。
這個故事通常被用來說明人們對世界認知的局限性。
在文章中,作者將互聯網比作洞穴,將真實世界比做洞穴外的陽光,用“柏拉圖洞穴”來類比AI的現狀。
AI通過語言模型學習人類的知識和思維方式,但這些知識就像洞穴墻壁上的影子,是人類智慧的間接反映。
它們并沒有真正理解世界,其能力是對人類認知的 “逆向工程”,而不是自主探索。
而視頻模型目前連影子都無法認知……
AI該如何走出洞穴?
作者認為既然LLMs已經了實現人類認知的部分模擬(如推理、生成),那么就可以將它可 “心智原型”,為通用AI提供起點。
而長期目標則是突破“影子依賴”,不再依賴人類中介(類似文本數據),讓AI通過傳感器直接與物理世界交互,自主探索。
對此,有評論者提出:視覺、語言、行動系統就像獨立的洞穴,如果能夠通過共享結構建立橋梁,可能就不需要逃離“洞穴”,跨模態連接就成了探索過程中的挑戰,需要找到一個連接這些模態的統一的方法。
對于AI的“洞穴困境”,你有怎樣的看法呢?
參考鏈接:
[1]https://x.com/svlevine/status/1931796654233194534
[2]https://sergeylevine.substack.com/p/language-models-in-platos-cave
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.