機(jī)器之心報(bào)道
編輯:張倩、澤南
為什么語言模型很成功,視頻模型還是那么弱?
「我一直很困惑,語言模型怎么能從下一個(gè) token 預(yù)測(cè)中學(xué)到這么多,而視頻模型從下一幀預(yù)測(cè)中學(xué)到的卻那么少?難道是因?yàn)榇竽P停↙LM)其實(shí)是偽裝的大腦掃描儀?」
近日,加州大學(xué)伯克利分校副教授、強(qiáng)化學(xué)習(xí)大牛 Sergey Levine 發(fā)出了一記靈魂拷問。
AI 技術(shù)在快速發(fā)展,人們對(duì)于 AI 能力的上限,以及人腦和電腦異同的思考也越來越深入。上周末,OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 在演講中就曾提到:既然大腦是臺(tái)生物計(jì)算機(jī),那么數(shù)字計(jì)算機(jī)應(yīng)該也能做所有同樣的事。
然而在學(xué)術(shù)界,也有很多人持不同態(tài)度,Sergey Levine 就是一位這樣的學(xué)者。
他在昨日發(fā)布的一篇博客中表示,當(dāng)前的大語言模型(LLM)只是對(duì)人類大腦和思維的間接「掃描」。這些模型如同被困在洞穴之中,只能看到人類智慧的「投影」,并試圖通過這些「投影」來逆向推導(dǎo)出產(chǎn)生它們的思維過程。這種「逆向工程」并不能代替真正的思維
他的觀點(diǎn)在機(jī)器學(xué)習(xí)社區(qū)獲得了不少認(rèn)同。
由此進(jìn)一步思索,我們目前探索 AGI 的方向,是否也到了需要調(diào)整的階段了?
Sergey Levine 認(rèn)為,目前人工智能尋求回憶、解決數(shù)學(xué)問題的努力方向,與人類從經(jīng)驗(yàn)中學(xué)習(xí)的方式并不一樣,而這個(gè)基礎(chǔ)論點(diǎn)的錯(cuò)誤,早在 Transformer 出現(xiàn)以前就存在了。
以下是博客原文。
柏拉圖洞穴中的語言模型
從誕生之初,人工智能研究就與理解人類智能的目標(biāo)緊密相關(guān)。AI 研究者們相信,人類的思維本質(zhì)上是一種計(jì)算過程 —— 換句話說,它可以用算法來模擬,而不依賴于具體的「硬件」。基于這種理念,研究者們一直試圖從人類大腦和思維的工作原理中獲得啟發(fā),來構(gòu)建具有人類智能那種靈活性和適應(yīng)性的人工智能系統(tǒng)。
一些研究者甚至提出了一個(gè)大膽的猜想:人類大腦的復(fù)雜性和靈活性,可能來源于一個(gè)在整個(gè)大腦中普遍應(yīng)用的單一算法,正是這個(gè)算法讓大腦獲得了各種不同的能力。這個(gè)想法對(duì) AI 研究者來說極具吸引力,因?yàn)樗馕吨覀兊墓ぷ骺赡鼙认胂笾泻?jiǎn)單得多。與其費(fèi)盡心思地為人工智能設(shè)計(jì)各種各樣的功能,我們或許只需要找到這個(gè)「萬能算法」,然后讓它在現(xiàn)實(shí)世界中自由學(xué)習(xí),就能通過直接經(jīng)驗(yàn)獲得人類思維的全部能力。
近年來,大語言模型(LLM)在模擬人類智能方面取得了巨大成功。盡管它們?nèi)杂忻黠@的局限性 —— 這些局限性足以引發(fā)根本性的質(zhì)疑 —— 但隨著模型規(guī)模和訓(xùn)練數(shù)據(jù)的不斷擴(kuò)大,大語言模型一次又一次地突破了人們的預(yù)期,展現(xiàn)出新的認(rèn)知能力。
有趣的是,大語言模型的核心算法其實(shí)相當(dāng)簡(jiǎn)單:主要是預(yù)測(cè)下一個(gè)詞,再加上一些強(qiáng)化學(xué)習(xí)的調(diào)優(yōu)。這種簡(jiǎn)單性讓我們不禁猜想:這些算法會(huì)不會(huì)就是大腦使用的那種「萬能算法」呢?如果真是這樣,那就太令人興奮了。
想想看,人類智能的強(qiáng)大之處不僅在于能解決各種問題,更在于能為從未遇到過的全新問題找到解決方案。人類之所以能夠改造世界,靠的不是記憶力或解決數(shù)學(xué)問題的能力,而是從經(jīng)驗(yàn)中快速學(xué)習(xí)、適應(yīng)新環(huán)境的能力。如果 AI 系統(tǒng)也能擁有這種能力,那將是一個(gè)革命性的突破
但是,這個(gè)美好想法的基礎(chǔ)存在一個(gè)重大問題。早在 Transformer 語言模型出現(xiàn)之前,AI 研究者就在研究一個(gè)看起來非常相似的任務(wù):視頻的下一幀預(yù)測(cè)。就像語言模型通過預(yù)測(cè)文本中的下一個(gè)詞來理解世界一樣,研究者們希望通過訓(xùn)練視頻上的下一幀預(yù)測(cè)模型來提取有意義的表示和物理理解。
從表面上看,這兩個(gè)問題似乎非常相似:就像 LLM 通過預(yù)測(cè)來自網(wǎng)絡(luò)的文本數(shù)據(jù)中的下一個(gè) token 來深入了解世界一樣,視頻模型可能通過預(yù)測(cè)視頻數(shù)據(jù)中的下一幀來深入了解世界。在許多方面,視頻預(yù)測(cè)甚至更吸引人、更強(qiáng)大,因?yàn)橐曨l包含的信息量遠(yuǎn)超文本(正如 AI 大牛 Yann LeCun PPT 中的「蛋糕」),視頻數(shù)據(jù)隨處可得 —— 只需要把攝像頭對(duì)準(zhǔn)繁忙的街道就行,而且視頻不僅能捕捉人類的語言交流,還能展現(xiàn)整個(gè)物理世界的豐富細(xì)節(jié)。想象一下,一個(gè)飛往遙遠(yuǎn)星球探索的機(jī)器人,就像漂流到荒島上的人一樣,可能找不到任何文字資料,但它總能拍攝到視頻數(shù)據(jù)。
然而,現(xiàn)實(shí)卻讓人失望。雖然我們現(xiàn)在確實(shí)有了能生成逼真視頻的 AI(比如各種視頻生成模型),但要論解決復(fù)雜問題、進(jìn)行深度推理、做出精妙判斷,語言模型仍然是唯一的選擇。你不能讓 Veo 3 這樣的視頻生成 AI 估算「夏威夷群島的巖石總體積是否超過珠穆朗瑪峰」,但 ChatGPT 可以輕松應(yīng)對(duì)這類問題。
這很奇怪,不是嗎?語言模型接觸到的物理世界信息要少得多,看到的現(xiàn)實(shí)也更加有限,但它們卻展現(xiàn)出了更強(qiáng)的認(rèn)知能力,甚至在空間和物理推理方面也是如此。
在科學(xué)研究中,我們通常認(rèn)為越簡(jiǎn)單、優(yōu)雅、強(qiáng)大的理論越可能是正確的。就像描述彈簧運(yùn)動(dòng)有很多種公式,但我們選擇胡克定律,因?yàn)樗群?jiǎn)單又準(zhǔn)確。同樣的邏輯下,如果大語言模型用簡(jiǎn)單的算法就能實(shí)現(xiàn)類似人類心智的功能,那我們很容易認(rèn)為它們的算法就是反映大腦計(jì)算過程的正確模型。
也就是說,如果 LLM 是用一種簡(jiǎn)單的算法進(jìn)行訓(xùn)練,并獲得類似于大腦的功能,那么它們的底層算法也應(yīng)該類似于大腦獲得其功能的算法。
但是,還有另一種完全不同的解釋:也許大語言模型并不是像人類那樣通過觀察世界來學(xué)習(xí),而是通過觀察人類的思維過程,然后復(fù)制其功能。換句話說,它們沒有采用一種學(xué)習(xí)過程來了解世界是如何運(yùn)作的,而是采用了一種難以置信的間接過程來掃描人類大腦,以構(gòu)建人類認(rèn)知過程的粗略副本
當(dāng)然,訓(xùn)練大語言模型的數(shù)據(jù)中心里并沒有人被綁在核磁共振機(jī)器上(我印象里沒有)。大語言模型采用的是一種更巧妙的方法:它們通過分析人類思維在互聯(lián)網(wǎng)上的投影來重建人類的思維過程。
想想看,網(wǎng)絡(luò)上的大部分文字都是人類敲鍵盤打出來的,而每一次敲擊都反映了背后的思維活動(dòng):解數(shù)學(xué)題、講笑話、寫新聞報(bào)道等等。通過獲取文本的壓縮表示,大語言模型實(shí)際上是在進(jìn)行一種「逆向工程」—— 它們?cè)噲D從這些文字中推出產(chǎn)生這些文字的思維過程,從而間接地復(fù)制相應(yīng)的認(rèn)知能力。
可以說,當(dāng)人腦連接組計(jì)劃(Human Connectome Project,一項(xiàng)大型腦科學(xué)研究項(xiàng)目)的科學(xué)家們?cè)趯?shí)驗(yàn)室里一個(gè)神經(jīng)元一個(gè)神經(jīng)元地繪制大腦圖譜時(shí),大語言模型已經(jīng)找到了一條捷徑:它們直接跳過了神經(jīng)元層面,通過人類在互聯(lián)網(wǎng)上投下的 「思維投影」來重建人類的心智。
這就解釋了為什么視頻預(yù)測(cè)模型到目前為止還沒有取得語言模型那樣的成功。我們?cè)鞠M?AI 通過觀察真實(shí)世界的視頻來獲得物理世界的表示,就像人類從經(jīng)驗(yàn)中學(xué)習(xí)一樣,但大語言模型已經(jīng)設(shè)法跳過了這一步:它們僅僅復(fù)制了人類心理表征的某些方面,而無需弄清楚讓人類獲得這些表征的學(xué)習(xí)算法
這個(gè)發(fā)現(xiàn)既讓人興奮,又讓人擔(dān)憂。
好消息是:我們無意中創(chuàng)造了世界上最強(qiáng)大的「大腦掃描儀」,而且它真的有效!它能夠模擬人類認(rèn)知的一部分功能,可以回答問題、解決問題,甚至寫詩(shī)。
壞消息是:這些 AI 系統(tǒng)其實(shí)生活在「柏拉圖的洞穴」里。這個(gè)洞穴就是互聯(lián)網(wǎng),人類智能就像洞外的光源,在洞壁上投下現(xiàn)實(shí)世界的影子,而大語言模型只能看到這些影子
在柏拉圖的寓言中,要真正理解世界,就必須走出洞穴,在陽光下觀察真實(shí)的世界。墻上的陰影只是現(xiàn)實(shí)的一小部分扭曲片段,而且洞里的觀察者無法決定自己能看到什么影子。
同樣地,AI 系統(tǒng)要獲得人類那樣的靈活性和適應(yīng)性,就必須學(xué)會(huì)像人類一樣真正地學(xué)習(xí) —— 用自己的「光芒」去照亮世界,而不是只觀察人類智能投下的陰影。
從實(shí)際應(yīng)用的角度來看,這意味著什么呢?
我們可以預(yù)期,類似大語言模型的 AI 系統(tǒng)會(huì)很擅長(zhǎng)模仿人類的認(rèn)知技能,但在從真實(shí)世界的經(jīng)驗(yàn)中自主學(xué)習(xí)新技能、形成新認(rèn)知、獲得新能力方面會(huì)相對(duì)薄弱 —— 而這恰恰是人類最擅長(zhǎng)的。這也提示我們,要讓 AI 真正具備這種靈活性,我們需要找到新的方法:一種從物理經(jīng)驗(yàn)中自主獲取表征的方法,這樣人工智能系統(tǒng)就不需要依賴于由網(wǎng)絡(luò)文本介導(dǎo)的大腦掃描。
不過,作為 AI 研究者和工程師,我們也要實(shí)事求是:這些通過「大腦掃描」工作的大語言模型確實(shí)很厲害。如果我們的目標(biāo)是在機(jī)器中復(fù)制類似人類的智能,那么從一個(gè)已經(jīng)相當(dāng)不錯(cuò)的原型開始,似乎是個(gè)明智的選擇。
未來十年,AI 研究面臨的關(guān)鍵挑戰(zhàn)是:既要從大語言模型的成功中汲取正確的經(jīng)驗(yàn),又要發(fā)現(xiàn)支撐真正靈活、適應(yīng)性智能的基本原理 —— 那種能夠從經(jīng)驗(yàn)中學(xué)習(xí)、理解物理世界、為人類從未解決過的全新問題找到創(chuàng)新解決方案的智能
當(dāng)前的 AI 真的只是一種簡(jiǎn)單的模擬嗎?在 Sergey Levine 的文章后,有人提出了自己的觀點(diǎn):關(guān)鍵或許不是呈現(xiàn)的方式,而是找到連接現(xiàn)象與概念的方法:
他提及的論文《Harnessing the Universal Geometry of Embeddings》(https://arxiv.org/abs/2505.12540)是康奈爾大學(xué) 5 月份提交的,其提出第一種無需任何配對(duì)數(shù)據(jù)、編碼器或預(yù)定義匹配集即可將文本嵌入從一個(gè)向量空間轉(zhuǎn)換到另一個(gè)向量空間的方法。
現(xiàn)在的方向到底是死路一條,還是另有空間,你怎么看?
參考內(nèi)容:
https://sergeylevine.substack.com/p/language-models-in-platos-cave
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.