大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

港大馬毅談智能史:DNA 是最早的大模型,智能的本質(zhì)是減熵

0
分享至



理解智能,并不只是研究者和工程師的課題。

文丨程曼祺 劉倩

大模型看起來(lái)已具備智能的形式:能陪你聊天,步步思考,做高等數(shù)學(xué)題,高效地寫代碼……這對(duì)很多人來(lái)說已經(jīng)足夠——足以帶來(lái)更多研究成果、產(chǎn)品機(jī)會(huì)、巨額投資和股價(jià)攀升。

而馬毅是那類覺得不夠的人,他于無(wú)聲處開始提問:智能的本質(zhì)是什么?

這個(gè)問題的題面簡(jiǎn)單,答案卻尚無(wú)共識(shí)。馬毅認(rèn)為,對(duì)智能的理解不應(yīng)過于表面和短期,而應(yīng)回到源頭厘清智能誕生和發(fā)展的歷史。

自 2000 年從伯克利大學(xué)博士畢業(yè)以來(lái),馬毅先后任職于伊利諾伊大學(xué)香檳分校(UIUC)、微軟亞研院、上??萍即髮W(xué)、伯克利大學(xué)和香港大學(xué),現(xiàn)擔(dān)任香港大學(xué)計(jì)算與數(shù)據(jù)科學(xué)學(xué)院院長(zhǎng)。他和團(tuán)隊(duì)提出的壓縮感知技術(shù),到現(xiàn)在還在影響計(jì)算機(jī)視覺中模式識(shí)別領(lǐng)域的發(fā)展。

在浩瀚的宇宙里,除了我們正在一手制造卻尚不完全可解釋的 “機(jī)器智能” ,人類所見識(shí)過的智能只有一個(gè)大樣本:生命。

馬毅認(rèn)為,智能的本質(zhì)是 “學(xué)習(xí)”——生命就是智能的載體,從 DNA 出現(xiàn),到神經(jīng)系統(tǒng)誕生和寒武紀(jì)物種大爆發(fā),再到人類的語(yǔ)言與數(shù)學(xué)的誕生,智能有不同的表現(xiàn)形式;但不變的是,智能都是在學(xué)習(xí)外部世界的知識(shí)與規(guī)律,從而進(jìn)行預(yù)測(cè),使知識(shí)可以為我所用。智能是在尋找規(guī)律并利用規(guī)律,是一個(gè)對(duì)抗宇宙熵增的過程。

從智能的歷史開始,本次訪談也延展討論了機(jī)器智能的 80 年歷史起伏,馬毅自己親歷了部分變化:他剛博士畢業(yè)時(shí),找不到對(duì)口方向的教職;他現(xiàn)在被引用最多的成果,一度沒有任何會(huì)議接受。

馬毅也分享了一個(gè)研究者的技術(shù)品味如何形成?“品味” 不僅是一種認(rèn)知,也是認(rèn)知被挑戰(zhàn)時(shí)能繼續(xù)堅(jiān)持的自信。馬毅的品味,使他進(jìn)入了一個(gè)目前在 AI 工業(yè)界還不那么主流的方向:白盒大模型,和能實(shí)現(xiàn) “閉環(huán)、反饋、糾錯(cuò)” 的機(jī)器智能。

今年 9 月開始,港大所有本科新生即將開始學(xué)習(xí)一門新的必修課——AI 通識(shí)課程,計(jì)算與數(shù)據(jù)科學(xué)學(xué)院主導(dǎo)設(shè)計(jì)了這門課,馬毅會(huì)自己教智能歷史的部分。

當(dāng) AI 和大模型越來(lái)越多進(jìn)入我們的生活,理解智能、思考智能,并不只是研究者和工程師的議題。

推理模型沒有在真正 “推理”;DeepSeek 這樣的開源趕超者一定會(huì)出現(xiàn)

晚點(diǎn):o1、R1 等推理模型是當(dāng)前 AI 領(lǐng)域最主流和重要的方向,在你的認(rèn)知里,它們是真的在做推理嗎?

馬毅:今天在清華演講時(shí),正好也有同學(xué)問這個(gè)問題。我是當(dāng)老師的,就從老師角度來(lái)回答。

比如說教數(shù)學(xué),很多學(xué)生看起來(lái)都能答題,但其中的邏輯推理能力至少有三個(gè)層次。

第一類學(xué)生是靠填鴨式的記憶來(lái)做題——看大量題,記住其中的模式,但并不一定真理解了。他們也能考出不錯(cuò)的成績(jī)。

第二類學(xué)生是真正學(xué)懂了邏輯推理方法,遇到新問題時(shí)能嚴(yán)謹(jǐn)推理、判斷對(duì)錯(cuò),每一步都很清晰。

第三個(gè)層次更高,是在一個(gè)系統(tǒng)原本沒有邏輯時(shí),能 “發(fā)現(xiàn)規(guī)律”——比如歐幾里得提出公理體系、亞里士多德提出三段論推理等,這是從經(jīng)驗(yàn)中抽象出了新邏輯。

所以,邏輯推理能力可以分為三層:模仿,理解并嚴(yán)謹(jǐn)運(yùn)用,抽象出新規(guī)律。但現(xiàn)實(shí)中,大家常把這三種混為一談。我們做科研,就是試圖厘清什么才算智能,才是真正的邏輯和推理,而不是籠統(tǒng)定義。

晚點(diǎn):現(xiàn)在的 o1 和 R1 更多處于你剛才說的第一層嗎?

馬毅:至少目前,我沒看到有嚴(yán)格證據(jù)顯示大模型是在用邏輯來(lái)解決問題。

比如陶哲軒(知名數(shù)學(xué)家、菲爾茨獎(jiǎng)得主)也在用數(shù)學(xué)題測(cè)大模型,他發(fā)現(xiàn)在訓(xùn)練過的題上,大模型能解決奧數(shù)級(jí)別的復(fù)雜問題,但同一個(gè)模型,又做不對(duì)小學(xué)階段的初等數(shù)學(xué)問題。如果真具備嚴(yán)密推理能力,不該出現(xiàn)這種情況。

所以評(píng)價(jià)模型能力不能只看 “刷分” 表現(xiàn)。做學(xué)問要嚴(yán)謹(jǐn)?shù)乩迩鍐栴}和尋找證據(jù)。

晚點(diǎn):現(xiàn)在推理模型展現(xiàn)的長(zhǎng)思維鏈(long CoT)——它看起來(lái)能像人那樣一步一步地思考,這實(shí)際上是什么?

馬毅:這種 “思維鏈” 還是需要人協(xié)助生成,有兩種主要方法:一種是由研究生或?qū)<沂止懡忸}或邏輯思考過程,即 “思維鏈”,供模型學(xué)習(xí);一種是在一個(gè)不錯(cuò)的預(yù)訓(xùn)練基礎(chǔ)模型上,給出 prompt(提示詞),一步步引導(dǎo)模型自己生成一些思維鏈,再篩選出好的例子,讓模型做 fine-tuning(精調(diào)),或者也可以讓模型根據(jù)這些例子學(xué)會(huì)打分機(jī)制,這就可以用強(qiáng)化學(xué)習(xí)了(注:強(qiáng)化學(xué)習(xí)的核心思路是給系統(tǒng)表現(xiàn)設(shè)置對(duì)錯(cuò)反饋)。第二種方法的自動(dòng)化程度更高、成本更低,但也需要人參與。

總之,這其中有很多不同環(huán)節(jié)。就像配中藥一樣,大家在嘗試不同組合,各種成分都有。

晚點(diǎn):所以業(yè)內(nèi)經(jīng)常說訓(xùn)練模型像煉丹。

馬毅:確實(shí)有一些經(jīng)驗(yàn)性的東西。工程界里,一個(gè)團(tuán)隊(duì)如果在某個(gè)路線上做得比較好,超過其他人,他們可能就會(huì)經(jīng)驗(yàn)性地覺得這種 “配方” 更重要,是效果為王。而我們學(xué)界會(huì)更關(guān)注每種方法在系統(tǒng)中具體起什么作用,希望搞清楚機(jī)制。

晚點(diǎn):DeepSeek 在 R1-Zero 中展現(xiàn)出了從 0 開始強(qiáng)化學(xué)習(xí),也能取得不錯(cuò)效果,這是個(gè)多重要的突破?

馬毅:我個(gè)人理解,現(xiàn)在要提升一個(gè)基礎(chǔ)模型,也就是在一個(gè)比較好的預(yù)訓(xùn)練模型上提升編程、數(shù)學(xué)等能力,其實(shí)沒太多秘密,核心方法主要是兩種:

- 一是 Supervised Fine-Tuning(SFT,監(jiān)督微調(diào)),通過提供范例,讓模型學(xué)習(xí)并模仿其中的解題思路;

- 另一種就是 Reinforcement Learning(強(qiáng)化學(xué)習(xí))。通過 “做對(duì)加分、做錯(cuò)扣分”,引導(dǎo)模型逐步掌握任務(wù)解法,它尤其適用編程、數(shù)學(xué)題這類有明確對(duì)錯(cuò)的推理任務(wù)。

到底哪種方法用得多,目前有爭(zhēng)議。外界認(rèn)為 o1 是先做微調(diào),再做 RL;DeepSeek 又展示了直接做 RL 也可以。但這有夸張的成分,因?yàn)?R1-zero 的前提還是它的基礎(chǔ)模型,也就是 DeepSeek-V3,V3 本身就很不錯(cuò)。而基礎(chǔ)模型要好,前期也得做微調(diào)。

我們最近有篇論文,叫 Supervised Fine-Tuning Memorizes, Reinforcement Learning Generalizes(《監(jiān)督微調(diào)記憶,強(qiáng)化學(xué)習(xí)泛化》),就解釋這兩種方法在提升模型推理表現(xiàn)方面相關(guān)、但不同的角色。結(jié)論是,兩種方法都需要,一般而言,先微調(diào),再?gòu)?qiáng)化學(xué)習(xí)效果更好。

晚點(diǎn):你覺得這不是什么秘密,甚至推理模型都不是真的 “在推理”,但去年至今,整個(gè)行業(yè)都為推理模型振奮,不少人認(rèn)為這是一次范式轉(zhuǎn)移。這是為什么?

馬毅:這有炒作的因素。OpenAI 去年有不少內(nèi)部問題,沒能繼續(xù)拉開和其他公司的技術(shù)優(yōu)勢(shì)。可能是因?yàn)楫?dāng)時(shí)要融資吧,Sam Altman 在 o1 發(fā)布前各種暗示,似乎已發(fā)現(xiàn)了通往 AGI 的秘密。

結(jié)果 o1 實(shí)際做的事,就是用 SFT 和 RL 提升模型能力——這套方法學(xué)界之前也知道有效,也在做,Google 等公司都知道。這和當(dāng)年 GPT 帶來(lái)的變化不是一個(gè)等級(jí)的。

晚點(diǎn):o1 在編程、解數(shù)學(xué)題、研究復(fù)雜問題上的效果確實(shí)有明顯提升。

馬毅:刷題是會(huì)有提升。我以前考 GRE,刷到了快滿分,但剛到伯克利時(shí)簡(jiǎn)直又聾又啞,我寫的第一篇文章,被導(dǎo)師狠狠罵了一頓。奧賽也類似,刷過題和沒刷過題的人完全兩回事,分高的人并不一定數(shù)學(xué)水平更高。

工業(yè)界追求效果沒問題,但學(xué)術(shù)上我們要搞清楚問題本質(zhì)。

晚點(diǎn):DeepSeek 的影響力狂潮說明了什么?

馬毅:我覺得 DeepSeek 有點(diǎn)像《皇帝的新衣》里那個(gè)小孩。 R1 驗(yàn)證了 o1 沒有什么別人不掌握的秘密,同時(shí)它還能做得更便宜,更高效。

當(dāng)然 DeepSeek 的 “便宜” 程度也被誤讀了。500 多萬(wàn)美元是最后一次的訓(xùn)練成本,而訓(xùn)模型的更大成本是前期試錯(cuò)。就像做題,第一遍很辛苦,最后謄一遍答案總是簡(jiǎn)潔、容易的。Google 等公司最后一次的訓(xùn)練成本也就千把萬(wàn)美元,沒有貴那么多。

晚點(diǎn):去年時(shí),你有想過中國(guó)會(huì)冒出 DeepSeek 這樣的團(tuán)隊(duì)嗎?

馬毅:我一點(diǎn)不驚訝。過去兩三年我多次公開說過,開源很快會(huì)超過閉源。因?yàn)槟壳按竽P驮诜椒ê图夹g(shù)上沒有護(hù)城河,護(hù)城河在于數(shù)據(jù)、算法,試錯(cuò)時(shí)間、成本和過程中積累的經(jīng)驗(yàn),所以開源遲早會(huì)超過閉源。

就算中國(guó)沒有出現(xiàn) DeepSeek,也可能是法國(guó)、英國(guó)、美國(guó)的團(tuán)隊(duì)冒出來(lái)。這是一個(gè) “where and when”(何時(shí)何地)的問題,不是 if or not(會(huì)不會(huì))的問題。

從 DNA 到數(shù)學(xué)與科學(xué),智能的一種本質(zhì)和四種機(jī)制

晚點(diǎn):你對(duì)當(dāng)前 AI 發(fā)展的一些獨(dú)特看法基于你對(duì) AI 歷史的了解和系統(tǒng)梳理。這次也想從問題的源頭開始聊。你覺得智能的本質(zhì)是什么?它最初如何產(chǎn)生的?

馬毅:某種意義上說,生命就是智能,或者說是智能的載體。我很喜歡一句話,大意是:整個(gè)宇宙在熵增,世界越來(lái)越混亂,而生命則是熵減的。

我認(rèn)為,生命和智能的本質(zhì),就是 “學(xué)習(xí)”——是要在還沒有變得完全不可預(yù)測(cè)的世界里,找到有規(guī)律、有結(jié)構(gòu)、可預(yù)測(cè)的東西,進(jìn)而能預(yù)測(cè)外部世界,這才能生存。

(注:根據(jù)熱力學(xué)第二定律,封閉系統(tǒng)的熵不斷增長(zhǎng),即混亂度不斷提升,在系統(tǒng)平衡時(shí)達(dá)到最大值;熵減則是混亂度減少的過程。)

晚點(diǎn):低等生物也能學(xué)習(xí)和預(yù)測(cè)外部世界的規(guī)律嗎?

馬毅:這要回到大約 40 億年前,生命在地球上的最初狀態(tài),這和現(xiàn)在的大模型也有關(guān)聯(lián)。

生命最初怎么編碼外部知識(shí)?是通過 DNA(脫氧核糖核酸)??梢哉f DNA 就是世界上最早的大模型,它通過脫氧核糖核酸的堿基結(jié)構(gòu),有規(guī)則地記錄外部世界的規(guī)律,這很像語(yǔ)言。

靠 DNA 學(xué)習(xí)的狀態(tài)持續(xù)了 30 多億年,這時(shí)單個(gè)生命體無(wú)法 “學(xué)習(xí)”,但通過一代代基因變異和自然選擇,完成了物種層面的學(xué)習(xí)。即一個(gè)物種,整體上能跟環(huán)境形成閉環(huán),能通過一代代遺傳、變異,改進(jìn)對(duì)外部世界的知識(shí)。所以單個(gè)生物個(gè)體沒有智能,但進(jìn)化本身實(shí)現(xiàn)了物種層面的智能機(jī)制。

晚點(diǎn):大模型是不是主要就在這個(gè)階段?因?yàn)楝F(xiàn)在的大模型,訓(xùn)好一版后不能自己迭代,需要人幫助它微調(diào)或重新訓(xùn)一版才能提升性能。

馬毅:對(duì),主要還在這個(gè)階段。這一階段的實(shí)質(zhì)其實(shí)是整個(gè)生態(tài)系統(tǒng)在物種層面的 “強(qiáng)化學(xué)習(xí)”,要構(gòu)造一個(gè)能給出正負(fù)反饋的環(huán)境。在生命進(jìn)化中,自然界就是評(píng)判標(biāo)準(zhǔn),變異得對(duì),就存活,變異得不對(duì),就滅亡,“適者生存,物競(jìng)天擇”。

深度學(xué)習(xí)的發(fā)展也類似——AlexNet、VGG、Google Net、ResNet,再到 Transformer……過去十年不知道提出了多少網(wǎng)絡(luò)結(jié)構(gòu),好多連名字都沒人記得了,就像不知道多少 DNA 在億萬(wàn)年的自然選擇中被淘汰了,“一將功成萬(wàn)骨枯”。

晚點(diǎn):物種層面的強(qiáng)化學(xué)習(xí)是生命前 30 多億年的狀態(tài),最近 5 億年發(fā)生了什么?

馬毅:約 5.5 億年前,生物開始出現(xiàn)神經(jīng)系統(tǒng),隨后視覺也開始出現(xiàn)。神經(jīng)系統(tǒng)和視覺給了單個(gè)生物體對(duì)外部具體環(huán)境的新記憶,這是除了遺傳而來(lái)的 “大模型”,也就是 DNA 之外,對(duì)外部世界信息和規(guī)律的另一種建模。這相當(dāng)于單個(gè)物體可以自己 fine-tuning(微調(diào))了(但生物體的記憶和微調(diào)的優(yōu)化機(jī)制不太一樣)。所以個(gè)體生存能力大大提高,有了 5 億年前的寒武紀(jì)物種大爆發(fā)。

一個(gè)直觀的現(xiàn)象是,隨著生命或智能形態(tài)越來(lái)越高,個(gè)體出生后與上一代相處的時(shí)間越來(lái)越長(zhǎng)——鳥類 1 個(gè)月就離開父母自己飛了,貓科動(dòng)物要一年,猴子要五六年……這是因?yàn)樯矬w逐漸擺脫了對(duì)預(yù)訓(xùn)練 DNA 的依賴,而更重視親代傳授、后天記憶、或在特殊環(huán)境中學(xué)到的東西。

從這里就能看到,隨著智能形式提升,個(gè)體的智能系統(tǒng)減少了對(duì)預(yù)訓(xùn)練的依賴,而更多依靠后天記憶。這也和我們最近的工作很有關(guān)系,就是怎么讓有了一定知識(shí)基礎(chǔ)的系統(tǒng),能自主更新、改進(jìn)、完善記憶和知識(shí),朝智能的第二階段發(fā)展。

晚點(diǎn):到這里是動(dòng)物也有的智能,當(dāng)生命進(jìn)化到人類誕生后,智能又有了什么變化?

馬毅:人出現(xiàn)之后,有了一件了不起的事——語(yǔ)言文字。這極大提升了群體獲取和傳遞知識(shí)的效率,進(jìn)而提高了生存概率。比如一個(gè)人找到了水,就能告訴其他人,大家不用再試一遍。有了文字后,知識(shí)又開始更高效地傳給下一代,語(yǔ)言文字和 DNA 一樣,都能代際傳承知識(shí),只是 DNA 變異很慢,而語(yǔ)言文字使文明發(fā)展速度大大提高。

然后到大約 3000 年前,更神奇的事發(fā)生了,在古印度、古希臘、古中國(guó),哲學(xué)家、數(shù)學(xué)家開始理解一些抽象概念,1、2、3、4、5、6、7……數(shù)字可以延伸到無(wú)窮,進(jìn)而出現(xiàn)了自然數(shù)、分?jǐn)?shù)、實(shí)數(shù)、虛數(shù)等抽象代數(shù)概念,以及點(diǎn)、線、平面、三維甚至多維空間等抽象空間概念。在我看來(lái),像數(shù)理邏輯、因果推理這些并非源于經(jīng)驗(yàn),而是一種升華,但這種升華背后的機(jī)制至今仍是個(gè)謎。

這樣來(lái)看,生物的智能經(jīng)歷了 4 個(gè)發(fā)展階段,從 DNA 到記憶,再到文字和科學(xué);它們機(jī)制各有不同,后期的智能并沒有取代早期智能,它們是疊加、并存的關(guān)系:

- 第一階段,物種通過基因變異實(shí)現(xiàn)進(jìn)化,靠的是強(qiáng)化學(xué)習(xí)、自然選擇。

- 第二階段,單個(gè)生命體出現(xiàn)神經(jīng)系統(tǒng),形成記憶,個(gè)體增加了自適應(yīng)和不斷糾錯(cuò)的能力。

- 第三階段:文明依靠語(yǔ)言和文字流傳。但這部分知識(shí)只是每個(gè)人能學(xué)到的外部物理世界模型的一小部分。

- 第四階段:數(shù)學(xué)和科學(xué)產(chǎn)生,能對(duì)外部規(guī)律作高度概括、抽象、凝練,科學(xué)能被證實(shí)或證偽,在不斷改進(jìn)。

整個(gè)過程中,智能始終在做一件事——對(duì)外部世界的知識(shí)做編碼。但要搞清楚,知識(shí)本身并不是智能,知識(shí)是智能活動(dòng)的結(jié)果;通過觀測(cè)和感知外部信號(hào),從中抽取描述外部世界規(guī)律的能力,也就是 “學(xué)習(xí)”,才是智能。

現(xiàn)在很多人對(duì)大模型的誤解,就是把知識(shí)當(dāng)成了智能。如果一個(gè)系統(tǒng)僅是擁有知識(shí),而沒有更新和修正自身已有知識(shí)的機(jī)制,它仍然沒有智能。

所以再大的大模型現(xiàn)在也沒有智能,GPT-1 沒有,GPT-2 沒有,GPT-3 同樣沒有。但結(jié)合 OpenAI 工程師的不斷研發(fā)和改進(jìn),GPT 的整個(gè)迭代過程是有智能的。這就像 DNA 本身沒有智能,但它不斷隨機(jī)變異,再被自然界選擇這個(gè)過程,具備了智能。

晚點(diǎn):你總結(jié)的這四個(gè)智能階段,是在模仿地球上的生物智能。機(jī)器智能有沒有可能有不同的機(jī)制?

馬毅:有可能。這就要回到對(duì)智能的嚴(yán)謹(jǐn)定義——真正的智能應(yīng)該能自主獲取新知識(shí)、修正已有認(rèn)知。自然界的智能至少是一個(gè)可行解,雖然未必是最優(yōu)解。

但至少現(xiàn)在看來(lái),自然界的智能在效率上,比我們當(dāng)前實(shí)現(xiàn)人工智能的方法不知道高多少倍。我們還停留在類似單細(xì)胞生命的階段,主要耗費(fèi)大量資源一版版訓(xùn)模型,系統(tǒng)還缺乏主動(dòng)學(xué)習(xí)和糾錯(cuò)能力。

這也能解釋,為什么楊立昆(Yann LeCun,圖靈獎(jiǎng)得主)經(jīng)常說,現(xiàn)在的大模型還不如貓、狗聰明——因?yàn)榇竽P椭挥徐o態(tài)知識(shí),沒有像動(dòng)物那樣自主糾錯(cuò)、適應(yīng)環(huán)境、產(chǎn)生個(gè)體記憶并不斷修正的能力。

現(xiàn)在很多模型在嘗試像人一樣做推理,但主要是靠死記硬背,并沒有真正理解,它都無(wú)法自己產(chǎn)生抽象自然數(shù)的概念。所以我常說,這個(gè)時(shí)代需要重新嚴(yán)謹(jǐn)定義圖靈測(cè)試。

晚點(diǎn):很多人認(rèn)為圖靈測(cè)試已經(jīng)通過了。

馬毅:實(shí)際上并沒有。科學(xué)、嚴(yán)謹(jǐn)?shù)乜?,刷題提分不是智能的充分證明,要設(shè)計(jì)合理的測(cè)試方式區(qū)分生搬硬套還是真的懂,目前缺乏驗(yàn)證大模型理解、抽象和泛化能力的科學(xué)評(píng)估方法。

機(jī)器智能的機(jī)制仍未完全明朗,炮彈很難連續(xù)兩次打進(jìn)同一個(gè)坑里

晚點(diǎn):和當(dāng)前 AI 發(fā)展直接相關(guān)的是機(jī)器智能的歷史,去年我們聊到過,你認(rèn)為目前對(duì)這部分歷史的一些常見理解并不準(zhǔn)確,而這又會(huì)影響當(dāng)下的一些學(xué)術(shù)判斷——比如 AI 的起點(diǎn)不是在 1956 年的達(dá)特茅斯會(huì)議,而是更早之前的控制論、信息論等。

馬毅:對(duì),達(dá)特茅斯會(huì)議是計(jì)算機(jī)科學(xué)視角下的 AI 起點(diǎn),但更廣義看,對(duì)智能的研究開始于 1940 年代研究動(dòng)物智能和智能本身的特征。

從智能特征出發(fā),引出了一系列相關(guān)重要成果:

- 發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)特征,在 40 年代構(gòu)造了第一個(gè)神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型。

- 控制論,認(rèn)識(shí)到閉環(huán)反饋是生物改進(jìn)學(xué)習(xí)和自適應(yīng)的基本機(jī)制。

- 信息論,人造系統(tǒng)如何像大腦那樣對(duì)外部世界信息編碼、解碼。

- 博弈論,當(dāng)動(dòng)物或人類處于未知環(huán)境時(shí),如何提高自身決策能力。

圖靈正是受這些研究啟發(fā),開始思考如何區(qū)分機(jī)器與人類智能,在 50 年代提出了 “圖靈測(cè)試”。而 40 年代的研究可以看作是一種 “維納測(cè)試”(維納是控制論的提出者),主要是區(qū)分機(jī)器和動(dòng)物。這又啟發(fā)了 1956 年,一群年輕人開始研究人類智能特有的特征。

晚點(diǎn):維納、香農(nóng)當(dāng)時(shí)去研究控制論、信息論的背景是什么?為什么 1940 年代,科學(xué)家成批關(guān)注動(dòng)物智能?

馬毅:答案很簡(jiǎn)單,打仗。比如大炮怎么能有效追蹤飛機(jī)?這和動(dòng)物捕獵過程相似??茖W(xué)家想搞清楚,動(dòng)物為什么捕獵時(shí)反應(yīng)又快又敏捷,還很穩(wěn)定,而且決策能力能不斷提升。

馮·諾依曼提出現(xiàn)代計(jì)算機(jī)構(gòu)架(馮·諾依曼架構(gòu)),就是為了實(shí)現(xiàn)維納的控制論設(shè)想————用計(jì)算框架實(shí)現(xiàn)類似動(dòng)物的反饋、決策和優(yōu)化機(jī)制。他的手稿也描述了,維納控制論如何啟發(fā)了他的博弈論。

晚點(diǎn):到 1956 年的達(dá)特茅斯會(huì)議,明斯基、麥卡錫等人對(duì)智能的研究有了什么不同?

馬毅:當(dāng)時(shí)信息論和控制論已建立得相對(duì)完善了,所以這些年輕人想找這些理論框架還沒觸及的人類智能領(lǐng)域,包括邏輯、抽象能力等。

他們也不想跟隨主流。我覺得這對(duì)現(xiàn)在的年輕人也是啟發(fā),要出頭,就別總想隨大流。

晚點(diǎn):所以對(duì)應(yīng)到前面說的四種智能機(jī)制,他們是想研究數(shù)學(xué)、科學(xué)的那部分智能?

馬毅:對(duì),是最后一層。但他們只是在研究這些現(xiàn)象,并沒有解釋這些機(jī)制是怎么產(chǎn)生的——人類大腦到底在幾千年前發(fā)生了什么變化,才開始從僅能從經(jīng)驗(yàn)中獲得知識(shí)發(fā)展到有抽象、邏輯能力。這種新能力和我們從觀測(cè)物理信號(hào)中提取知識(shí)的機(jī)制是否一致?現(xiàn)在還不完全清楚。后者主要是通過去噪、壓縮。

晚點(diǎn):可以更清楚定義一下這里的去噪、壓縮的意思嗎?因?yàn)橛腥艘矔?huì)認(rèn)為牛頓定律等物理公式也是一種 “壓縮”。

馬毅:這里指動(dòng)物和人都有的直覺性能力產(chǎn)生的機(jī)制。比如在發(fā)現(xiàn)重力的數(shù)學(xué)表達(dá)之前,動(dòng)物和人的大腦早就對(duì)重力 “建?!?了,所以我們踢球時(shí)能預(yù)判軌跡,一個(gè)物體掉落,能接住,而且這種預(yù)判非常精準(zhǔn)。這是通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)形成記憶,完成了預(yù)測(cè)。一些腦科學(xué)的研究指向這個(gè)過程是在做 “壓縮”,比如猴子的大腦會(huì)把高維信息壓縮到低維子空間?,F(xiàn)在的 Diffusion Model (擴(kuò)散模型,主流的視覺生成模型結(jié)構(gòu))就是在做類似的事。

而當(dāng)人類有了數(shù)學(xué)和科學(xué),又高度概括和抽象了原本從經(jīng)驗(yàn)學(xué)到的東西,還能互相傳授,能舉一反三到很多情況。所以這兩種方式(直覺和物理公式)都能預(yù)測(cè)外部世界,但它們的預(yù)測(cè)機(jī)制和泛化性不一樣。

晚點(diǎn):如果以 40 年作為智能研究的起點(diǎn),至今的 80 多年里,整個(gè)人工智能或者說機(jī)器智能發(fā)展中有哪些關(guān)鍵時(shí)刻?

馬毅:如果看深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)這條線,大致的過程是:

- 1940 年代,有了單個(gè)神經(jīng)元的數(shù)學(xué)模型,最初大家忘乎所以,后來(lái)發(fā)現(xiàn)遠(yuǎn)不能模擬智能,神經(jīng)網(wǎng)絡(luò)進(jìn)入第一次低谷;

- 1980 年代,通過視覺貓的視覺系統(tǒng),發(fā)現(xiàn)了卷積性質(zhì),出現(xiàn)了卷積神經(jīng)元,最早由日本科學(xué)家福島邦彥提出,89 年時(shí),楊立昆將其實(shí)現(xiàn)(CNN 卷積神經(jīng)網(wǎng)絡(luò)),并取得了不錯(cuò)的成果。同期,Hinton 為實(shí)現(xiàn)自編碼做了大量嘗試,也運(yùn)用了一些物理學(xué)思路,去年諾獎(jiǎng)的物理學(xué)獎(jiǎng)也發(fā)給了他。不過自編碼當(dāng)時(shí)沒引起重視。這之后,這個(gè)領(lǐng)域(深度學(xué)習(xí))又變得很冷。

- 2012 年,新的決定性因素是有了足夠的數(shù)據(jù)和 GPU 算力助力,深度學(xué)習(xí)得以真正爆發(fā),成為轉(zhuǎn)折點(diǎn),隨后擴(kuò)展到圖像、語(yǔ)音、語(yǔ)言、蛋白質(zhì)等多個(gè)領(lǐng)域。

最近的十幾年,神經(jīng)網(wǎng)絡(luò)的進(jìn)步主要就是靠經(jīng)驗(yàn)試錯(cuò)、不斷淘汰優(yōu)化,一步步走到今天。

晚點(diǎn):這其中有什么共通的規(guī)律嗎?

馬毅:說實(shí)話,還真沒什么特別明顯的規(guī)律。因?yàn)橐恢币詠?lái)深度學(xué)習(xí)都缺乏第一性原理,智能在做什么(目的)不很清楚,學(xué)習(xí)機(jī)制也不很清楚。

但有兩條線索:一是從生物學(xué)獲取靈感,比如單個(gè)神經(jīng)元的建模、神經(jīng)元排列方式、卷積結(jié)構(gòu)、大腦皮層組織方式等,Hinton 很多早期理論創(chuàng)新就是受神經(jīng)科學(xué)啟發(fā)。二是工程優(yōu)化,不斷試錯(cuò)、改進(jìn)模型結(jié)構(gòu),期間誕生了大量結(jié)構(gòu),不少已經(jīng)湮滅在歷史里。它確實(shí)像早期的生命進(jìn)化。

晚點(diǎn):這會(huì)讓做 AI 研究有一種宿命感嗎?一個(gè)方向,一個(gè)研究者的個(gè)人前途好像比較難被預(yù)測(cè)。

馬毅:如果繼續(xù)靠試錯(cuò)為主的方法論,確實(shí)會(huì)有運(yùn)氣成分。一個(gè)現(xiàn)象是,新進(jìn)展、新框架的提出,往往不是哪個(gè)團(tuán)隊(duì)系統(tǒng)性推進(jìn)的結(jié)果,而是像打炮一樣,一會(huì)打這兒,一會(huì)兒打那兒——一會(huì)兒 DeepMind、一會(huì)兒 OpenAI、一會(huì)兒 DeepSeek,比較隨機(jī)。因?yàn)楝F(xiàn)在的進(jìn)步主要是靠經(jīng)驗(yàn)和資源。

總有人問我這家大模型公司值不值得投,或者那家大模型公司值不值得投?我的意見都是,炮彈一般不會(huì)連續(xù)兩次落在同一個(gè)彈坑里。除非真有方法創(chuàng)新,真能有系統(tǒng)、有規(guī)律地改進(jìn)。

晚點(diǎn):在對(duì)智能的機(jī)制理解還不完善的情況下,你覺得現(xiàn)在工業(yè)界靠不停去試帶來(lái)的進(jìn)展,能持續(xù)多久?

馬毅:現(xiàn)在預(yù)訓(xùn)練已經(jīng)到了邊際收益遞減的階段。Grok-3 用了 20 萬(wàn)張卡,提升才 1% 多一點(diǎn), GPT-5 到現(xiàn)在還沒出來(lái)。(注:指 Grok-3 發(fā)布后,在 Chatbot Arena 上比之前的冠軍的 PK 評(píng)分提升了 1.6%。)

就像靠基因突變和自然選擇進(jìn)化的階段,生命也在前進(jìn),但走了 30 億年也主要是單細(xì)胞生物?,F(xiàn)在大模型也卡在這種低效演化里。

科研品味來(lái)自勇氣和能力:一旦找對(duì)方向,證據(jù)會(huì)帶來(lái)自信

晚點(diǎn):技術(shù) “品味” 對(duì)探索未知領(lǐng)域很重要。這里的 “品味” 是指——當(dāng)一個(gè)領(lǐng)域沒有太多可跟隨的參照物時(shí),能自己提出對(duì)的問題、做出技術(shù)判斷,而且自信的能力,尤其是當(dāng)中間出現(xiàn)波折時(shí),仍能自信。其實(shí)你經(jīng)歷過這個(gè)過程,1995 年你從清華去伯克利時(shí),目前變成 AI 主流方法的神經(jīng)網(wǎng)絡(luò)還很冷門,你是怎么逐漸進(jìn)入這個(gè)領(lǐng)域的?

馬毅:我是先在學(xué)生時(shí)代意識(shí)到了視覺的重要性。當(dāng)時(shí)我在伯克利機(jī)器人組,我導(dǎo)師 Shankar(Shankar Sastry),還有師兄李澤湘都在做控制。

那時(shí)已經(jīng)有了雙足行走的機(jī)器人,能跑、能跳、能上樓梯,但都是提前編程好的,只能做預(yù)先設(shè)定的動(dòng)作。

我老師就跟我說,你看這些機(jī)器人系統(tǒng)控制做得挺好,但它們是 “瞎” 的,沒有大腦、眼睛,反饋,只有動(dòng)作輸出,沒有信息輸入,怎么閉環(huán)呢?這就是瞎動(dòng)。

所以 Shankar 的組是第一個(gè)開始做視覺的,要讓機(jī)器人能獨(dú)立適應(yīng)外部環(huán)境,當(dāng)時(shí)我們是研究三維視覺,探索機(jī)器如何感知和重建外部世界。

到了我博士畢業(yè)找工作時(shí),還是沒有這個(gè)就業(yè)領(lǐng)域。我在伊利諾伊是在系統(tǒng)組教控制,沒有 Computer Vision、3D Vision。比三維重建更冷的是視覺識(shí)別,所以李飛飛在自傳里也說她 2006-2007 畢業(yè)時(shí)不好找工作。

就是在這樣的環(huán)境下,一群研究者自發(fā)地探索感知、視覺重建、識(shí)別等問題。那時(shí) CVPR 開會(huì)也就幾百人,一個(gè)大教室就能坐下。

(注:CVPR 為計(jì)算機(jī)視覺領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議,2024 年 CVPR 參會(huì)者超過 1.2 萬(wàn)人。)

晚點(diǎn):在找教職都找不到對(duì)口方向時(shí),你還是覺得這個(gè)研究方向有前途。這種相信來(lái)自什么?

馬毅:證據(jù)??茖W(xué)探索本身充滿不確定性,十個(gè)想法可能九個(gè)都失敗,但一旦找對(duì)了方向,證據(jù)會(huì)給你帶來(lái)自信。自信不是盲目樂觀,而是來(lái)自數(shù)學(xué)、實(shí)驗(yàn)和邏輯上的驗(yàn)證——哪怕別人暫時(shí)還看不懂。

晚點(diǎn):什么因素或經(jīng)歷可以幫助塑造更好的技術(shù)品味?

馬毅:一是學(xué)術(shù)價(jià)值觀。真正做科研要探索未知、打破常規(guī),不應(yīng)從眾。能做出新東西的,往往是特立獨(dú)行、能看到主流不足、發(fā)現(xiàn)現(xiàn)存問題的人,雖然他們一開始往往很難得到認(rèn)可。

二是通過嚴(yán)謹(jǐn)學(xué)術(shù)訓(xùn)練,有嚴(yán)密的邏輯和實(shí)驗(yàn)?zāi)芰?。我讀數(shù)學(xué)碩士時(shí),老師就跟我說:“做數(shù)學(xué)家的第一條,就是把自己訓(xùn)練成世界上最難被說服的人。這樣,當(dāng)你找到一個(gè)證明并能說服自己時(shí),才足以嚴(yán)謹(jǐn)?shù)秸f服所有人。” 實(shí)驗(yàn)也要很嚴(yán)謹(jǐn)——數(shù)據(jù)、報(bào)告、現(xiàn)象判斷以及假設(shè)驗(yàn)證,都得嚴(yán)謹(jǐn),不要輕易下結(jié)論。

所以科研要有探索未知的勇氣,也要有能力,這是形成科研品味的本錢。只有特立獨(dú)行、沒有訓(xùn)練,可能會(huì)變成 “民科”。最可怕的是自己不知道自己是錯(cuò)的。

晚點(diǎn):伯克利對(duì)你的影響是什么?我們也訪談過你的師兄李澤湘,他當(dāng)時(shí)說,伯克利對(duì)他的世界觀和做科研的方式影響很大,那兒的氛圍特別平等、自由,大家喜歡討論、爭(zhēng)論,不存在權(quán)威。

馬毅:這非常了不起。我讀博時(shí),導(dǎo)師手下有 18 個(gè)學(xué)生,來(lái)自 13 個(gè)國(guó)家,大家沒有等級(jí)觀念,就是一心想把事情搞明白。

后來(lái)我自己在伯克利當(dāng)教授,帶的一些學(xué)生畢業(yè)后回來(lái)聊天,都說特別懷念這里,因?yàn)檫@兒的交流氛圍很好,可以完全跨組開放交流。我組里就十幾個(gè)學(xué)生,但開組會(huì)時(shí)經(jīng)常有三四十號(hào)人來(lái)一起聽,沒有秘密。這在其他地方并不常見。

晚點(diǎn):這也是對(duì)品味的一種培養(yǎng),讓研究者有更廣闊的視角。

馬毅:對(duì),后來(lái)我發(fā)現(xiàn),在伯克利,從同學(xué)身上學(xué)到的比從老師那兒還多,尤其是實(shí)用技能。學(xué)生間的合作也常??缃M,一起寫論文、改代碼、做各自擅長(zhǎng)的事,你幫我,我?guī)湍?。這能提升人的綜合素質(zhì)。我也特別希望在港大,還有中國(guó)其他大學(xué)看到這樣的氛圍。

晚點(diǎn):現(xiàn)在一些企業(yè)家和創(chuàng)業(yè)者并沒有系統(tǒng)的 AI 研究背景,但他們?cè)谂W(xué)習(xí) AI,比如張一鳴就請(qǐng)馮佳時(shí)來(lái)講解 AI 技術(shù)。你覺得他們能通過學(xué)習(xí),對(duì)技術(shù)理解到什么程度?這也會(huì)影響投資和業(yè)務(wù)判斷。

馬毅:如果只是了解 AI 技術(shù)在做什么,有扎實(shí)的本科數(shù)學(xué)和科學(xué)背景就夠了。要更深入,就需要更深的知識(shí)儲(chǔ)備。我們?nèi)ツ暝诟鄞筮€真做了一件相關(guān)的事。

因?yàn)檫^去幾年,不少企業(yè)家會(huì)來(lái)找我和同事請(qǐng)教 AI 問題,大家焦慮于要不要用 AI?怎么用?值不值得投?但我們每個(gè)老師也只深入了解自己研究的那部分。所以我們?cè)诟鄞箝_設(shè)了一個(gè)面向 CEO 和投資人的專門講 AI 的班,類似 EMBA,由數(shù)據(jù)與計(jì)算學(xué)院主導(dǎo),一方面讓科研老師用通俗方式提供技術(shù)介紹和證據(jù),另一方面邀請(qǐng)一線科技企業(yè)的人來(lái)分享真實(shí)的使用 AI 的經(jīng)驗(yàn)——成功也好,踩過坑也行。

這個(gè)班原計(jì)劃招 40-50 人,結(jié)果第一期來(lái)了 80 多位,主要是國(guó)內(nèi)頭部企業(yè)和上市公司創(chuàng)始人、企業(yè)高管和投資人。

晚點(diǎn):這些 CEO 同學(xué)們的科學(xué)素養(yǎng)如何?

馬毅:總體很好。他們都是成功的企業(yè)家,更想了解技術(shù)的本質(zhì),學(xué)習(xí)態(tài)度也誠(chéng)懇,并非來(lái)交朋友的。這個(gè)班的出勤率很高,前面幾個(gè)核心模塊幾乎全勤。

晚點(diǎn):他們應(yīng)該也會(huì)問一個(gè)問題——判斷一個(gè) AI 新成果靠不靠譜,有沒有什么簡(jiǎn)單的原則或方法?

馬毅:看是否有嚴(yán)格的證據(jù),比如真實(shí)實(shí)驗(yàn)數(shù)據(jù),而不是只看自媒體里講的表現(xiàn)好的案例。我們也會(huì)坦誠(chéng)分享負(fù)面案例或不確定的判斷。

給港大所有本科生講 AI,重要的是訓(xùn)練思考,不是給出答案

晚點(diǎn):去年我們聊時(shí),你提到當(dāng)時(shí)港大正在計(jì)劃 AI Literacy 課程,讓 “AI 通識(shí)課” 成為包括文科、社科、醫(yī)科、商科在內(nèi)的所有本科生的必修課。因?yàn)槲覀兾磥?lái)都要和機(jī)器共處,需要理解機(jī)器。今年春季學(xué)期,港大 AI 通識(shí)課已開始試上,秋季會(huì)開始包含 4000 多名全部大一新生。這個(gè)課程怎么設(shè)計(jì)的?

馬毅:我們分了幾個(gè)模塊:

- 第一,要讓學(xué)生搞清楚 AI 和智能的基本概念;

- 第二,我非常強(qiáng)調(diào)歷史,這部分是我自己在教,會(huì)涵蓋生命起源時(shí)的智能、機(jī)器智能的歷史;

- 第三,介紹具體技術(shù)本身,比如語(yǔ)言模型、圖像處理、機(jī)器人等,講這些技術(shù)的概念、作用和局限性;

- 第四是倫理問題,引導(dǎo)學(xué)生思考如何正確面對(duì)和使用 AI 工具,這涉及隱私保護(hù)、安全、法律規(guī)范等。

教學(xué)上,每個(gè)模塊都有團(tuán)隊(duì)支持,每節(jié)課由多位老師協(xié)作設(shè)計(jì),內(nèi)容每年更新,確保學(xué)生接觸到新的 AI 發(fā)展與研究成果。

晚點(diǎn):最核心是想教給學(xué)生什么?

馬毅:總的來(lái)說,是旨在讓學(xué)生:一、了解 AI 的歷史和概念;二、了解當(dāng)前技術(shù);三、思考 AI 技術(shù)對(duì)個(gè)人、行業(yè)乃至社會(huì)的可能影響。

但傳授知識(shí)本身還不是最重要的,最終目的是提升學(xué)生的獨(dú)立思考能力。所以我也跟授課老師強(qiáng)調(diào),現(xiàn)在很多問題沒有標(biāo)準(zhǔn)答案,要引導(dǎo)學(xué)生學(xué)會(huì)搜集證據(jù)、形成自己的想法,不要人云亦云。

因?yàn)榧夹g(shù)會(huì)不斷改進(jìn),炒作會(huì)反復(fù)出現(xiàn)。即便我們把當(dāng)下知識(shí)解釋清楚了,如果學(xué)生不能獨(dú)立思考,以后還是會(huì)被誤導(dǎo)。AI 本身是訓(xùn)練批判性獨(dú)立思維的很好的主題。

晚點(diǎn):這門課程怎么描述 AI 和人的關(guān)系?

馬毅:課程會(huì)講清楚智能的本質(zhì),然后讓學(xué)生自己去判斷如何與 AI 交互。關(guān)鍵在于啟發(fā)思考,不是灌輸答案。

晚點(diǎn):學(xué)生們可能會(huì)有天馬行空的暢想——AI 會(huì)不會(huì)產(chǎn)生自己的意識(shí)?AI 會(huì)是一種新生命和物種嗎?你會(huì)怎么解答?

馬毅:至少目前,AI 還在做機(jī)械的數(shù)據(jù)壓縮和生成。學(xué)生了解這一點(diǎn)后,也就知道如何與當(dāng)下的 AI 打交道了。至于未來(lái),當(dāng)智能機(jī)制被更全面地發(fā)現(xiàn)、實(shí)現(xiàn),系統(tǒng)真正能自主學(xué)習(xí)、獨(dú)立思考時(shí),個(gè)人和社會(huì)該如何應(yīng)對(duì)?我們現(xiàn)在可以探討,但希望他們能客觀認(rèn)識(shí)當(dāng)前的技術(shù)。

晚點(diǎn):維納在《人有人的用處》里討論過智能機(jī)器對(duì)社會(huì)倫理和政治的影響。80 年前,他已在思考未來(lái)技術(shù)可能會(huì)壓迫人,威脅人的尊嚴(yán)和價(jià)值感?,F(xiàn)在關(guān)于 AI 和人的未來(lái)也有 “合作共生” 和 “對(duì)立” 的兩種觀點(diǎn)。從感性角度來(lái)說,你更傾向哪一派?

馬毅:我沒有確定答案。從歷史看,智能機(jī)制并非人類獨(dú)有,許多動(dòng)物也有,自然界早把它 “開源” 了。人類能成為世界主宰,也是進(jìn)化的階段性結(jié)果。這些不同的智能過去可以共存,未來(lái)也可能有共存方式。

但另一方面,一旦機(jī)器能實(shí)現(xiàn)智能機(jī)制,在記憶、推理、學(xué)習(xí)效率上可能遠(yuǎn)遠(yuǎn)超越人類。那時(shí)我們?cè)撛趺崔k?這得留給大家一起思考。

A close-looped system is for an open world, no matter how small it is

晚點(diǎn):你現(xiàn)在致力于研究怎么讓機(jī)器系統(tǒng)有閉環(huán)反饋糾錯(cuò)機(jī)制,也就是向第二階段的有神經(jīng)系統(tǒng)和記憶的智能演進(jìn)。這個(gè)方向是主流還是少數(shù)派?

馬毅:其實(shí)從早期研究動(dòng)物智能時(shí)就發(fā)現(xiàn),幾乎所有高級(jí)動(dòng)物都是靠閉環(huán)反饋來(lái)糾錯(cuò)、學(xué)習(xí)、提升決策能力。這不是我們發(fā)明的,是自然界的選擇。我相信它不是某一種方向,而可能是唯一的方向。真正有效的智能系統(tǒng),都具備閉環(huán)反饋機(jī)制。

晚點(diǎn):我和工業(yè)界的一些人交流你們團(tuán)隊(duì)的研究成果時(shí),他們覺得這是故事會(huì),是 “刷存在感”。

馬毅:甚至還沒有存在感了。但我們的初衷就是把問題搞明白,我們的信心也正來(lái)源于此。Hinton 前 30 年都沒什么存在感,他的信心不來(lái)自一定找到了正確答案,而是知道自己提出了對(duì)的問題。

當(dāng)然科學(xué)需要證據(jù),不能只講原理。我們過去幾年就是在讓白盒大模型、閉環(huán)反饋機(jī)制變得可實(shí)現(xiàn)、可驗(yàn)證。這個(gè)過程很痛苦,也可能很漫長(zhǎng)。Hinton 也是等了很多年,直到條件成熟,有了更讓人信服的驗(yàn)證,才被接受。這是我們現(xiàn)在正經(jīng)歷的過程。

晚點(diǎn):你以前經(jīng)歷過類似過程嗎?

馬毅:我現(xiàn)在被引用最多的成果,一度就沒有任何會(huì)議接收,大家覺得結(jié)果太好,可能作弊了。后來(lái)我們花了一個(gè)暑假做嚴(yán)謹(jǐn)對(duì)比,才被期刊接收。

科學(xué)家也是人,學(xué)術(shù)圈也有 “回音壁效應(yīng)”,多數(shù)人相信當(dāng)下的主流,不愿花精力理解新 “雜音”。就像這兩年拿了諾獎(jiǎng)的 Karikó(卡塔林·卡里科,生物化學(xué)家) 和 Ambros(維克托·安布羅斯,發(fā)育生物學(xué)家) ,一個(gè)當(dāng)年被賓大降級(jí)降薪,一個(gè)沒拿到哈佛的教職。

我常用這些故事激勵(lì)年輕人:很多人覺得現(xiàn)在的方法就是通向 AGI 的陽(yáng)光大道,其實(shí)陽(yáng)光之下,新發(fā)現(xiàn)還會(huì)出現(xiàn),那些沒被看到的東西未來(lái)會(huì)顛覆認(rèn)識(shí)。

晚點(diǎn):具體到你對(duì)白盒大模型和閉環(huán)反饋機(jī)制的研究,從我們?nèi)ツ炅牡浆F(xiàn)在,有哪些新進(jìn)展?

馬毅:這分兩部分,一是原理發(fā)現(xiàn)和初步驗(yàn)證,二是大規(guī)模工程實(shí)現(xiàn)和驗(yàn)證。

白盒大模型,之前我們?cè)趯W(xué)校已經(jīng)驗(yàn)證了方法可行,現(xiàn)在在公司(馬毅創(chuàng)立的憶生科技)是做產(chǎn)業(yè)化——用大量數(shù)據(jù),在更大規(guī)模上做驗(yàn)證或改進(jìn)效率。

這類偏工程化的工作往往不是學(xué)校愿意做和應(yīng)該做的。學(xué)界應(yīng)該做與工業(yè)界互補(bǔ)的東西:就是發(fā)現(xiàn)新原理和方向。這也是為什么要?jiǎng)?chuàng)立公司來(lái)做后面一部分的工作。過去十年一個(gè)讓人失望的現(xiàn)象是,學(xué)術(shù)界被工業(yè)界牽著走。

(注:白盒大模型是指,為 Transformer 結(jié)構(gòu)大模型里,從高維到低維的壓縮過程中提供數(shù)學(xué)解釋,以去除經(jīng)驗(yàn)性的冗余,提高效率和效果。)

在閉環(huán)反饋?zhàn)灾骷m錯(cuò)機(jī)制這塊兒,我們?cè)趪L試不同路徑。現(xiàn)在的主流是用單一模型做開環(huán)系統(tǒng),我們認(rèn)為這并不自然。大腦不是單一的一個(gè)環(huán),而是多個(gè)環(huán)在并行。大腦皮層中有幾十萬(wàn)個(gè)形態(tài)相似的皮質(zhì)柱(cortical column)在各自編碼、解碼,協(xié)同處理信息,每個(gè)都是閉環(huán)系統(tǒng)。我們正在探索構(gòu)建更接近人類大腦形態(tài)的架構(gòu),實(shí)現(xiàn)多路閉環(huán)反饋。

晚點(diǎn):所以這個(gè)大的閉環(huán)系統(tǒng)的結(jié)構(gòu)是很多模型組合在一起,其中每一個(gè)都是閉環(huán)的?

馬毅:至少人腦的形態(tài)是這樣一個(gè)并行、分布式的、有層次的結(jié)構(gòu)。人類大腦只有前額葉的一小片區(qū)域在處理自然語(yǔ)言,其他絕大部分在處理視覺、觸覺、聲音等其他物理信號(hào),小腦則負(fù)責(zé)運(yùn)動(dòng)控制。

晚點(diǎn):閉環(huán)系統(tǒng)的一個(gè)特點(diǎn)是,能在開放的真實(shí)物理世界中運(yùn)轉(zhuǎn)和自己學(xué)習(xí),它會(huì)更多指向具身智能嗎?

馬毅:對(duì)。我常說,“A close-looped system is for an open world, no matter how small it is.” 哪怕小如一只螞蟻,也能在大世界里自主學(xué)習(xí)。

相反, “An open-looped system is for a close world, no matter how big it is.” 所以一個(gè)端對(duì)端的開環(huán)系統(tǒng),只能應(yīng)對(duì)封閉世界,這個(gè)模型不管多大,也不能自我改進(jìn)。

晚點(diǎn):端到端和閉環(huán)是互斥的嗎?

馬毅:不完全互斥,這是兩件事。目前為止,大模型訓(xùn)練好后,如果不借助人為的微調(diào)或迭代就不能改進(jìn)了。這就像只靠 DNA 來(lái)學(xué)習(xí)的階段,從受精卵形成那一刻起,個(gè)體能力就被預(yù)定了,生物完全靠本能而活。

晚點(diǎn):看好 VLA 方法的人會(huì)說,這個(gè)方法確實(shí)提升了泛化性。

馬毅:這就好比造飛機(jī),現(xiàn)在的飛機(jī)能飛、能載客,也能盈利,但這是不是飛行最高效的方式?未必。

當(dāng)前的 VLA 是通過大量數(shù)據(jù)和算力,把感知、視覺、語(yǔ)言和動(dòng)作整合在一起,它能提升機(jī)器人性能,不過方式比較簡(jiǎn)單粗暴。

晚點(diǎn):什么時(shí)候能實(shí)現(xiàn)更優(yōu)雅的閉環(huán)機(jī)制呢?

馬毅:You never know. 雖然概念很清晰,但實(shí)現(xiàn)時(shí),工程是否到位、方法是否正確,都是變數(shù)。GPT 花了好幾年才驗(yàn)證效果更好。科技探索關(guān)鍵在于找對(duì)方向,方向?qū)α?,已?jīng)很幸運(yùn)了。

晚點(diǎn):探索前沿方向有諸多不確定性,而你現(xiàn)在也創(chuàng)立了公司來(lái)做工程實(shí)現(xiàn)和驗(yàn)證,公司是需要更確定的發(fā)展節(jié)奏的。你對(duì)處理這二者之間的張力有了什么體會(huì)?

馬毅:我一直相信,無(wú)論做學(xué)問還是做公司,都要有品味和信念。阿爾特曼曾說,GPT 有什么用他一開始也不知道,但他相信讓機(jī)器理解自然語(yǔ)言這件事值得做。

很多技術(shù)在沒突破臨界點(diǎn)前,看起來(lái)都沒用,但一旦突破,就可能釋放巨大價(jià)值。如果等看到特別明確的收益才做,那是純商業(yè)公司,而不是科技公司。

晚點(diǎn):當(dāng)你身邊現(xiàn)在的一些非 AI 研究者,為 AI 感到焦慮或困惑時(shí),你會(huì)和他們說什么?

馬毅:焦慮來(lái)自不了解。所以我喜歡寫書,只有自己梳理一遍,才會(huì)發(fā)現(xiàn)哪里沒弄明白。

AI 現(xiàn)在還是一個(gè)黑盒子,正因?yàn)槭呛诤?,一部分人覺得很難搞明白,另一部分人會(huì)利用它的模糊性炒作或制造恐懼。迷信是這么產(chǎn)生的,(某些)權(quán)力也是這么產(chǎn)生的。

題圖:2025 年 4 月底,馬毅在人工智能領(lǐng)域頂會(huì) ICLR(International Conference on Learning Representations,國(guó)際表征學(xué)習(xí)大會(huì)) 上做學(xué)術(shù)報(bào)告。來(lái)源:馬毅。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
50歲大媽救受傷蛇養(yǎng)12年,寵物院長(zhǎng)捂嘴尖叫:這哪是蛇啊

50歲大媽救受傷蛇養(yǎng)12年,寵物院長(zhǎng)捂嘴尖叫:這哪是蛇啊

故事秘棧
2025-05-17 18:42:12
18月大嬰兒被灌50毫升啤酒!涉事者:想逗逗孩子,以為是啤酒應(yīng)該沒問題

18月大嬰兒被灌50毫升啤酒!涉事者:想逗逗孩子,以為是啤酒應(yīng)該沒問題

瀟湘晨報(bào)
2025-06-14 21:37:10
華裔女子用20張圖片表達(dá)中西差異!

華裔女子用20張圖片表達(dá)中西差異!

霹靂炮
2025-06-09 22:12:29
白酒圈的四大檔次,你喝的酒在哪一檔次?

白酒圈的四大檔次,你喝的酒在哪一檔次?

宇宙時(shí)空
2025-06-13 17:44:18
印度是伊朗的全天候戰(zhàn)略合作伙伴,這次以色列襲擊伊朗卻一聲不吭

印度是伊朗的全天候戰(zhàn)略合作伙伴,這次以色列襲擊伊朗卻一聲不吭

大道無(wú)形我有型
2025-06-15 12:48:39
高考后旗袍迎來(lái)“退貨潮”,汗臭難聞吊牌沒摘,網(wǎng)友:犯了大忌!

高考后旗袍迎來(lái)“退貨潮”,汗臭難聞吊牌沒摘,網(wǎng)友:犯了大忌!

涵豆說娛
2025-06-14 09:06:48
為什么沙特寧愿給美國(guó)送上千億美金大單,也不愿選我們呢?

為什么沙特寧愿給美國(guó)送上千億美金大單,也不愿選我們呢?

流蘇晚晴
2025-06-05 18:13:18
劉嘉玲天塌了!出席活動(dòng)梁朝偉像個(gè)小老頭,她的衣服被吐槽不得體

劉嘉玲天塌了!出席活動(dòng)梁朝偉像個(gè)小老頭,她的衣服被吐槽不得體

小咪侃娛圈
2025-06-14 14:04:44
難度翻倍!邁阿密首戰(zhàn)逼平,下場(chǎng)踢身價(jià)超3億歐葡超豪門波爾圖

難度翻倍!邁阿密首戰(zhàn)逼平,下場(chǎng)踢身價(jià)超3億歐葡超豪門波爾圖

直播吧
2025-06-15 10:24:10
36歲林書豪當(dāng)選中國(guó)臺(tái)灣職業(yè)籃球大聯(lián)盟本賽季MVP 生涯首奪MVP!

36歲林書豪當(dāng)選中國(guó)臺(tái)灣職業(yè)籃球大聯(lián)盟本賽季MVP 生涯首奪MVP!

直播吧
2025-06-14 16:15:03
伊朗革命衛(wèi)隊(duì)聲稱擊落F-35并俘獲女飛行員,以色列諷刺虛假宣傳

伊朗革命衛(wèi)隊(duì)聲稱擊落F-35并俘獲女飛行員,以色列諷刺虛假宣傳

明月聊史
2025-06-14 15:56:59
7歲路易小王子陽(yáng)臺(tái)揮手,逗笑全家,和喬治的聊天曝光“很英國(guó)”

7歲路易小王子陽(yáng)臺(tái)揮手,逗笑全家,和喬治的聊天曝光“很英國(guó)”

譯言
2025-06-15 10:10:58
兢兢業(yè)業(yè)25年被降職,我躺平只做分內(nèi)事,3個(gè)月后公司業(yè)績(jī)暴跌80%

兢兢業(yè)業(yè)25年被降職,我躺平只做分內(nèi)事,3個(gè)月后公司業(yè)績(jī)暴跌80%

天夢(mèng)見證
2025-06-02 22:10:51
辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

星光看娛樂
2025-06-11 08:38:31
華為史上最成功的4部手機(jī),全都能流暢用5年,價(jià)格還不算太貴

華為史上最成功的4部手機(jī),全都能流暢用5年,價(jià)格還不算太貴

金科技觀察家
2025-06-14 17:27:14
退休夫婦取到8萬(wàn)假幣,銀行死不承認(rèn),兒子做法讓銀行直接求放過

退休夫婦取到8萬(wàn)假幣,銀行死不承認(rèn),兒子做法讓銀行直接求放過

今天說故事
2025-06-11 17:50:51
3年1.05億!杰倫-格林決心改善在季后賽的掙扎表現(xiàn) 希望留在火箭

3年1.05億!杰倫-格林決心改善在季后賽的掙扎表現(xiàn) 希望留在火箭

直播吧
2025-06-15 15:11:17
全球最年輕白手起家億萬(wàn)富翁Alexandr Wang:中國(guó)移民家庭的神奇小子

全球最年輕白手起家億萬(wàn)富翁Alexandr Wang:中國(guó)移民家庭的神奇小子

鞭牛士
2025-06-15 07:55:14
哈梅內(nèi)伊:掌權(quán)伊朗34年,家族能動(dòng)員千萬(wàn)人,為何地位難以撼動(dòng)?

哈梅內(nèi)伊:掌權(quán)伊朗34年,家族能動(dòng)員千萬(wàn)人,為何地位難以撼動(dòng)?

WarOH協(xié)虎
2024-01-12 23:45:03
抽到下下簽!鄭欽文可能首輪出局,拿冠軍也難了,鮑里妮天堂好簽

抽到下下簽!鄭欽文可能首輪出局,拿冠軍也難了,鮑里妮天堂好簽

侃球熊弟
2025-06-15 00:01:50
2025-06-15 15:47:00
晚點(diǎn)LatePost
晚點(diǎn)LatePost
晚一點(diǎn),好一點(diǎn)。商業(yè)的真相總是在晚點(diǎn)。《晚點(diǎn)LatePost》官方賬號(hào)
2719文章數(shù) 21781關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴(yán)重缺貨

頭條要聞

外媒:以色列想推翻伊朗政權(quán) 希望看到伊朗民眾"起義"

頭條要聞

外媒:以色列想推翻伊朗政權(quán) 希望看到伊朗民眾"起義"

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財(cái)經(jīng)要聞

以伊沖突持續(xù)升級(jí),對(duì)全球市場(chǎng)影響多大

汽車要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

時(shí)尚
旅游
本地
數(shù)碼
軍事航空

中年女人別穿短褲、短裙,夏季這么穿更時(shí)髦得體,碾壓同齡人

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場(chǎng)小技巧

數(shù)碼要聞

海信 100 吋廣告現(xiàn)身世俱杯賽場(chǎng):一場(chǎng)“百吋風(fēng)暴”正在到來(lái)

軍事要聞

伊朗最高領(lǐng)袖高級(jí)顧問沙姆哈尼 因傷勢(shì)過重離世

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产av成人无码精品网站| 国产巨大爆乳在线观看| 免费a级毛片18禁网站免费| 免费人妻av无码专区| 天堂网在线最新版www中文网| 亚洲综合国产一区二区三区| 久久久无码视频| 欧美刺激性大交| 精品少妇ay一区二区三区| 国产精品成人免费视频网站京东| 黄色视频免费在线观看| 国产精品久久久久久| 99精品国产在热久久| 国产精品内射视频免费| 亚洲综合另类小说专区| 亚洲人成亚洲人成在线观看| 亚洲人成人网站18禁| 久久午夜夜伦鲁鲁片免费无码| 久久国产成人午夜av影院| 色av综合av综合无码网站| 久久久久99精品成人片三人毛片| 中字无码av电影在线观看网站| 奇米影视色777四色在线首页| 13小箩利洗澡无码视频网站| 欧美亚洲综合高清在线| 人人玩人人添人人澡| 色婷婷五月在线精品视频| 无码无套少妇18p在线直播| 国产超碰av人人做人人爽| 亚洲精品久久久久久久不卡四虎| 狠狠色综合久久久久尤物| 欧美老熟妇乱xxxxx| 成 人 色综合 综合网站| 亚洲精品国产av成拍色拍| 免费观看又色又爽又湿的视频| 久久亚洲精品国产精品婷婷| 日本妈妈在线观看中文字幕| 米奇777超碰欧美日韩亚洲| 午夜亚洲aⅴ无码高潮片苍井空| 国产又黄又爽又色的免费视频| 成人性生交大片免费看小说|