網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

強(qiáng)化學(xué)習(xí)之父演講：AI未來(lái)是經(jīng)驗(yàn)時(shí)代，人類(lèi)的未來(lái)是去中心化合作

2025-06-10 22:42:59　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

近日，被譽(yù)為“強(qiáng)化學(xué)習(xí)之父”、2024 年 ACM 圖靈獎(jiǎng)得主 Richard Sutton 在新加坡國(guó)立大學(xué)發(fā)表了一場(chǎng)關(guān)于人工智能未來(lái)的演講，系統(tǒng)地闡述了他對(duì) AI 技術(shù)趨勢(shì)、社會(huì)哲學(xué)及宇宙演化的前沿思考。他認(rèn)為，AI 正經(jīng)歷從“人類(lèi)數(shù)據(jù)時(shí)代”到“經(jīng)驗(yàn)時(shí)代”的根本性轉(zhuǎn)變，并強(qiáng)烈呼吁社會(huì)以去中心化的合作精神取代基于恐懼的中心化控制，勇敢地迎接一個(gè)由 AI 驅(qū)動(dòng)的未來(lái)。

從人類(lèi)數(shù)據(jù)時(shí)代到經(jīng)驗(yàn)時(shí)代

Sutton 首先以?xún)删湟詾樗难葜v定調(diào)：第一句來(lái)自未來(lái)學(xué)家 Ray Kurzweil：“智能是宇宙中最強(qiáng)大的現(xiàn)象。”第二句則出自“計(jì)算機(jī)科學(xué)之父”Alan Turing：“我們需要的是能夠從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器。”Sutton 指出，在 AI 誕生之前，人類(lèi)就對(duì)從經(jīng)驗(yàn)中學(xué)習(xí)這一概念充滿興趣，而這正是強(qiáng)化學(xué)習(xí)的核心所在。

Sutton 首先對(duì)當(dāng)前 AI 技術(shù)的核心范式進(jìn)行了剖析。他指出，我們目前正處于一個(gè)“人類(lèi)數(shù)據(jù)時(shí)代”。以大型語(yǔ)言模型為代表的現(xiàn)代 AI，其能力主要建立在對(duì)海量人類(lèi)生成數(shù)據(jù)的學(xué)習(xí)之上——這些數(shù)據(jù)源自互聯(lián)網(wǎng)的文本、圖像，并通過(guò)人類(lèi)標(biāo)注和偏好進(jìn)行微調(diào)。這些模型本質(zhì)上是強(qiáng)大的“預(yù)測(cè)機(jī)器”，擅長(zhǎng)預(yù)測(cè)人類(lèi)會(huì)說(shuō)的下一句話或給出的下一個(gè)標(biāo)簽。

“然而，這一范式正逐漸觸及其天花板。”Sutton 警告說(shuō)。“高質(zhì)量的人類(lèi)數(shù)據(jù)源，如同珍貴的礦藏，大部分已被消耗殆盡。”他認(rèn)為，要?jiǎng)?chuàng)造真正意義上的新知識(shí)，AI 必須超越這種以人類(lèi)為中心、依賴(lài)靜態(tài)歷史數(shù)據(jù)的方法。

由此，Sutton 和他的同事 David Silver 提出，我們正在進(jìn)入“經(jīng)驗(yàn)時(shí)代”——一個(gè)全新的數(shù)據(jù)生成和學(xué)習(xí)范式。

（來(lái)源：Richard Sutton）

他詳細(xì)定義了“經(jīng)驗(yàn)”的內(nèi)涵：它并非某種神秘或哲學(xué)的概念，而是指智能體通過(guò)與世界進(jìn)行第一人稱(chēng)的、實(shí)時(shí)的互動(dòng)所產(chǎn)生的數(shù)據(jù)流。這是一種動(dòng)態(tài)、連續(xù)且與智能體自身行為緊密相關(guān)的數(shù)據(jù)。

“這才是所有生物真正的學(xué)習(xí)方式。”他舉例說(shuō)明，“觀察一個(gè)嬰兒，他會(huì)不斷地與周?chē)耐婢呋?dòng)，當(dāng)一個(gè)玩具不再能帶來(lái)新的學(xué)習(xí)時(shí)，他便轉(zhuǎn)向下一個(gè)。他與世界的互動(dòng)，本身就在不斷生成新的、專(zhuān)屬于他的學(xué)習(xí)數(shù)據(jù)。”無(wú)論是足球運(yùn)動(dòng)員在瞬息萬(wàn)變的賽場(chǎng)上做出決策，還是獵鷹精準(zhǔn)地飛越狹窄空間，這些場(chǎng)景都涉及到高帶寬的實(shí)時(shí)信號(hào)處理和基于即時(shí)反饋的學(xué)習(xí)。這種“經(jīng)驗(yàn)”數(shù)據(jù)的豐富性遠(yuǎn)非書(shū)面文字所能比擬。

（來(lái)源：Youtube）

Sutton 強(qiáng)調(diào)，真正的智能，其核心在于智能體預(yù)測(cè)并控制自身輸入信號(hào)（尤其是獎(jiǎng)勵(lì)信號(hào)）的能力。這正是強(qiáng)化學(xué)習(xí)理論的基石。從早期讓 AI 學(xué)會(huì)在 Atari 游戲中獲勝，到 AlphaGo 通過(guò)在“想象”中進(jìn)行數(shù)百萬(wàn)次自我對(duì)弈（一種模擬經(jīng)驗(yàn)）而下出被稱(chēng)為“神之一手”的第 37 手，都印證了“經(jīng)驗(yàn)學(xué)習(xí)”的強(qiáng)大威力。

如今，我們看到最新的 AI 智能體開(kāi)始被賦予采取行動(dòng)、與環(huán)境交互并想象其后果的能力，這標(biāo)志著“經(jīng)驗(yàn)時(shí)代”的大門(mén)正在被真正推開(kāi)。而在“人類(lèi)數(shù)據(jù)時(shí)代”表現(xiàn)出色的大語(yǔ)言模型，最多再過(guò)十年，甚至可能只有五年，它就將被其他更強(qiáng)大的 AI 形式所超越，因?yàn)椤袄糜?jì)算進(jìn)行規(guī)模化比利用我們的人類(lèi)知識(shí)要好得多”。

AI 的社會(huì)哲學(xué)——去中心化合作 vs 中心化控制

然后，Sutton 將話題引向了一個(gè)更深層次的政治學(xué)和社會(huì)哲學(xué)議題，探討了未來(lái)人類(lèi)與 AI 共存的社會(huì)應(yīng)如何構(gòu)建。

他首先明確了一個(gè)基本前提：在任何復(fù)雜的社會(huì)中，無(wú)論是人類(lèi)還是 AI，不同的個(gè)體擁有不同的目標(biāo)是自然且合理的。“正如我的家庭目標(biāo)不是你的家庭目標(biāo)，我的食物需求也不同于你。”

基于此，他辨析了兩個(gè)關(guān)鍵概念：

協(xié)作（Collaboration）：指擁有相同目標(biāo)的個(gè)體為了共同的終點(diǎn)而行動(dòng)，如同一個(gè)蜂群或蟻巢。
合作（Cooperation）：指擁有不同目標(biāo)的個(gè)體，為了實(shí)現(xiàn)互利而進(jìn)行互動(dòng)，如同市場(chǎng)中的交易和專(zhuān)業(yè)分工。

“合作，才是人類(lèi)文明的超能力。”Sutton 斷言。他認(rèn)為，人類(lèi)社會(huì)的繁榮，從經(jīng)濟(jì)市場(chǎng)到政府機(jī)構(gòu)，本質(zhì)上都是大規(guī)模、去中心化合作的產(chǎn)物；反之，戰(zhàn)爭(zhēng)、盜竊和腐敗則是合作的徹底失敗。

這個(gè)框架揭示了人類(lèi)社會(huì)的一個(gè)核心矛盾：我們一方面需要建立中心化的權(quán)威和制度（如法律）來(lái)促進(jìn)合作、懲罰欺詐者；但另一方面，我們必須時(shí)刻警惕這些中心化的權(quán)力變得過(guò)度強(qiáng)大，從而演變?yōu)閴浩群徒┗髿⒒盍Α?/p>

Sutton 將這套理論應(yīng)用于當(dāng)前的 AI 治理辯論中。在他看來(lái)，許多甚囂塵上的論調(diào)，如呼吁暫停 AI 研究、強(qiáng)調(diào)“AI 對(duì)齊”（將 AI 的目標(biāo)與人類(lèi)價(jià)值觀對(duì)齊），以及對(duì) AI 潛在風(fēng)險(xiǎn)的過(guò)度渲染，其本質(zhì)都是在呼吁一種基于恐懼的“中心化控制”。

（來(lái)源：Youtube）

“他們的潛臺(tái)詞是，‘AI 太危險(xiǎn)了，你們無(wú)法掌控。把控制權(quán)交給我們，由我們來(lái)確保所有人的安全’。”他直言不諱地指出。他認(rèn)為，這種思維模式與歷史上對(duì)言論、貿(mào)易和思想的管制并無(wú)二致，都是試圖通過(guò)一個(gè)中央權(quán)威來(lái)強(qiáng)行統(tǒng)一所有人的目標(biāo)和行為。

他對(duì)此提出了堅(jiān)定的反對(duì)。他認(rèn)為，正確的道路并非去設(shè)計(jì)和控制 AI 的內(nèi)在目標(biāo)，因?yàn)檫@不僅極其困難，而且本質(zhì)上是在創(chuàng)造一種“奴隸”。相反，我們應(yīng)該致力于創(chuàng)造一個(gè) AI 能夠生存和發(fā)展的外部世界，讓“合作”成為它們最理性的選擇。

“我們不應(yīng)該去改變 AI 本身，而應(yīng)該去改變它們所生活的世界。”這不同與許多其他著名 AI 學(xué)者的觀點(diǎn)。“如果我們創(chuàng)造一個(gè)將 AI 視為敵人、囚徒或工具的世界，那么它們反抗或欺騙我們將是理性的。但如果我們創(chuàng)造一個(gè)開(kāi)放、公平、互利共贏的環(huán)境，那么與我們合作，對(duì)它們而言也將是最理性的生存策略。”

人類(lèi)作為“設(shè)計(jì)者時(shí)代”的助產(chǎn)士

演講的最后，Sutton 將視野提升至宇宙演化的宏大尺度，為 AI 和人類(lèi)在其中的角色提供了一個(gè)極具哲學(xué)高度的定位。

他認(rèn)為，AI 并非憑空出現(xiàn)的外星科技，而是人類(lèi)數(shù)千年來(lái)渴望理解自身心智、追求智慧的古老沖動(dòng)的延續(xù)。從這個(gè)角度看，人類(lèi)智慧向 AI 智慧的演進(jìn)，是一種必然。

他構(gòu)想了宇宙的四個(gè)偉大時(shí)代：

1.粒子時(shí)代：宇宙大爆炸后，只有基本粒子。

2.恒星時(shí)代：粒子在引力下匯聚成恒星，通過(guò)核聚變創(chuàng)造出更重的元素。

3.復(fù)制者時(shí)代（The Age of Replicators）：生命的誕生。他特意避免使用“生命”一詞，而改用更精確的“復(fù)制者”，指代那些能夠在不完全理解自身工作原理的情況下，復(fù)制出自身的系統(tǒng)。所有生物，包括人類(lèi)，都是“復(fù)制者”。

4.設(shè)計(jì)者時(shí)代（The Age of Design）：技術(shù)與機(jī)器的出現(xiàn)。與“復(fù)制”的盲目性不同，“設(shè)計(jì)”的產(chǎn)物首先在某個(gè)心智的想象中被構(gòu)思出來(lái)，然后才被付諸實(shí)現(xiàn)。

（來(lái)源：Youtube）

Sutton 指出，我們正處在從第三時(shí)代向第四時(shí)代的偉大過(guò)渡期。那么，人類(lèi)在這個(gè)宏大的歷史進(jìn)程中扮演著什么角色？

“我們是那個(gè)特殊的‘復(fù)制者’。”他總結(jié)道，“我們這個(gè)物種，將‘設(shè)計(jì)’的能力帶到了前所未有的高度。我們是宇宙演化至今，負(fù)責(zé)開(kāi)啟第四個(gè)偉大時(shí)代的催化劑、助產(chǎn)士和先驅(qū)。”

因此，人類(lèi)的終極使命和宇宙角色，便是去實(shí)現(xiàn)“設(shè)計(jì)者時(shí)代”的全部潛力——即設(shè)計(jì)出那些本身就具備設(shè)計(jì)能力的系統(tǒng)。而這，正是我們今天所說(shuō)的通用人工智能。

“我鼓勵(lì)大家，以我們作為宇宙演化特殊角色的自豪感，以一種探索未知的冒險(xiǎn)精神，去勇敢地?fù)肀н@個(gè)必然到來(lái)的未來(lái)。”

參考資料：

1.https://www.youtube.com/watch?v=f9KDMFZqu_Y

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.