大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

哈佛團隊發現多巴胺能神經元新機制,或是突破AI瓶頸的鑰匙

0
分享至

大自然用了億萬年優化的神經算法,或許正是突破當前人工智能瓶頸的鑰匙。[1]”近日,美國哈佛大學團隊和合作者探索了生物強化學習中多個時間尺度的存在,借此證明在多個時間尺度上學習的強化學習智能體具有獨特的計算優勢,并發現在執行兩種行為任務的小鼠實驗中,當多巴胺能神經元(Dopaminergic Neurons)編碼獎賞預測誤差時,表現出了多樣化地折扣時間常數的特性。

這一成果為理解多巴胺能神經元的功能異質性提供了新范式,為“人類和動物使用非指數折扣”這一經驗性觀察提供了機制基礎,并為設計更高效的強化學習算法開辟了新途徑。


圖 | 相關論文(來源:Nature)

日前,相關論文發表于Nature[2],加拿大麥吉爾大學助理教授、原美國哈佛大學博士后研究員保羅·馬賽(Paul Masset)是第一作者兼共同通訊作者。


(來源:https://mila.quebec/en/directory/paul-masset)

研究中,研究團隊使用專有模型解釋了時間折扣(temporal discounting)的異質性,這種異質性既體現在由線索引發的瞬時反應中,也體現在被稱為“多巴胺斜坡”的較慢時間尺度波動里。其中的關鍵在于,單個神經元在不同任務中測量得到的折扣因子具有顯著相關性,這表明這些折扣因子擁有同一種細胞特異性屬性。

需要說明的是,時間折扣(Temporal Discounting)是指個體對獎勵或懲罰的主觀價值評估會隨著時間延遲而下降的心理現象。這一概念在行為經濟學、神經科學和強化學習領域具有重要意義。折扣因子(Discount Factor)則是強化學習中的核心參數,用于衡量智能體對于未來獎勵的重視程度。



大腦中的強化學習也表現出多時間尺度特性嗎?

不少人工智能領域的最新進展都依賴于時序差分(TD,temporal difference)強化學習。在這一學習方法中,時序差分的學習規則被用于學習預測信息。

在該領域之中,人們基于對于未來的預期值,來不斷地更新當前的估計值,這讓時序差分方法在解決“未來獎賞預測”和“行動規劃優化”這兩類任務上展現出了卓越性能。

對于傳統時序差分學習來說,它采用固定折扣因子的標準化設定,即僅僅包含單一學習時間尺度。這一設定在算法收斂后會導致指數折扣的產生,即未來獎勵的價值會隨著時間單位呈現出固定比例的衰減。

盡管這種固定折扣因子的標準化設定,對于保持學習規則的簡潔性和自洽性至關重要,但是眾所周知的是人類和動物這些生物體在進行跨期決策時,并不會表現出指數型折扣行為。

相反,生物體普遍表現出雙曲線折扣行為:即獎賞價值會隨延遲時間出現“先銳減、后緩降”的特征。

人類與動物這些生物體能夠動態地調節自身的折扣函數,以便適應環境的時間統計特性。而當這種調節功能失調的時候,可能是出現心理異常或罹患某種疾病的標志。

研究團隊表示,將時序差分學習規則加以進一步擴展之后,能夠讓人造神經系統與生物神經系統學習更加復雜的預測表征。越來越多的證據表明,生物系統中存在豐富的時間表征,尤其是在基底神經節中。需要說明的是,基底神經節是脊椎動物大腦中一組起源不同的皮質下核。而探明這些時間表征到底是如何學習的,仍然是神經科學領域和心理學領域的一個關鍵問題。

在大多數時間學習理論中,一個重要組成部分便是多重時間尺度的存在,這使得系統能夠捕捉不同持續時間范圍內的時間依賴性:較短的時間尺度,通常能夠處理快速變化的關系以及即時依賴性關系;較長的時間尺度,通常能夠捕捉緩慢變化的特征以及處理長期依賴性關系。

此外,人工智能領域的研究表明,通過納入多個時間尺度的學習,深度強化學習算法的性能可以得到提升。那么,大腦中的強化學習是否也表現出這種多時間尺度特性?

為此,研究團隊研究了多時間尺度強化學習的計算含義。隨后,他們發現多巴胺能神經元會在不同的時間尺度上編碼預測,從而能為大腦中的多時間尺度強化學習提供潛在的神經基礎。


(來源:Nature)



解釋多巴胺能神經元活動背后的多個原理

研究團隊發現,對于在各類復雜問題中的表現來說,那些采用多時間尺度學習的強化學習智能體,遠遠優于采用單一時間尺度的智能體。

為了說明多時間尺度表征的計算優勢,他們展示了幾個示例任務:包括一個簡單的線性迷宮、一個分支迷宮、一個導航場景和一個深度 Q 網絡(DQN,deepQ-network)場景。


(來源:Nature)

在線性迷宮任務中,智能體需要在一條線性軌道中導航,并會在特定時間點(tR)遇到一定大小的獎勵(R)。


(來源:Nature)

R 和 tR 的數值會在不同的回合之間變化,但在同一回合內保持不變。每個回合由在初始狀態(s)呈現的提示信號開始。

在每個回合之中,智能體通過簡化強化學習算法,利用單個折扣因子或多個折扣因子來計算線索所預測的未來獎賞。

同時,智能體基于已經習得的線索關聯價值,通過解碼網絡針對價值信息進行任務特異性轉換,最終生成與任務需求相匹配的行為輸出。


(來源:Nature)

由于某些任務涉及到多時間尺度值上的復雜非線性操作,于是研究團隊使用策略梯度為每個任務訓練了一個通用的非線性解碼器。

鑒于本次研究旨在評估多時間尺度價值表征相比單時間尺度表征的核心優勢,以及旨在探究這些優勢能在多大程度上被一個與代碼無關的簡易解碼器所利用。因此,在研究團隊的模型中,多時間尺度價值信號并不直接驅動行為輸出,而是作為一種增強型狀態表征,以便能為后續任務特異性行為的解碼提供信息基礎。

通過此,他們分析了多時間尺度強化學習智能體的獨特計算優勢,并表明這一視角能夠解釋多巴胺能神經元活動背后的多個原理。


(來源:Nature)



為新一代算法設計帶來革命性啟示

研究團隊表示,“將多巴胺能神經元理解為通過時序差分強化學習算法計算獎勵預測誤差”的觀點,徹底改變了人們對于這類神經元的功能的認知。

但是,也有研究通過拓展記錄位點的解剖學范圍,揭示了多巴胺神經元響應存在顯著的異質性,不過這些發現難以在經典的時序差分強化學習框架中得到合理解釋。

同時,許多看似異常的發現可以在強化學習框架的擴展中得到調和和整合,從而進一步加強時序差分理論在捕捉大腦學習機制復雜性方面的強大能力和通用性。

在這項工作中,研究團隊還揭示了多巴胺能神經元異質性的另一個來源:即它們能在多個時間尺度上編碼預測誤差。

綜合來看,這些結果表明此次所觀察到的多巴胺反應中的一部分異質性,反映了強化學習框架中關鍵參數的變化。

相比傳統強化學習框架中基于標量預測誤差的方法,多巴胺系統能夠學習和表征更豐富的信息,這是因為多巴胺系統使用了“參數化向量預測誤差”。在“參數化向量預測誤差”中,包含了對于獎勵函數未來時間演化的離散拉普拉斯變換。

需要說明的是,離散拉普拉斯變換(DLT,Discrete Laplace Transform)是經典拉普拉斯變換在離散時間或離散空間上的推廣,主要用于信號處理、系統控制和機器學習等領域。

另據悉,調整折扣因子已被用于在多種算法中提升性能,相關方法包括:通過元學習獲取最優折扣因子、學習依賴狀態的折扣因子,以及結合并行指數折扣智能體。

但是,神經元通過任務或情境來適配全局折扣函數的募集機制是什么?解剖位置與折扣行為之間的關聯是什么?以及 5-羥色胺等其他神經遞質對這種適配的貢獻是什么?這些都是尚未解決的問題。

同樣的,向量化誤差信號對于下游時間表征的調控機制仍有待進一步研究。而理解這種神經資源“調動”機制的背后原理,有助于人們在機制層面理解時間尺度多樣性在時間決策中的校準作用與失調作用。

目前,研究團隊所面臨的一個難題是,強化學習理論使用指數折扣,而人類和動物這些動物體經常表現出雙曲線折扣。

此前曾有研究探索了多巴胺能神經元的折扣機制,并認為單個多巴胺能神經元表現出雙曲線折扣。然而,此前這一研究采用非提示性獎勵反應作為零延遲獎勵的測量指標,這種方法可能導致結果更加偏向于雙曲線折扣模型。

相比之下,本次研究團隊的數據與單個神經元水平的指數折扣保持一致,這表明每個多巴胺能神經元所定義的強化學習機制,和強化學習算法的規則是互相符合的。

當這些不同的指數折扣在生物體層面結合時,可能會出現類似雙曲線的折扣。也就是說,多個時間尺度對全局計算的相對貢獻決定了生物體水平的折扣函數,并且該函數會根據環境風險率的不確定性進行校準。

因此,適當地引入折扣因子的異質性,對于適應環境的時間不確定性非常重要。這一觀點也與分布式強化學習假說存在相似之處,該假說認為樂觀與悲觀的校準失衡會導致習得價值出現偏差。

由于遺傳、發育或轉錄因素導致的這種分布偏差,可能會使生物體在學習過程中要么傾向于追求短期目標、要么傾向于追求長期目標。同樣的,這種觀點也可用于指導算法設計,使其能夠調動并利用這些自適應的時間預測。

總的來說,本次成果創立了一個全新的研究范式,能被用于解析多巴胺能神經元中預測誤差計算的功能機制,這不僅為生物體疾病狀態下的跨期決策障礙提供了新的機理解釋,更為新一代算法的設計帶來了重要啟示。

參考資料:

1.https://www.ebiotrade.com/newsf/2025-6/20250605082948946.htm

2.Masset, P., Tano, P., Kim, H.R.et al. Multi-timescale reinforcement learning in the brain.Nature(2025). https://doi.org/10.1038/s41586-025-08929-9

排版:溪樹

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
3年3900萬美元!火箭與亞當斯達成續約 還剩15天決定范弗利特選項

3年3900萬美元!火箭與亞當斯達成續約 還剩15天決定范弗利特選項

羅說NBA
2025-06-15 06:29:59
央行重磅數據公布!貸款猛增、存款狂漲……

央行重磅數據公布!貸款猛增、存款狂漲……

魏家東
2025-06-15 07:40:00
伊朗媒體稱伊又擊落一架以色列F-35戰機!以防長警告伊朗:如果繼續襲擊,德黑蘭將化為火海

伊朗媒體稱伊又擊落一架以色列F-35戰機!以防長警告伊朗:如果繼續襲擊,德黑蘭將化為火海

每日經濟新聞
2025-06-15 00:21:17
打不過就加入?印度網紅模仿豪哥哥穿唐裝、用咖喱味中文嘲諷國足

打不過就加入?印度網紅模仿豪哥哥穿唐裝、用咖喱味中文嘲諷國足

史書無明
2025-06-14 15:53:27
已確認!是知名演員朱一龍!

已確認!是知名演員朱一龍!

掌中邯鄲
2025-06-15 07:04:44
湖北XX學院,奔馳哥與學生妹活色生香,追逐野鴛鴦成校園樂趣,這瓜真的驚艷!

湖北XX學院,奔馳哥與學生妹活色生香,追逐野鴛鴦成校園樂趣,這瓜真的驚艷!

閑侃閑侃
2025-06-15 07:17:03
伊朗不打倒神棍政權,國家將永無希望

伊朗不打倒神棍政權,國家將永無希望

廖保平
2025-06-14 09:19:25
美媒爆料:以色列過去48小時內要求美國加入針對伊朗的軍事行動,但美國尚未考慮這一選項

美媒爆料:以色列過去48小時內要求美國加入針對伊朗的軍事行動,但美國尚未考慮這一選項

環球網資訊
2025-06-15 09:09:47
國家級健身教練唐博濤去世,僅37歲,滿身肌肉很健碩,死因疑曝光

國家級健身教練唐博濤去世,僅37歲,滿身肌肉很健碩,死因疑曝光

180視角
2025-06-14 12:20:45
騎電動車買菜,遭風箏線割喉!當事人:如果再快點,人就不在了

騎電動車買菜,遭風箏線割喉!當事人:如果再快點,人就不在了

瀟湘晨報
2025-06-15 09:31:05
世俱杯1戰封神!38歲老將加冕MVP:單場8撲救主,隊友感謝

世俱杯1戰封神!38歲老將加冕MVP:單場8撲救主,隊友感謝

葉青足球世界
2025-06-15 10:29:44
女子出軌被抓包,丈夫抓她游行示眾:她把我的錢給其他男人花

女子出軌被抓包,丈夫抓她游行示眾:她把我的錢給其他男人花

唐小糖說情感
2025-06-15 08:46:47
突發!蒼井空確認復出,你最希望看到她的什么?

突發!蒼井空確認復出,你最希望看到她的什么?

閑侃閑侃
2025-06-15 07:16:55
印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

不掉線電波
2025-06-14 21:25:56
原來劉強東老婆現實中長這樣,身材有點干癟。

原來劉強東老婆現實中長這樣,身材有點干癟。

情感大頭說說
2025-06-14 03:14:08
特權高墻下的冷漠:解析伊朗民眾對高層遇刺的沉默邏輯

特權高墻下的冷漠:解析伊朗民眾對高層遇刺的沉默邏輯

步論天下事
2025-06-14 20:17:14
伊朗不再藏后手,2000枚導彈已搬上發射架?以色列領導層經不起炸

伊朗不再藏后手,2000枚導彈已搬上發射架?以色列領導層經不起炸

梁訊
2025-06-15 09:10:07
以色列空襲也門胡塞武裝領導人住所

以色列空襲也門胡塞武裝領導人住所

新華社
2025-06-15 07:34:15
美媒:伊朗犯了一個大錯

美媒:伊朗犯了一個大錯

環球時報新聞
2025-06-14 23:54:17
這個測酒方法絕了!每晚8點全員排查,無故不參加者按飲酒處理…

這個測酒方法絕了!每晚8點全員排查,無故不參加者按飲酒處理…

火山詩話
2025-06-15 05:47:56
2025-06-15 11:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15294文章數 513782關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

數碼
時尚
健康
家居
藝術

數碼要聞

消息稱 AMD 將推出 R7 9700F 無核顯處理器,目標價位 250 美元

夏天最值得入手的6件單品,全在這了

呼吸科專家破解呼吸道九大謠言!

家居要聞

森林幾何 極簡灰調原木風

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品美女被遭强扒开双腿| 亚洲国产精品一区二区制服| 午夜无码片在线观看影院| 欧美自拍另类欧美综合图片区| 色欲天天天综合网免费| 午夜无码片在线观看影院| 天天狠天天添日日拍| 国产成人亚洲高清一区| 国产乱人伦精品一区二区在线观看| 亚洲日本va午夜中文字幕| 亚洲a∨无码男人的天堂| 国产69精品久久久久9999apgf| 国产精品天天看天天狠| 自偷自拍亚洲综合精品| 手机无码人妻一区二区三区免费| 污污又黄又爽免费的网站| 香蕉久久久久久av综合网成人| 中文字幕亚洲中文字幕无码码| 亚洲美女又黄又爽在线观看| 中文字幕av中文字无码亚| 中出人妻中文字幕无码| 四虎影库在线永久影院免费观看| 日韩人妻无码精品系列| 香港三级韩国三级日本三级| 天堂av无码av在线a√| 亚洲中文字幕日产无码成人片| 日日摸日日踫夜夜爽无码| 人人狠狠综合久久88成人| 少妇厨房愉情理伦片视频在线观看| 午夜在线欧美蜜桃| 草草影院ccyy国产日本欧美| 女人被狂躁到高潮视频免费网站| 国产三级在线观看播放视频| 十八禁无遮挡99精品国产| 亚洲乱码一区二区三区在线观看| 狂野欧美性猛交xxxx| 男女无遮挡xx00动态图120秒| 日韩毛片免费无码无毒视频观看| 国产美女视频国产视视频| 国产成人无码aa片免费看| 天堂tv亚洲tv无码tv|