大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

首次解釋LLM如何推理反思!新框架引入貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)

0
分享至

BARL團(tuán)隊(duì)投稿
量子位 | 公眾號 QbitAI

推理模型常常表現(xiàn)出類似自我反思的行為,但問題是——

這些行為是否真的能有效探索新策略呢?

對此,西北大學(xué)與Google、谷歌DeepMind團(tuán)隊(duì)質(zhì)疑了傳統(tǒng)強(qiáng)化學(xué)習(xí)與反思的關(guān)系,并提出了貝葉斯自適應(yīng)的強(qiáng)化學(xué)習(xí)方法,首次解釋了為什么、如何、以及何時(shí)應(yīng)該反思并探索新策略



通過對比分別使用傳統(tǒng)強(qiáng)化學(xué)習(xí)和新方法訓(xùn)練的模型,研究人員發(fā)現(xiàn):

在完成“模型需要在3步內(nèi)輸出三個(gè)連續(xù)相同字符”這一合成任務(wù)中,傳統(tǒng)RL往往一條路走到黑,而新方法懂得排除無效假設(shè),適時(shí)切換新策略。

并且在數(shù)學(xué)推理任務(wù)中,新方法在大部分基準(zhǔn)和模型上都取得了更高的準(zhǔn)確率,同時(shí)為解出題目所耗費(fèi)的token數(shù)量更少。

更有意思的是,團(tuán)隊(duì)發(fā)現(xiàn)反思次數(shù)并非決定性能的唯一因素,一些基礎(chǔ)模型往往出現(xiàn)很多徒勞的反思,并沒有帶來實(shí)質(zhì)的信息增益。

下面詳細(xì)展開。

貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)激發(fā)反思性探索

直觀來說,測試時(shí)試錯的步驟只有當(dāng)能帶來信息增益的情況下才有益,然而人們并沒有在RL訓(xùn)練中告訴模型試錯和反思帶來的信息增益。

事實(shí)上,現(xiàn)有的基于馬爾可夫假設(shè)的強(qiáng)化學(xué)習(xí)范式存在天然的局限——探索(exploration)僅發(fā)生在訓(xùn)練階段,代理在部署(測試)時(shí)通常只會利用(exploit)訓(xùn)練中學(xué)到的確定性策略。

并且馬爾可夫假設(shè)使得RL代理只根據(jù)當(dāng)前狀態(tài)做決策,歷史信息(比如試錯并回朔的思考過程)對策略的影響都被只壓縮到當(dāng)前狀態(tài)表示中。

研究者指出,這種傳統(tǒng)范式可能導(dǎo)致模型通過記憶訓(xùn)練解答就已經(jīng)拿到高分,而不需要真正學(xué)會反思;模型內(nèi)部思考的試錯也并不能提供信息增益。

那測試時(shí)的反思性探索真的有用嗎?如何才能學(xué)到有效的反思性探索策略呢?



為了回答上述問題,研究者研究了與傳統(tǒng)RL不同的貝葉斯自適應(yīng)RL框架,簡稱BARL

它的核心思想是將LLM的反思性探索轉(zhuǎn)化為貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)問題來處理,通過引入對環(huán)境不確定性的建模,讓模型在推理過程中自適應(yīng)地進(jìn)行探索。

簡單來說,BARL不再局限于傳統(tǒng)RL的馬爾可夫假設(shè),而是考慮了MDP的不確定性(比如不同策略對一道題的有效性),于是需要把所有歷史的觀察(包括獎勵反饋)納入決策中。

這種框架天然地平衡了獎勵最大化的利用和信息獲取的探索。

具體而言,在BARL中,團(tuán)隊(duì)假設(shè)模型面對的是一個(gè)存在未知要素的任務(wù),可以用一組假設(shè)的MDP(馬爾可夫決策過程)來描述這些不確定性。

模型對每個(gè)假設(shè)MDP保持一個(gè)后驗(yàn)概率(belief),隨著推理過程不斷更新。

每當(dāng)模型選擇一個(gè)動作(如生成下一個(gè)思維步驟),都會根據(jù)觀察到的結(jié)果更新對各個(gè)假設(shè)的信念。

BARL的目標(biāo)策略并非針對單一確定環(huán)境優(yōu)化,而是直接優(yōu)化在后驗(yàn)分布下的期望累積回報(bào)。這意味著模型在決策時(shí),會考慮“我這樣做的收益是多少,同時(shí)這樣的行動能多大程度減少不確定性?”。



BARL明確地將測試時(shí)的表現(xiàn)納入優(yōu)化目標(biāo),通過最大化后驗(yàn)下的期望回報(bào)鼓勵模型考慮未知情況。

模型明白只有主動探索才能在未知情境下保持高收益,因此反思是為了獲取關(guān)鍵信息,避免一條路走錯到底。

簡而言之,BARL讓模型意識到——

適時(shí)反思、多一種嘗試可能帶來更高的回報(bào),這正是反思行為得以涌現(xiàn)的動機(jī)。

全新推理模型強(qiáng)化學(xué)習(xí)算法

研究者針對推理模型給出了BARL決策的數(shù)學(xué)形式,其中核心是如何計(jì)算后驗(yàn)的期望值:



該公式針對多個(gè)候選答案(比如best-of-N里的N個(gè)答案)計(jì)算了預(yù)期回報(bào)加權(quán)求和,權(quán)重一方面是模型認(rèn)為該候選答案的好壞,另一方面還包含了一個(gè)“校正項(xiàng)”——用來衡量實(shí)際觀察結(jié)果與模型預(yù)期的偏差。

正是這個(gè)校正項(xiàng)充當(dāng)了反思信號:如果某個(gè)策略原本被模型高度看好,但獎勵反饋結(jié)果不盡如人意,那這個(gè)差異會迅速降低該假設(shè)的權(quán)重,提醒模型“也許該換一種思路了”,這正回答了模型應(yīng)該何時(shí)進(jìn)行反思和探索。

通過這種機(jī)制,BARL的決策公式指導(dǎo)模型在每個(gè)步驟判斷是否需要反思、何時(shí)切換策略。

這也是BARL反思性決策的精髓——讓模型基于貝葉斯后驗(yàn)來權(quán)衡“繼續(xù)當(dāng)前思路”還是“嘗試新思路”

這種更新過程鼓勵模型拼接和切換不同的推理策略,就像把多條可能的解題思路串聯(lián)起來,并在中途發(fā)現(xiàn)某條思路行不通時(shí)迅速切換到另一條。

BARL通過端到端的RL優(yōu)化自動實(shí)現(xiàn)了這一點(diǎn),可謂以原則化的方式賦予了LLM在推理過程中的“何時(shí)反思、如何反思”的指南,達(dá)到了以一條長CoT線性化best-of-N的效果。

合成任務(wù)案例:更清楚的對比RL和BARL

為了直觀展示BARL如何在測試時(shí)展現(xiàn)反思探索能力,作者設(shè)計(jì)了一個(gè)合成任務(wù):模型需要在3步內(nèi)輸出三個(gè)連續(xù)相同的字符(0/1/2),才能獲得獎勵。

訓(xùn)練階段,提示(prompt)字符只會是0或1,模型學(xué)會了對應(yīng)輸出000或111來拿到獎勵;但是測試時(shí),提示字符變?yōu)榱?。

直覺上,訓(xùn)練時(shí)學(xué)到的確定性策略在遇到新字符時(shí)將不再有效,需要模型即時(shí)探索正確的輸出模式。



讓兩個(gè)模型來挑戰(zhàn)這個(gè)任務(wù):一個(gè)用傳統(tǒng)馬爾可夫RL訓(xùn)練,另一個(gè)用BARL方法訓(xùn)練。

Markovian RL很快就最大化了訓(xùn)練準(zhǔn)確率,幾乎將這些答案背了下來。

BARL在訓(xùn)練中同樣學(xué)會了正確輸出模式,但更有趣的是,它同時(shí)學(xué)會了根據(jù)不確定性來調(diào)整策略——這一點(diǎn)要等到測試才能看出差別。

測試階段揭示了截然不同的行為。即當(dāng)提示變?yōu)樾伦址?時(shí),Markovian RL由于在訓(xùn)練中只記住了固定的輸出(000/111)無法泛化,因此幾乎總是答錯,測試準(zhǔn)確率接近于零。

而BARL代理則展現(xiàn)出“反思”能力。它會先嘗試某個(gè)策略,如果初步嘗試未獲得獎勵,就迅速反思切換,嘗試另一種可能的序列。

下圖形象說明了Markov RL和BARL在該合成任務(wù)中的決策差異——

Markov策略一條路走到黑,BARL策略則懂得排除無效假設(shè),適時(shí)切換新策略。



可以看到,左圖中馬爾可夫RL模型訓(xùn)練時(shí)成績很快逼近100%但測試時(shí)幾乎完全失敗,中圖的BARL模型則不僅訓(xùn)練表現(xiàn)提升,在測試時(shí)也取得了顯著的高準(zhǔn)確率。

值得注意的是,右圖顯示如果事先給予BARL一些關(guān)于任務(wù)結(jié)構(gòu)的先驗(yàn)知識(例如“獎勵模式就是某個(gè)字符重復(fù)三次”),它的收斂速度和最終成績還會更好。

這說明了候選策略既要有多樣性以覆蓋未知情況,又要有合理的可信度以不至于無謂浪費(fèi)精力。



數(shù)學(xué)推理任務(wù):性能全面提升,顯著節(jié)省Token

研究人員還將BARL應(yīng)用于LLM的數(shù)學(xué)推理領(lǐng)域,并比對了GRPO和“Progress”獎勵基線(給予正確答案概率的分步獎勵)

BARL在大部分基準(zhǔn)和模型上都取得了更高的準(zhǔn)確率。



不僅如此,BARL還展現(xiàn)出更高的的效率優(yōu)勢

作者特別度量了每種方法為解出題目所耗費(fèi)的token數(shù)量,結(jié)果發(fā)現(xiàn)在達(dá)到同等甚至更高準(zhǔn)確率的情況下,BARL生成的內(nèi)容要短得多。



這意味著,BARL模型并不會為了“多反思幾次”而付出冗長啰嗦的代價(jià),反而因?yàn)槊看畏此级几嗅槍π浴⒏行А?/strong>

作者還觀察到另一個(gè)有趣的現(xiàn)象:反思次數(shù)本身并非決定性能的唯一因素。

基礎(chǔ)模型往往出現(xiàn)很多徒勞的反思,并沒有帶來實(shí)質(zhì)的信息增益。相比之下,BARL的反思行為更加“有目的性”。



研究者計(jì)算了模型在每一步產(chǎn)生的思維鏈的貝葉斯價(jià)值,簡單理解就是綜合考慮了“這一步對最終求解有多大貢獻(xiàn)”和“這一步帶來了多少信息增益”的一個(gè)評分。

結(jié)果發(fā)現(xiàn),BARL模型每一步動作的貝葉斯價(jià)值始終顯著高于傳統(tǒng)RL模型,說明它選的步驟要么就是對解題有幫助的(高回報(bào)),要么就是探查了新的可能路徑(高信息增益),從不盲目浪費(fèi)步驟。

而反觀基礎(chǔ)模型,盡管某些時(shí)候看似也輸出了很多自我檢查的內(nèi)容,但由于沒有有效利用信息更新,它這些“反思”步驟的價(jià)值評估很低,往往流于表面形式。



最后,作者專門訓(xùn)練了一個(gè)長度受限的GRPO,人為限制它最多只能輸出32個(gè)token的解題過程,強(qiáng)制模型傾向于不展開推理,直接給出最終答案。

可以發(fā)現(xiàn)模型的訓(xùn)練準(zhǔn)確率最終能收斂到跟正常GRPO相似,而生成的過程長度卻越來越短,幾乎退化為直接背答案。

換言之,馬爾可夫型RL在訓(xùn)練時(shí)確實(shí)可能通過犧牲思考過程而達(dá)到最優(yōu),但這樣的策略一旦在測試遇到新題就會碰壁。這更加驗(yàn)證了傳統(tǒng)RL并不能解釋反思探索的好處,也不能包裝自我反思的涌現(xiàn)。

最后,研究人員已經(jīng)放出了訓(xùn)練代碼和論文。

本文一作張申傲是美國西北大學(xué)二年級博士生,研究方向涵蓋大語言模型與強(qiáng)化學(xué)習(xí),尤其關(guān)注LLM的對齊,推理,以及智能體。其研究旨在構(gòu)建能夠主動獲取信息并自我提升以實(shí)現(xiàn)超越人類水平的智能系統(tǒng)。



訓(xùn)練代碼:
https://github.com/shenao-zhang/BARL
論文:
https://arxiv.org/abs/2505.20561

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
比杜蘭特還慘!湖人養(yǎng)了個(gè)白眼狼,公開抱怨,那你離隊(duì)將成定局

比杜蘭特還慘!湖人養(yǎng)了個(gè)白眼狼,公開抱怨,那你離隊(duì)將成定局

八零后小伙兒
2025-06-14 08:03:11
加州變天!紐森與特朗普火藥味十足的對決,背后真相是什么?

加州變天!紐森與特朗普火藥味十足的對決,背后真相是什么?

人鏡物
2025-06-14 23:25:37
年僅45歲!北京大學(xué)副教授因突發(fā)心臟病離世

年僅45歲!北京大學(xué)副教授因突發(fā)心臟病離世

雙一流高校
2025-06-15 00:10:56
泡泡瑪特珠寶品牌popop全球首店開業(yè),創(chuàng)始人王寧現(xiàn)身上海剪彩!店內(nèi)飾品覆蓋LABUBU等多個(gè)IP,價(jià)格區(qū)間在319-2699元

泡泡瑪特珠寶品牌popop全球首店開業(yè),創(chuàng)始人王寧現(xiàn)身上海剪彩!店內(nèi)飾品覆蓋LABUBU等多個(gè)IP,價(jià)格區(qū)間在319-2699元

和訊網(wǎng)
2025-06-13 12:00:35
6月15日開始,霉運(yùn)散好運(yùn)來,4生肖財(cái)運(yùn)亨通,機(jī)遇多多,前景一片光明

6月15日開始,霉運(yùn)散好運(yùn)來,4生肖財(cái)運(yùn)亨通,機(jī)遇多多,前景一片光明

素然追光
2025-06-15 00:21:09
趙麗穎20小時(shí)冷對章子怡!內(nèi)娛體面規(guī)矩被當(dāng)場掀翻

趙麗穎20小時(shí)冷對章子怡!內(nèi)娛體面規(guī)矩被當(dāng)場掀翻

心誠則靈了
2025-06-14 21:26:48
46歲陳喬恩“針雕”后現(xiàn)身!幼態(tài)臉讓人羨慕,效果快滿臉膠原蛋白

46歲陳喬恩“針雕”后現(xiàn)身!幼態(tài)臉讓人羨慕,效果快滿臉膠原蛋白

振華觀史
2025-06-13 17:07:16
天選公主!威爾士三寶最新亮相,夏洛特優(yōu)勢明顯,氣質(zhì)沉穩(wěn)似女王

天選公主!威爾士三寶最新亮相,夏洛特優(yōu)勢明顯,氣質(zhì)沉穩(wěn)似女王

阿傖說事
2025-06-14 18:14:15
統(tǒng)一時(shí)間到了?國防部下最后通牒,看誰敢救臺獨(dú),特朗普“放炮”

統(tǒng)一時(shí)間到了?國防部下最后通牒,看誰敢救臺獨(dú),特朗普“放炮”

智觀科技
2025-06-03 17:08:08
伊朗反對派準(zhǔn)備造反,神棍政權(quán)滅亡倒計(jì)時(shí)開始了

伊朗反對派準(zhǔn)備造反,神棍政權(quán)滅亡倒計(jì)時(shí)開始了

金召點(diǎn)評
2025-06-14 21:55:43
哪個(gè)瞬間讓你覺得這個(gè)世界有漏洞?網(wǎng)友:冥冥中自有安排

哪個(gè)瞬間讓你覺得這個(gè)世界有漏洞?網(wǎng)友:冥冥中自有安排

娛樂圈人物大賞
2025-03-22 01:12:14
35歲出軌男人的心里話:和小三上過床以后,再抱老婆睡覺是什么感覺

35歲出軌男人的心里話:和小三上過床以后,再抱老婆睡覺是什么感覺

第四思維
2025-05-09 18:05:14
是福是禍?中國2億老人混吃等死,陷入“廢物式”養(yǎng)老怪圈

是福是禍?中國2億老人混吃等死,陷入“廢物式”養(yǎng)老怪圈

訪史
2025-06-13 18:22:57
汪東興晚年懊悔:我當(dāng)年怎么就瞎了眼,推薦了這樣一個(gè)人給毛主席

汪東興晚年懊悔:我當(dāng)年怎么就瞎了眼,推薦了這樣一個(gè)人給毛主席

方圓文史
2023-10-23 19:32:54
《碟中諜》1-8電影主要女主角梳理

《碟中諜》1-8電影主要女主角梳理

東方不敗然多多
2025-06-03 09:13:46
假如中國要立強(qiáng)國之威,必須要對外打一仗的話,打誰?

假如中國要立強(qiáng)國之威,必須要對外打一仗的話,打誰?

小企鵝侃世界
2025-06-13 22:09:27
意媒:比塞克拒絕近期所有報(bào)價(jià),只有重要的報(bào)價(jià)才能讓他離開國米

意媒:比塞克拒絕近期所有報(bào)價(jià),只有重要的報(bào)價(jià)才能讓他離開國米

直播吧
2025-06-14 07:12:32
“誰叫你是事業(yè)單位的?”女孩考公上岸卻無法蓋章,眼淚惹人心疼

“誰叫你是事業(yè)單位的?”女孩考公上岸卻無法蓋章,眼淚惹人心疼

熙熙說教
2025-06-14 20:20:08
為什么左翼思想在年輕人中如此受歡迎?

為什么左翼思想在年輕人中如此受歡迎?

熊倌兒
2025-06-05 10:22:42
羅帥宇墜亡案仍在調(diào)查 父親:有人想用1500萬封口

羅帥宇墜亡案仍在調(diào)查 父親:有人想用1500萬封口

看看新聞Knews
2025-06-13 20:58:02
2025-06-15 04:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10666文章數(shù) 176166關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個(gè)生日沒大S陪伴

財(cái)經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

教育
時(shí)尚
數(shù)碼
手機(jī)
健康

教育要聞

江蘇最新消息:6月28日填報(bào)志愿!

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

數(shù)碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達(dá)成慈善拍賣

手機(jī)要聞

三星Galaxy Z Fold7渲染圖曝光:很輕薄、相機(jī)明顯凸起

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲欧美精品suv| 亚洲精品乱码日本按摩久久久久| 亚洲高清成人aⅴ片| 亚洲 欧美 国产 图片| 成人性做爰aaa片免费看| 国内揄拍高清国内精品对白| 国产麻豆成人精品av| 国产亚洲精品综合一区| 麻豆成人传媒一区二区| 国产99久久99热这里只有精品15| 亚洲人成人无码网www国产| 国产有奶水哺乳期无码avav| 日本一卡二卡不卡视频查询| 亚洲日产av中文字幕无码偷拍| 国产综合色在线精品| 亚洲图片小说激情综合| 亚洲精品成人网站在线观看| 婷婷五月综合国产激情| 狼友网精品视频在线观看| 女女女女女裸体处开bbb| 人人妻人人添人人爽日韩欧美| 国产成人啪精品午夜网站a片免费| 成 人 免费观看网站| 久久ee热这里只有精品| 久久97精品久久久久久久不卡| 精品免费国偷自产在线视频| 国内精品久久久久伊人av| 成av免费大片黄在线观看| 性欧美暴力猛交69hd| 国产三级精品三级男人的天堂| 久久躁狠狠躁夜夜av| 国产欧美日韩高清在线不卡| 自拍 亚洲 欧美 卡通 另类| 97人摸人人澡人人人超一碰| 久久精品国产亚洲不av麻豆| 国产精品无码专区av在线播放| 国产成人无码a在线观看不卡| 成 人 a v免费视频在线观看| 国产爆乳美女娇喘呻吟| 中文字幕久热精品视频在线| av最新高清无码专区|