大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

UCB提出無需外部獎勵的強化學(xué)習(xí)方法,只靠自信就能學(xué)習(xí)復(fù)雜推理

0
分享至

最近幾個月來,可驗證獎勵強化學(xué)習(xí)(RLVR,Reinforcement Learning with Verifiable Rewards)愈發(fā)受到學(xué)界關(guān)注。相比起傳統(tǒng)的基于人類反饋的強化學(xué)習(xí)(RLHF,Reinforcement Learning from Human Feedback,)帶來的高昂成本和人類偏見,RLVR 通過引入可自動驗證的獎勵信號(如數(shù)學(xué)問題的標(biāo)準(zhǔn)答案、代碼測試用例的通過情況)在一定程度上降低了對人工標(biāo)注的依賴,但是,其應(yīng)用范圍又受限于那些能夠提供清晰、可驗證獎勵的特定領(lǐng)域,因此限制了模型在更廣泛、更開放場景中的應(yīng)用。

近日,來自美國加州大學(xué)伯克利分校(UCB,University of California,Berkeley)的一支研究團隊給這個問題帶來了新的解法,他們提出了一種名為 INTUITOR 的方法,使大模型能夠僅憑其“內(nèi)在信心”進行學(xué)習(xí)和推理,無需外部獎勵或真值答案的指引。相關(guān)論文以《無需外部獎勵的學(xué)習(xí)推理》(Learning to Reason without External Rewards)為題發(fā)表在預(yù)印本網(wǎng)站arXiv上,迅速引發(fā)了廣泛關(guān)注。


圖丨相關(guān)論文(來源:arXiv)



掙脫外部獎勵的枷鎖——RLIF 與 INTUITOR 的誕生

我們知道,盡管 RLHF 在提升模型表現(xiàn)方面卓有成效,但由于它需要大量的人工標(biāo)注,就導(dǎo)致其成本高昂且可能引入偏見。最近這段時間以來,研究者們轉(zhuǎn)向了基于可驗證獎勵的強化學(xué)習(xí),這種方法在數(shù)學(xué)問題解決和代碼生成等任務(wù)中,使用可自動驗證的信號(如精確答案匹配)作為獎勵。RLVR 避免了學(xué)習(xí)獎勵模型的復(fù)雜性,并在 DeepSeek-R1 等模型上展現(xiàn)了強大的推理能力。

然而,RLVR 同樣也有一定的局限,它需要領(lǐng)域特定的驗證器和“黃金標(biāo)準(zhǔn)”解決方案,例如數(shù)學(xué)問題需要專家標(biāo)注答案,代碼生成則需要全面的測試用例和執(zhí)行環(huán)境。這些要求將 RLVR 的應(yīng)用限制在精心策劃的領(lǐng)域內(nèi),并且其以結(jié)果為導(dǎo)向的獎勵機制也限制了模型向其他領(lǐng)域的遷移能力。

那么,有沒有可能大模型在沒有外部驗證器或領(lǐng)域特定真值的情況下,僅僅依靠其內(nèi)在信號來提升推理能力呢?

正是基于這一問題,UCB 的研究團隊提出了“基于內(nèi)部反饋的強化學(xué)習(xí)”(RLIF,Reinforcement Learning from Internal Feedback)這一全新框架。RLIF 的核心思想是,模型可以通過優(yōu)化其自身產(chǎn)生的內(nèi)在信號來提升性能,而無需依賴外部獎勵或監(jiān)督信息。這為模型在未來可能發(fā)展出超越人類評估能力的場景提供了自洽的改進機制。

在 RLIF 框架下,團隊進一步提出了具體的實現(xiàn)方法——INTUITOR。INTUITOR 巧妙地將模型自身的“信心”(confidence),更準(zhǔn)確地說是“自我確定性”(self-certainty),作為唯一的獎勵信號。這一想法源于一個直觀的觀察:無論是人類還是大模型,在面對難題或缺乏相關(guān)知識時,通常會表現(xiàn)出較低的信心;反之,當(dāng)其對某個答案或推理過程更有把握時,信心水平會更高,并且這種高信心往往與正確性相關(guān)聯(lián)。

那么,如何量化模型的“自我確定性”呢?研究團隊借鑒了他們在 2025 年 2 月發(fā)表的另一篇重要工作《通過自我確定性為大型語言模型提供可擴展的 N 次最佳選擇》(Scalable Best-of-N Selection for Large Language Models via Self-Certainty)。在該工作中,他們提出使用模型輸出 Token 的概率分布與均勻分布之間的平均 KL 散度(Kullback-Leibler divergence)來度量自我確定性。


圖丨相關(guān)論文(來源:arXiv)

簡單來說,如果模型對其預(yù)測的下一個 Token 非常確定(即概率高度集中在少數(shù)幾個 Token 上),那么其輸出分布會遠離均勻分布,KL 散度值會較大,代表自我確定性高。這種度量方式被證明在從多個候選答案中挑選高質(zhì)量答案時非常有效,并且相比于困惑度(perplexity)或熵(entropy)等其他啟發(fā)式方法,更不容易受到輸出長度等因素的干擾,也更能隨著候選答案數(shù)量的增加而提升其效用。

INTUITOR 將這種自我確定性評分直接作為強化學(xué)習(xí)過程中的獎勵信號,并結(jié)合了現(xiàn)有成熟的強化學(xué)習(xí)算法,如“組相對策略優(yōu)化”(Group Relative Policy Optimization, GRPO),來指導(dǎo)模型的策略更新。在 GRPO 算法中,通常需要外部獎勵來評估一組候選輸出的優(yōu)劣;而在 INTUITOR 中,外部獎勵被完全替換為模型自身計算出的自我確定性分數(shù)。通過這種方式,模型被激勵去生成那些能讓自己“更自信”的輸出序列,從而在沒有外部監(jiān)督的情況下實現(xiàn)學(xué)習(xí)和推理能力的提升。



“自信”就能學(xué)會復(fù)雜推理

為了驗證 INTUITOR 的有效性,研究團隊進行了一系列實驗。他們使用 Qwen2.5-1.5B 和 Qwen2.5-3B 作為基礎(chǔ)模型,在 MATH 數(shù)據(jù)集上進行訓(xùn)練。實驗結(jié)果發(fā)現(xiàn),在領(lǐng)域內(nèi)的數(shù)學(xué)基準(zhǔn)測試(如 GSM8K 和 MATH500)中,INTUITOR 的表現(xiàn)與使用外部獎勵的 GRPO 相當(dāng),甚至在某些情況下(如使用 Qwen2.5-3B 模型),INTUITOR 在 GSM8K 上的準(zhǔn)確率達到了 79.2%,略低于 GRPO 的 82.6%,但在 MATH500 上達到了 61.2%,也略低于 GRPO 的 63.6%。


(來源:arXiv)

研究團隊還對比了一種稱為 GRPO-PV 的變體方法,該方法使用多數(shù)投票(plurality voting)作為一種弱監(jiān)督信號,模擬了不依賴真值答案的場景。結(jié)果顯示,INTUITOR 的表現(xiàn)與 GRPO-PV 相當(dāng),進一步證明了其在無監(jiān)督環(huán)境下的學(xué)習(xí)能力。

INTUITOR 最大的優(yōu)勢在于其跨任務(wù)泛化能力。當(dāng)將在 MATH 數(shù)據(jù)集上訓(xùn)練的 Qwen2.5-3B 模型應(yīng)用于代碼生成任務(wù) LiveCodeBench 時,INTUITOR 展現(xiàn)出了高達 65% 的相對性能提升;而在 CRUXEval-O 代碼任務(wù)上,INTUITOR 也取得了 76% 的增益,顯著優(yōu)于僅獲得 44% 增益的 GRPO 方法,后者在代碼生成任務(wù)上甚至沒有表現(xiàn)出明顯提升。這或許表明,通過優(yōu)化內(nèi)在的自我確定性信號,模型不僅能在訓(xùn)練領(lǐng)域內(nèi)取得進步,還能將學(xué)到的“元認知”能力遷移到全新的、結(jié)構(gòu)迥異的任務(wù)上。


(來源:arXiv)

除了在具體任務(wù)上的性能提升,研究還揭示了 INTUITOR 對模型行為的一些深層影響。例如,INTUITOR 能夠顯著提升模型的指令遵循能力,在 AlpacaEval 這類評估指令遵循度的基準(zhǔn)上取得了比 GRPO 更好的成績。這意味著模型不僅學(xué)會了如何“自信地”解決問題,還學(xué)會了如何更好地理解和執(zhí)行指令。

更有意思的是,研究團隊觀察到,經(jīng)過 INTUITOR 訓(xùn)練的模型,即使在沒有明確要求的情況下,也會自發(fā)地生成更長的、更具結(jié)構(gòu)化的推理鏈條。例如,在處理 CRUXEval-O 任務(wù)時,模型會先進行一番自然語言形式的“自由思考”,然后才將最終答案組織成指令所要求的 JSON 格式。

在代碼生成任務(wù)中,也觀察到了類似的“代碼前自然語言推理”現(xiàn)象。這種行為表明,為了提升自身的“確定感”,模型傾向于將復(fù)雜問題分解,并進行更詳盡的思考,這恰恰是復(fù)雜推理能力的重要體現(xiàn)。此外,INTUITOR 訓(xùn)練的模型在學(xué)習(xí)初期就展現(xiàn)出比 GRPO 更快的學(xué)習(xí)速度,這可能得益于自我確定性這種連續(xù)且過程感知的內(nèi)在獎勵信號,它能引導(dǎo)模型探索更有效的學(xué)習(xí)軌跡。

另一個重要的發(fā)現(xiàn)是,INTUITOR 所采用的在線自我確定性機制(即獎勵信號隨著模型策略的進化而動態(tài)調(diào)整)能夠有效防止“獎勵利用”(reward hacking)問題。在強化學(xué)習(xí)中,如果獎勵模型是靜態(tài)的,策略模型很容易找到獎勵模型的漏洞,并生成一些表面上得分很高但實際質(zhì)量很差的輸出。實驗對比顯示,如果使用一個固定的(離線的)自我確定性打分器,模型很快就會學(xué)會通過生成冗余內(nèi)容等方式來“欺騙”打分器,導(dǎo)致性能崩潰。而 INTUITOR 的在線機制則避免了這一問題,保證了訓(xùn)練的穩(wěn)定性和魯棒性。



邁向更自主的 AI

論文作者之一、UCB 博士后研究員 Xuandong Zhao 在其社交媒體上分享了這項研究的歷程。

Zhao 在其推文中提到,這項研究的種子始于去年秋天,當(dāng)時本科生 Zhewei Kang 主動聯(lián)系他希望合作開展研究。他們從兩個關(guān)鍵觀察出發(fā):一是在考試中,人們對自己有信心的題目往往回答得更準(zhǔn)確;二是大模型是否也能展現(xiàn)出這種“信心約等于正確性”的模式?這啟發(fā)了他們對“自我確定性”這一概念的探索。


圖丨相關(guān)推文(來源:X)

他們發(fā)現(xiàn),現(xiàn)有的啟發(fā)式方法如熵和困惑度在衡量模型信心方面存在輸出長度敏感、存在偏見以及隨樣本量增加擴展性差等問題。于是,他們提出了一個關(guān)鍵洞見:衡量每個 Token 的輸出分布與均勻分布的距離,即前述的 KL 散度,這構(gòu)成了“自我確定性”度量的基礎(chǔ),并催生了他們 2 月份關(guān)于“通過自我確定性實現(xiàn)可擴展的 Best-of-N 選擇”的論文。INTUITOR 正是這一系列研究思路的自然延伸和深化,將自我確定性從答案選擇標(biāo)準(zhǔn)提升為驅(qū)動整個強化學(xué)習(xí)過程的內(nèi)在獎勵。

如果這一方法確實有效,它或?qū)橛?xùn)練更自主、更通用的 AI 系統(tǒng)提供一條極具潛力的新路徑。通過擺脫對外部獎勵和人類監(jiān)督的強依賴,INTUITOR 有望大幅降低訓(xùn)練成本,并使 AI 能夠在缺乏先驗知識或難以獲得反饋的新領(lǐng)域中進行探索和學(xué)習(xí)。有網(wǎng)友就評論道:“如果這行得通,我們將在其他領(lǐng)域看到與編程和數(shù)學(xué)中相同類型的進步。”


圖丨相關(guān)評論(來源:X)

其次,INTUITOR 的成功表明,預(yù)訓(xùn)練的大模型可能擁有比我們先前認知中更為豐富的隱性行為先驗。這些先驗知識和能力可以通過恰當(dāng)?shù)膬?nèi)在激勵機制被“解鎖”和“塑造”,從而展現(xiàn)出驚人的推理和泛化能力。

再者,該研究提出的 RLIF 框架和自我確定性作為內(nèi)在獎勵的思路,也可能對于未來構(gòu)建能夠進行自我改進、甚至可能超越人類能力的 AI 系統(tǒng)具有重要啟示。當(dāng) AI 系統(tǒng)發(fā)展到其能力邊界超出人類評估范圍時,基于內(nèi)在一致性和自我確定性的學(xué)習(xí)機制將變得至關(guān)重要。

不過,目前的實驗主要集中在相對較小的模型和數(shù)據(jù)集上,未來需要將 INTUITOR 擴展到更大規(guī)模的基礎(chǔ)模型和更多樣化的真實世界數(shù)據(jù)上進行驗證。例如,有研究者擔(dān)心“獎勵利用”和“模型崩潰”或許會在更大規(guī)模模型上可能成為潛在的障礙。


圖丨相關(guān)評論(來源:X)

事實上,團隊在研究中就發(fā)現(xiàn)了將 INTUITOR 擴展到更大模型(Qwen2.5-7B 和 Qwen2.5-14B)時會遇到新的問題。他們提到,最初的訓(xùn)練方案在較大模型上會引發(fā)嚴重的行為崩潰。通過簡化系統(tǒng)提示、調(diào)整學(xué)習(xí)率和增加采樣響應(yīng)數(shù)量等方式,學(xué)習(xí)過程方得到了初步的穩(wěn)定(團隊強調(diào)這些設(shè)置是“首次的、未經(jīng)調(diào)整的嘗試”,而非全面的超參數(shù)優(yōu)化)。

但如果為了防止更大模型的獎勵利用,最終仍需依賴帶有真值驗證的復(fù)雜超參數(shù)調(diào)整,那么 INTUITOR 方法在“無需外部獎勵”方面的核心優(yōu)勢就可能會被削弱。

因此,如何在擴展到更大模型時,繼續(xù)保持這種內(nèi)在獎勵機制的有效性和免監(jiān)督特性,將是未來研究中一個值得關(guān)注的重要方向。

參考資料:

1.https://www.arxiv.org/pdf/2505.19590

2.https://x.com/xuandongzhao/status/1927270931874910259

3.https://arxiv.org/pdf/2502.18581

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國專列,以最快速度駛進伊朗,伊朗總統(tǒng)也以最快速度訪問中國!

中國專列,以最快速度駛進伊朗,伊朗總統(tǒng)也以最快速度訪問中國!

大道無形我有型
2025-06-14 11:32:10
李連杰宣布跟41歲兒子父親節(jié)重聚,久別30年攬實眼濕濕

李連杰宣布跟41歲兒子父親節(jié)重聚,久別30年攬實眼濕濕

快樂的小青瓦
2025-06-14 15:03:39
羅帥宇家屬稱已拿到醫(yī)院補償,醫(yī)院提高補償要求簽署保密協(xié)議

羅帥宇家屬稱已拿到醫(yī)院補償,醫(yī)院提高補償要求簽署保密協(xié)議

現(xiàn)代快報
2025-06-13 19:14:04
最新戰(zhàn)況:以色列損失慘重,F(xiàn)-35被擊落,到處都是爆炸聲

最新戰(zhàn)況:以色列損失慘重,F(xiàn)-35被擊落,到處都是爆炸聲

時時有聊
2025-06-14 11:54:59
1-2!鄭欽文輸球內(nèi)情曝光,賽后眼眶含淚,對手采訪說到了關(guān)鍵

1-2!鄭欽文輸球內(nèi)情曝光,賽后眼眶含淚,對手采訪說到了關(guān)鍵

侃球熊弟
2025-06-15 00:02:53
伊朗15分鐘向以色列進行3次導(dǎo)彈齊射,哈梅內(nèi)伊:絕不讓以政權(quán)全身而退!以軍否認F-35戰(zhàn)機被擊落

伊朗15分鐘向以色列進行3次導(dǎo)彈齊射,哈梅內(nèi)伊:絕不讓以政權(quán)全身而退!以軍否認F-35戰(zhàn)機被擊落

每日經(jīng)濟新聞
2025-06-14 13:47:08
伊朗軍頭被一鍋端的真相

伊朗軍頭被一鍋端的真相

難得君
2025-06-14 12:00:08
小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網(wǎng)友:融洽!

小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網(wǎng)友:融洽!

大笑江湖史
2025-06-14 22:56:07
國家級健身教練唐博濤去世,僅37歲,滿身肌肉很健碩,死因疑曝光

國家級健身教練唐博濤去世,僅37歲,滿身肌肉很健碩,死因疑曝光

180視角
2025-06-14 12:20:45
表面是正人君子,實則是流氓頭子,家暴惡魔,這些男星太令人作嘔

表面是正人君子,實則是流氓頭子,家暴惡魔,這些男星太令人作嘔

吐不滿的痰娛
2025-06-14 19:36:16
不再擔(dān)任湖南省紀(jì)委書記后,王雙全已任浙江省領(lǐng)導(dǎo)

不再擔(dān)任湖南省紀(jì)委書記后,王雙全已任浙江省領(lǐng)導(dǎo)

政知新媒體
2025-06-14 17:22:36
浙江一婚席吃掉50萬元,結(jié)賬嫌太貴拒付款,餐具供應(yīng)商:我的錢也沒給

浙江一婚席吃掉50萬元,結(jié)賬嫌太貴拒付款,餐具供應(yīng)商:我的錢也沒給

極目新聞
2025-06-14 10:52:54
伊朗革命衛(wèi)隊聲稱擊落F-35并俘獲女飛行員,以色列諷刺虛假宣傳

伊朗革命衛(wèi)隊聲稱擊落F-35并俘獲女飛行員,以色列諷刺虛假宣傳

明月聊史
2025-06-14 15:56:59
央視首次曝光!每臺4億美元重180噸,全世界最先進光刻機揭開面紗

央視首次曝光!每臺4億美元重180噸,全世界最先進光刻機揭開面紗

史紀(jì)文譚
2025-06-14 13:23:51
可不限次數(shù)往返香港!非深戶也可以!

可不限次數(shù)往返香港!非深戶也可以!

深圳本地寶
2025-06-14 22:11:44
連續(xù)發(fā)射6波導(dǎo)彈,伊朗反擊極為強硬,靜觀是否會與對手死磕到底

連續(xù)發(fā)射6波導(dǎo)彈,伊朗反擊極為強硬,靜觀是否會與對手死磕到底

國平視野
2025-06-14 18:09:17
40歲健身網(wǎng)紅唐博濤離世,妻子透露原因,常年健身經(jīng)常爬320層樓

40歲健身網(wǎng)紅唐博濤離世,妻子透露原因,常年健身經(jīng)常爬320層樓

娛樂圈圈圓
2025-06-14 15:20:50
羅帥宇冤不冤我說不準(zhǔn),但沒人會偷割你孩子的器官……

羅帥宇冤不冤我說不準(zhǔn),但沒人會偷割你孩子的器官……

基本常識
2025-06-14 22:42:03
美國戰(zhàn)爭研究所稱,俄軍將在2026年占領(lǐng)一半烏克蘭,實現(xiàn)劃江而治

美國戰(zhàn)爭研究所稱,俄軍將在2026年占領(lǐng)一半烏克蘭,實現(xiàn)劃江而治

碳基生物關(guān)懷組織
2025-06-13 16:30:42
上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的5倍不止?

上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
2025-06-15 02:19:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15294文章數(shù) 513781關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

家居
游戲
本地
手機
公開課

家居要聞

森林幾何 極簡灰調(diào)原木風(fēng)

死掉的“賽博初戀”,有誰能夠打贏復(fù)活賽?

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場小技巧

手機要聞

蘋果新系統(tǒng)引領(lǐng)新潮流?OPPO:不跟進

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 亚洲精品久久国产高清情趣图文| 97人人超碰国产精品最新o| 日韩人妻无码精品无码中文字幕| 人人妻人人澡人人爽人人精品电影| 日韩精品无码人妻一区二区三区| 国产成人麻豆亚洲综合精品| 久久久精品国产sm调教网站| 亚洲成在人线av中文字幕喷水| 日韩人妻无码免费视频一二区| 国产亚洲日本精品成人专区| 狠狠五月深爱婷婷| 狠狠色噜噜狠狠狠狠97首创麻豆| 狠狠综合久久综合中文88| 亚洲日韩∨a无码中文字幕| 无码人妻丰满熟妇区免费| 天天澡日日澡狠狠欧美老妇| 大又大粗又爽又黄少妇毛片免费| 人人草人人做人人爱| 亚洲午夜无码久久| 国产剧情福利av一区二区| 久久久久亚洲精品天堂| 久久精品免费国产大片| 亚洲av第一成肉网| 亚洲综合色区中文字幕| 色婷婷综合久久久中文字幕| 亚洲国产精品久久精品成人网站| 国精产品一品二品国在线| 免费a级毛片| 特级无码毛片免费视频尤物| 亚洲精品福利一区二区三区蜜桃| 亚洲精品字幕在线观看| 亚洲欧美中文高清在线专区| 国产精品9999久久久久| 精品国产一区二区三区吸毒| www国产精品内射熟女| 大帝av在线一区二区三区| 欧美成人无码a区视频在线观看| 日本aⅴ大伊香蕉精品视频| 亚洲精品久久7777777国产| 午夜成人无码福利免费视频| 欧洲人与动牲交α欧美精品|