UCB提出無需外部獎勵的強化學(xué)習(xí)方法，只靠自信就能學(xué)習(xí)復(fù)雜推理

2025-05-28 19:53:40　來源: DeepTech深科技

北京舉報

分享至

最近幾個月來，可驗證獎勵強化學(xué)習(xí)（RLVR，Reinforcement Learning with Verifiable Rewards）愈發(fā)受到學(xué)界關(guān)注。相比起傳統(tǒng)的基于人類反饋的強化學(xué)習(xí)（RLHF，Reinforcement Learning from Human Feedback,）帶來的高昂成本和人類偏見，RLVR 通過引入可自動驗證的獎勵信號（如數(shù)學(xué)問題的標(biāo)準(zhǔn)答案、代碼測試用例的通過情況）在一定程度上降低了對人工標(biāo)注的依賴，但是，其應(yīng)用范圍又受限于那些能夠提供清晰、可驗證獎勵的特定領(lǐng)域，因此限制了模型在更廣泛、更開放場景中的應(yīng)用。

近日，來自美國加州大學(xué)伯克利分校（UCB，University of California，Berkeley）的一支研究團隊給這個問題帶來了新的解法，他們提出了一種名為 INTUITOR 的方法，使大模型能夠僅憑其“內(nèi)在信心”進行學(xué)習(xí)和推理，無需外部獎勵或真值答案的指引。相關(guān)論文以《無需外部獎勵的學(xué)習(xí)推理》（Learning to Reason without External Rewards）為題發(fā)表在預(yù)印本網(wǎng)站arXiv上，迅速引發(fā)了廣泛關(guān)注。

圖丨相關(guān)論文（來源：arXiv）

掙脫外部獎勵的枷鎖——RLIF 與 INTUITOR 的誕生

我們知道，盡管 RLHF 在提升模型表現(xiàn)方面卓有成效，但由于它需要大量的人工標(biāo)注，就導(dǎo)致其成本高昂且可能引入偏見。最近這段時間以來，研究者們轉(zhuǎn)向了基于可驗證獎勵的強化學(xué)習(xí)，這種方法在數(shù)學(xué)問題解決和代碼生成等任務(wù)中，使用可自動驗證的信號（如精確答案匹配）作為獎勵。RLVR 避免了學(xué)習(xí)獎勵模型的復(fù)雜性，并在 DeepSeek-R1 等模型上展現(xiàn)了強大的推理能力。

然而，RLVR 同樣也有一定的局限，它需要領(lǐng)域特定的驗證器和“黃金標(biāo)準(zhǔn)”解決方案，例如數(shù)學(xué)問題需要專家標(biāo)注答案，代碼生成則需要全面的測試用例和執(zhí)行環(huán)境。這些要求將 RLVR 的應(yīng)用限制在精心策劃的領(lǐng)域內(nèi)，并且其以結(jié)果為導(dǎo)向的獎勵機制也限制了模型向其他領(lǐng)域的遷移能力。

那么，有沒有可能大模型在沒有外部驗證器或領(lǐng)域特定真值的情況下，僅僅依靠其內(nèi)在信號來提升推理能力呢？

正是基于這一問題，UCB 的研究團隊提出了“基于內(nèi)部反饋的強化學(xué)習(xí)”（RLIF，Reinforcement Learning from Internal Feedback）這一全新框架。RLIF 的核心思想是，模型可以通過優(yōu)化其自身產(chǎn)生的內(nèi)在信號來提升性能，而無需依賴外部獎勵或監(jiān)督信息。這為模型在未來可能發(fā)展出超越人類評估能力的場景提供了自洽的改進機制。

在 RLIF 框架下，團隊進一步提出了具體的實現(xiàn)方法——INTUITOR。INTUITOR 巧妙地將模型自身的“信心”（confidence），更準(zhǔn)確地說是“自我確定性”（self-certainty），作為唯一的獎勵信號。這一想法源于一個直觀的觀察：無論是人類還是大模型，在面對難題或缺乏相關(guān)知識時，通常會表現(xiàn)出較低的信心；反之，當(dāng)其對某個答案或推理過程更有把握時，信心水平會更高，并且這種高信心往往與正確性相關(guān)聯(lián)。

那么，如何量化模型的“自我確定性”呢？研究團隊借鑒了他們在 2025 年 2 月發(fā)表的另一篇重要工作《通過自我確定性為大型語言模型提供可擴展的 N 次最佳選擇》（Scalable Best-of-N Selection for Large Language Models via Self-Certainty）。在該工作中，他們提出使用模型輸出 Token 的概率分布與均勻分布之間的平均 KL 散度（Kullback-Leibler divergence）來度量自我確定性。

圖丨相關(guān)論文（來源：arXiv）

簡單來說，如果模型對其預(yù)測的下一個 Token 非常確定（即概率高度集中在少數(shù)幾個 Token 上），那么其輸出分布會遠離均勻分布，KL 散度值會較大，代表自我確定性高。這種度量方式被證明在從多個候選答案中挑選高質(zhì)量答案時非常有效，并且相比于困惑度（perplexity）或熵（entropy）等其他啟發(fā)式方法，更不容易受到輸出長度等因素的干擾，也更能隨著候選答案數(shù)量的增加而提升其效用。

INTUITOR 將這種自我確定性評分直接作為強化學(xué)習(xí)過程中的獎勵信號，并結(jié)合了現(xiàn)有成熟的強化學(xué)習(xí)算法，如“組相對策略優(yōu)化”（Group Relative Policy Optimization, GRPO），來指導(dǎo)模型的策略更新。在 GRPO 算法中，通常需要外部獎勵來評估一組候選輸出的優(yōu)劣；而在 INTUITOR 中，外部獎勵被完全替換為模型自身計算出的自我確定性分數(shù)。通過這種方式，模型被激勵去生成那些能讓自己“更自信”的輸出序列，從而在沒有外部監(jiān)督的情況下實現(xiàn)學(xué)習(xí)和推理能力的提升。

“自信”就能學(xué)會復(fù)雜推理

為了驗證 INTUITOR 的有效性，研究團隊進行了一系列實驗。他們使用 Qwen2.5-1.5B 和 Qwen2.5-3B 作為基礎(chǔ)模型，在 MATH 數(shù)據(jù)集上進行訓(xùn)練。實驗結(jié)果發(fā)現(xiàn)，在領(lǐng)域內(nèi)的數(shù)學(xué)基準(zhǔn)測試（如 GSM8K 和 MATH500）中，INTUITOR 的表現(xiàn)與使用外部獎勵的 GRPO 相當(dāng)，甚至在某些情況下（如使用 Qwen2.5-3B 模型），INTUITOR 在 GSM8K 上的準(zhǔn)確率達到了 79.2%，略低于 GRPO 的 82.6%，但在 MATH500 上達到了 61.2%，也略低于 GRPO 的 63.6%。

（來源：arXiv）

研究團隊還對比了一種稱為 GRPO-PV 的變體方法，該方法使用多數(shù)投票（plurality voting）作為一種弱監(jiān)督信號，模擬了不依賴真值答案的場景。結(jié)果顯示，INTUITOR 的表現(xiàn)與 GRPO-PV 相當(dāng)，進一步證明了其在無監(jiān)督環(huán)境下的學(xué)習(xí)能力。

INTUITOR 最大的優(yōu)勢在于其跨任務(wù)泛化能力。當(dāng)將在 MATH 數(shù)據(jù)集上訓(xùn)練的 Qwen2.5-3B 模型應(yīng)用于代碼生成任務(wù) LiveCodeBench 時，INTUITOR 展現(xiàn)出了高達 65% 的相對性能提升；而在 CRUXEval-O 代碼任務(wù)上，INTUITOR 也取得了 76% 的增益，顯著優(yōu)于僅獲得 44% 增益的 GRPO 方法，后者在代碼生成任務(wù)上甚至沒有表現(xiàn)出明顯提升。這或許表明，通過優(yōu)化內(nèi)在的自我確定性信號，模型不僅能在訓(xùn)練領(lǐng)域內(nèi)取得進步，還能將學(xué)到的“元認知”能力遷移到全新的、結(jié)構(gòu)迥異的任務(wù)上。

（來源：arXiv）

除了在具體任務(wù)上的性能提升，研究還揭示了 INTUITOR 對模型行為的一些深層影響。例如，INTUITOR 能夠顯著提升模型的指令遵循能力，在 AlpacaEval 這類評估指令遵循度的基準(zhǔn)上取得了比 GRPO 更好的成績。這意味著模型不僅學(xué)會了如何“自信地”解決問題，還學(xué)會了如何更好地理解和執(zhí)行指令。

更有意思的是，研究團隊觀察到，經(jīng)過 INTUITOR 訓(xùn)練的模型，即使在沒有明確要求的情況下，也會自發(fā)地生成更長的、更具結(jié)構(gòu)化的推理鏈條。例如，在處理 CRUXEval-O 任務(wù)時，模型會先進行一番自然語言形式的“自由思考”，然后才將最終答案組織成指令所要求的 JSON 格式。

在代碼生成任務(wù)中，也觀察到了類似的“代碼前自然語言推理”現(xiàn)象。這種行為表明，為了提升自身的“確定感”，模型傾向于將復(fù)雜問題分解，并進行更詳盡的思考，這恰恰是復(fù)雜推理能力的重要體現(xiàn)。此外，INTUITOR 訓(xùn)練的模型在學(xué)習(xí)初期就展現(xiàn)出比 GRPO 更快的學(xué)習(xí)速度，這可能得益于自我確定性這種連續(xù)且過程感知的內(nèi)在獎勵信號，它能引導(dǎo)模型探索更有效的學(xué)習(xí)軌跡。

另一個重要的發(fā)現(xiàn)是，INTUITOR 所采用的在線自我確定性機制（即獎勵信號隨著模型策略的進化而動態(tài)調(diào)整）能夠有效防止“獎勵利用”（reward hacking）問題。在強化學(xué)習(xí)中，如果獎勵模型是靜態(tài)的，策略模型很容易找到獎勵模型的漏洞，并生成一些表面上得分很高但實際質(zhì)量很差的輸出。實驗對比顯示，如果使用一個固定的（離線的）自我確定性打分器，模型很快就會學(xué)會通過生成冗余內(nèi)容等方式來“欺騙”打分器，導(dǎo)致性能崩潰。而 INTUITOR 的在線機制則避免了這一問題，保證了訓(xùn)練的穩(wěn)定性和魯棒性。

邁向更自主的 AI

論文作者之一、UCB 博士后研究員 Xuandong Zhao 在其社交媒體上分享了這項研究的歷程。

Zhao 在其推文中提到，這項研究的種子始于去年秋天，當(dāng)時本科生 Zhewei Kang 主動聯(lián)系他希望合作開展研究。他們從兩個關(guān)鍵觀察出發(fā)：一是在考試中，人們對自己有信心的題目往往回答得更準(zhǔn)確；二是大模型是否也能展現(xiàn)出這種“信心約等于正確性”的模式？這啟發(fā)了他們對“自我確定性”這一概念的探索。

圖丨相關(guān)推文（來源：X）

他們發(fā)現(xiàn)，現(xiàn)有的啟發(fā)式方法如熵和困惑度在衡量模型信心方面存在輸出長度敏感、存在偏見以及隨樣本量增加擴展性差等問題。于是，他們提出了一個關(guān)鍵洞見：衡量每個 Token 的輸出分布與均勻分布的距離，即前述的 KL 散度，這構(gòu)成了“自我確定性”度量的基礎(chǔ)，并催生了他們 2 月份關(guān)于“通過自我確定性實現(xiàn)可擴展的 Best-of-N 選擇”的論文。INTUITOR 正是這一系列研究思路的自然延伸和深化，將自我確定性從答案選擇標(biāo)準(zhǔn)提升為驅(qū)動整個強化學(xué)習(xí)過程的內(nèi)在獎勵。

如果這一方法確實有效，它或?qū)橛?xùn)練更自主、更通用的 AI 系統(tǒng)提供一條極具潛力的新路徑。通過擺脫對外部獎勵和人類監(jiān)督的強依賴，INTUITOR 有望大幅降低訓(xùn)練成本，并使 AI 能夠在缺乏先驗知識或難以獲得反饋的新領(lǐng)域中進行探索和學(xué)習(xí)。有網(wǎng)友就評論道：“如果這行得通，我們將在其他領(lǐng)域看到與編程和數(shù)學(xué)中相同類型的進步。”

圖丨相關(guān)評論（來源：X）

其次，INTUITOR 的成功表明，預(yù)訓(xùn)練的大模型可能擁有比我們先前認知中更為豐富的隱性行為先驗。這些先驗知識和能力可以通過恰當(dāng)?shù)膬?nèi)在激勵機制被“解鎖”和“塑造”，從而展現(xiàn)出驚人的推理和泛化能力。

再者，該研究提出的 RLIF 框架和自我確定性作為內(nèi)在獎勵的思路，也可能對于未來構(gòu)建能夠進行自我改進、甚至可能超越人類能力的 AI 系統(tǒng)具有重要啟示。當(dāng) AI 系統(tǒng)發(fā)展到其能力邊界超出人類評估范圍時，基于內(nèi)在一致性和自我確定性的學(xué)習(xí)機制將變得至關(guān)重要。

不過，目前的實驗主要集中在相對較小的模型和數(shù)據(jù)集上，未來需要將 INTUITOR 擴展到更大規(guī)模的基礎(chǔ)模型和更多樣化的真實世界數(shù)據(jù)上進行驗證。例如，有研究者擔(dān)心“獎勵利用”和“模型崩潰”或許會在更大規(guī)模模型上可能成為潛在的障礙。

圖丨相關(guān)評論（來源：X）

事實上，團隊在研究中就發(fā)現(xiàn)了將 INTUITOR 擴展到更大模型（Qwen2.5-7B 和 Qwen2.5-14B）時會遇到新的問題。他們提到，最初的訓(xùn)練方案在較大模型上會引發(fā)嚴重的行為崩潰。通過簡化系統(tǒng)提示、調(diào)整學(xué)習(xí)率和增加采樣響應(yīng)數(shù)量等方式，學(xué)習(xí)過程方得到了初步的穩(wěn)定（團隊強調(diào)這些設(shè)置是“首次的、未經(jīng)調(diào)整的嘗試”，而非全面的超參數(shù)優(yōu)化）。

但如果為了防止更大模型的獎勵利用，最終仍需依賴帶有真值驗證的復(fù)雜超參數(shù)調(diào)整，那么 INTUITOR 方法在“無需外部獎勵”方面的核心優(yōu)勢就可能會被削弱。

因此，如何在擴展到更大模型時，繼續(xù)保持這種內(nèi)在獎勵機制的有效性和免監(jiān)督特性，將是未來研究中一個值得關(guān)注的重要方向。

參考資料：

1.https://www.arxiv.org/pdf/2505.19590

2.https://x.com/xuandongzhao/status/1927270931874910259

3.https://arxiv.org/pdf/2502.18581

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.