最近幾個月來,可驗證獎勵強化學(xué)習(xí)(RLVR,Reinforcement Learning with Verifiable Rewards)愈發(fā)受到學(xué)界關(guān)注。相比起傳統(tǒng)的基于人類反饋的強化學(xué)習(xí)(RLHF,Reinforcement Learning from Human Feedback,)帶來的高昂成本和人類偏見,RLVR 通過引入可自動驗證的獎勵信號(如數(shù)學(xué)問題的標(biāo)準(zhǔn)答案、代碼測試用例的通過情況)在一定程度上降低了對人工標(biāo)注的依賴,但是,其應(yīng)用范圍又受限于那些能夠提供清晰、可驗證獎勵的特定領(lǐng)域,因此限制了模型在更廣泛、更開放場景中的應(yīng)用。
近日,來自美國加州大學(xué)伯克利分校(UCB,University of California,Berkeley)的一支研究團隊給這個問題帶來了新的解法,他們提出了一種名為 INTUITOR 的方法,使大模型能夠僅憑其“內(nèi)在信心”進行學(xué)習(xí)和推理,無需外部獎勵或真值答案的指引。相關(guān)論文以《無需外部獎勵的學(xué)習(xí)推理》(Learning to Reason without External Rewards)為題發(fā)表在預(yù)印本網(wǎng)站arXiv上,迅速引發(fā)了廣泛關(guān)注。
圖丨相關(guān)論文(來源:arXiv)
掙脫外部獎勵的枷鎖——RLIF 與 INTUITOR 的誕生
我們知道,盡管 RLHF 在提升模型表現(xiàn)方面卓有成效,但由于它需要大量的人工標(biāo)注,就導(dǎo)致其成本高昂且可能引入偏見。最近這段時間以來,研究者們轉(zhuǎn)向了基于可驗證獎勵的強化學(xué)習(xí),這種方法在數(shù)學(xué)問題解決和代碼生成等任務(wù)中,使用可自動驗證的信號(如精確答案匹配)作為獎勵。RLVR 避免了學(xué)習(xí)獎勵模型的復(fù)雜性,并在 DeepSeek-R1 等模型上展現(xiàn)了強大的推理能力。
然而,RLVR 同樣也有一定的局限,它需要領(lǐng)域特定的驗證器和“黃金標(biāo)準(zhǔn)”解決方案,例如數(shù)學(xué)問題需要專家標(biāo)注答案,代碼生成則需要全面的測試用例和執(zhí)行環(huán)境。這些要求將 RLVR 的應(yīng)用限制在精心策劃的領(lǐng)域內(nèi),并且其以結(jié)果為導(dǎo)向的獎勵機制也限制了模型向其他領(lǐng)域的遷移能力。
那么,有沒有可能大模型在沒有外部驗證器或領(lǐng)域特定真值的情況下,僅僅依靠其內(nèi)在信號來提升推理能力呢?
正是基于這一問題,UCB 的研究團隊提出了“基于內(nèi)部反饋的強化學(xué)習(xí)”(RLIF,Reinforcement Learning from Internal Feedback)這一全新框架。RLIF 的核心思想是,模型可以通過優(yōu)化其自身產(chǎn)生的內(nèi)在信號來提升性能,而無需依賴外部獎勵或監(jiān)督信息。這為模型在未來可能發(fā)展出超越人類評估能力的場景提供了自洽的改進機制。
在 RLIF 框架下,團隊進一步提出了具體的實現(xiàn)方法——INTUITOR。INTUITOR 巧妙地將模型自身的“信心”(confidence),更準(zhǔn)確地說是“自我確定性”(self-certainty),作為唯一的獎勵信號。這一想法源于一個直觀的觀察:無論是人類還是大模型,在面對難題或缺乏相關(guān)知識時,通常會表現(xiàn)出較低的信心;反之,當(dāng)其對某個答案或推理過程更有把握時,信心水平會更高,并且這種高信心往往與正確性相關(guān)聯(lián)。
那么,如何量化模型的“自我確定性”呢?研究團隊借鑒了他們在 2025 年 2 月發(fā)表的另一篇重要工作《通過自我確定性為大型語言模型提供可擴展的 N 次最佳選擇》(Scalable Best-of-N Selection for Large Language Models via Self-Certainty)。在該工作中,他們提出使用模型輸出 Token 的概率分布與均勻分布之間的平均 KL 散度(Kullback-Leibler divergence)來度量自我確定性。
圖丨相關(guān)論文(來源:arXiv)
簡單來說,如果模型對其預(yù)測的下一個 Token 非常確定(即概率高度集中在少數(shù)幾個 Token 上),那么其輸出分布會遠離均勻分布,KL 散度值會較大,代表自我確定性高。這種度量方式被證明在從多個候選答案中挑選高質(zhì)量答案時非常有效,并且相比于困惑度(perplexity)或熵(entropy)等其他啟發(fā)式方法,更不容易受到輸出長度等因素的干擾,也更能隨著候選答案數(shù)量的增加而提升其效用。
INTUITOR 將這種自我確定性評分直接作為強化學(xué)習(xí)過程中的獎勵信號,并結(jié)合了現(xiàn)有成熟的強化學(xué)習(xí)算法,如“組相對策略優(yōu)化”(Group Relative Policy Optimization, GRPO),來指導(dǎo)模型的策略更新。在 GRPO 算法中,通常需要外部獎勵來評估一組候選輸出的優(yōu)劣;而在 INTUITOR 中,外部獎勵被完全替換為模型自身計算出的自我確定性分數(shù)。通過這種方式,模型被激勵去生成那些能讓自己“更自信”的輸出序列,從而在沒有外部監(jiān)督的情況下實現(xiàn)學(xué)習(xí)和推理能力的提升。
“自信”就能學(xué)會復(fù)雜推理
為了驗證 INTUITOR 的有效性,研究團隊進行了一系列實驗。他們使用 Qwen2.5-1.5B 和 Qwen2.5-3B 作為基礎(chǔ)模型,在 MATH 數(shù)據(jù)集上進行訓(xùn)練。實驗結(jié)果發(fā)現(xiàn),在領(lǐng)域內(nèi)的數(shù)學(xué)基準(zhǔn)測試(如 GSM8K 和 MATH500)中,INTUITOR 的表現(xiàn)與使用外部獎勵的 GRPO 相當(dāng),甚至在某些情況下(如使用 Qwen2.5-3B 模型),INTUITOR 在 GSM8K 上的準(zhǔn)確率達到了 79.2%,略低于 GRPO 的 82.6%,但在 MATH500 上達到了 61.2%,也略低于 GRPO 的 63.6%。
(來源:arXiv)
研究團隊還對比了一種稱為 GRPO-PV 的變體方法,該方法使用多數(shù)投票(plurality voting)作為一種弱監(jiān)督信號,模擬了不依賴真值答案的場景。結(jié)果顯示,INTUITOR 的表現(xiàn)與 GRPO-PV 相當(dāng),進一步證明了其在無監(jiān)督環(huán)境下的學(xué)習(xí)能力。
INTUITOR 最大的優(yōu)勢在于其跨任務(wù)泛化能力。當(dāng)將在 MATH 數(shù)據(jù)集上訓(xùn)練的 Qwen2.5-3B 模型應(yīng)用于代碼生成任務(wù) LiveCodeBench 時,INTUITOR 展現(xiàn)出了高達 65% 的相對性能提升;而在 CRUXEval-O 代碼任務(wù)上,INTUITOR 也取得了 76% 的增益,顯著優(yōu)于僅獲得 44% 增益的 GRPO 方法,后者在代碼生成任務(wù)上甚至沒有表現(xiàn)出明顯提升。這或許表明,通過優(yōu)化內(nèi)在的自我確定性信號,模型不僅能在訓(xùn)練領(lǐng)域內(nèi)取得進步,還能將學(xué)到的“元認知”能力遷移到全新的、結(jié)構(gòu)迥異的任務(wù)上。
(來源:arXiv)
除了在具體任務(wù)上的性能提升,研究還揭示了 INTUITOR 對模型行為的一些深層影響。例如,INTUITOR 能夠顯著提升模型的指令遵循能力,在 AlpacaEval 這類評估指令遵循度的基準(zhǔn)上取得了比 GRPO 更好的成績。這意味著模型不僅學(xué)會了如何“自信地”解決問題,還學(xué)會了如何更好地理解和執(zhí)行指令。
更有意思的是,研究團隊觀察到,經(jīng)過 INTUITOR 訓(xùn)練的模型,即使在沒有明確要求的情況下,也會自發(fā)地生成更長的、更具結(jié)構(gòu)化的推理鏈條。例如,在處理 CRUXEval-O 任務(wù)時,模型會先進行一番自然語言形式的“自由思考”,然后才將最終答案組織成指令所要求的 JSON 格式。
在代碼生成任務(wù)中,也觀察到了類似的“代碼前自然語言推理”現(xiàn)象。這種行為表明,為了提升自身的“確定感”,模型傾向于將復(fù)雜問題分解,并進行更詳盡的思考,這恰恰是復(fù)雜推理能力的重要體現(xiàn)。此外,INTUITOR 訓(xùn)練的模型在學(xué)習(xí)初期就展現(xiàn)出比 GRPO 更快的學(xué)習(xí)速度,這可能得益于自我確定性這種連續(xù)且過程感知的內(nèi)在獎勵信號,它能引導(dǎo)模型探索更有效的學(xué)習(xí)軌跡。
另一個重要的發(fā)現(xiàn)是,INTUITOR 所采用的在線自我確定性機制(即獎勵信號隨著模型策略的進化而動態(tài)調(diào)整)能夠有效防止“獎勵利用”(reward hacking)問題。在強化學(xué)習(xí)中,如果獎勵模型是靜態(tài)的,策略模型很容易找到獎勵模型的漏洞,并生成一些表面上得分很高但實際質(zhì)量很差的輸出。實驗對比顯示,如果使用一個固定的(離線的)自我確定性打分器,模型很快就會學(xué)會通過生成冗余內(nèi)容等方式來“欺騙”打分器,導(dǎo)致性能崩潰。而 INTUITOR 的在線機制則避免了這一問題,保證了訓(xùn)練的穩(wěn)定性和魯棒性。
邁向更自主的 AI
論文作者之一、UCB 博士后研究員 Xuandong Zhao 在其社交媒體上分享了這項研究的歷程。
Zhao 在其推文中提到,這項研究的種子始于去年秋天,當(dāng)時本科生 Zhewei Kang 主動聯(lián)系他希望合作開展研究。他們從兩個關(guān)鍵觀察出發(fā):一是在考試中,人們對自己有信心的題目往往回答得更準(zhǔn)確;二是大模型是否也能展現(xiàn)出這種“信心約等于正確性”的模式?這啟發(fā)了他們對“自我確定性”這一概念的探索。
圖丨相關(guān)推文(來源:X)
他們發(fā)現(xiàn),現(xiàn)有的啟發(fā)式方法如熵和困惑度在衡量模型信心方面存在輸出長度敏感、存在偏見以及隨樣本量增加擴展性差等問題。于是,他們提出了一個關(guān)鍵洞見:衡量每個 Token 的輸出分布與均勻分布的距離,即前述的 KL 散度,這構(gòu)成了“自我確定性”度量的基礎(chǔ),并催生了他們 2 月份關(guān)于“通過自我確定性實現(xiàn)可擴展的 Best-of-N 選擇”的論文。INTUITOR 正是這一系列研究思路的自然延伸和深化,將自我確定性從答案選擇標(biāo)準(zhǔn)提升為驅(qū)動整個強化學(xué)習(xí)過程的內(nèi)在獎勵。
如果這一方法確實有效,它或?qū)橛?xùn)練更自主、更通用的 AI 系統(tǒng)提供一條極具潛力的新路徑。通過擺脫對外部獎勵和人類監(jiān)督的強依賴,INTUITOR 有望大幅降低訓(xùn)練成本,并使 AI 能夠在缺乏先驗知識或難以獲得反饋的新領(lǐng)域中進行探索和學(xué)習(xí)。有網(wǎng)友就評論道:“如果這行得通,我們將在其他領(lǐng)域看到與編程和數(shù)學(xué)中相同類型的進步。”
圖丨相關(guān)評論(來源:X)
其次,INTUITOR 的成功表明,預(yù)訓(xùn)練的大模型可能擁有比我們先前認知中更為豐富的隱性行為先驗。這些先驗知識和能力可以通過恰當(dāng)?shù)膬?nèi)在激勵機制被“解鎖”和“塑造”,從而展現(xiàn)出驚人的推理和泛化能力。
再者,該研究提出的 RLIF 框架和自我確定性作為內(nèi)在獎勵的思路,也可能對于未來構(gòu)建能夠進行自我改進、甚至可能超越人類能力的 AI 系統(tǒng)具有重要啟示。當(dāng) AI 系統(tǒng)發(fā)展到其能力邊界超出人類評估范圍時,基于內(nèi)在一致性和自我確定性的學(xué)習(xí)機制將變得至關(guān)重要。
不過,目前的實驗主要集中在相對較小的模型和數(shù)據(jù)集上,未來需要將 INTUITOR 擴展到更大規(guī)模的基礎(chǔ)模型和更多樣化的真實世界數(shù)據(jù)上進行驗證。例如,有研究者擔(dān)心“獎勵利用”和“模型崩潰”或許會在更大規(guī)模模型上可能成為潛在的障礙。
圖丨相關(guān)評論(來源:X)
事實上,團隊在研究中就發(fā)現(xiàn)了將 INTUITOR 擴展到更大模型(Qwen2.5-7B 和 Qwen2.5-14B)時會遇到新的問題。他們提到,最初的訓(xùn)練方案在較大模型上會引發(fā)嚴重的行為崩潰。通過簡化系統(tǒng)提示、調(diào)整學(xué)習(xí)率和增加采樣響應(yīng)數(shù)量等方式,學(xué)習(xí)過程方得到了初步的穩(wěn)定(團隊強調(diào)這些設(shè)置是“首次的、未經(jīng)調(diào)整的嘗試”,而非全面的超參數(shù)優(yōu)化)。
但如果為了防止更大模型的獎勵利用,最終仍需依賴帶有真值驗證的復(fù)雜超參數(shù)調(diào)整,那么 INTUITOR 方法在“無需外部獎勵”方面的核心優(yōu)勢就可能會被削弱。
因此,如何在擴展到更大模型時,繼續(xù)保持這種內(nèi)在獎勵機制的有效性和免監(jiān)督特性,將是未來研究中一個值得關(guān)注的重要方向。
參考資料:
1.https://www.arxiv.org/pdf/2505.19590
2.https://x.com/xuandongzhao/status/1927270931874910259
3.https://arxiv.org/pdf/2502.18581
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.