網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

獎(jiǎng)勵(lì)是假的，能讓Qwen提升25%性能卻是真的！

2025-05-29 18:58:25　來源: 量子位

北京舉報(bào)

分享至

鷺羽發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

即使RLVR（可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)）使用錯(cuò)誤的獎(jiǎng)勵(lì)信號(hào)，Qwen性能也能得到顯著提升？

甚至還和真實(shí)獎(jiǎng)勵(lì)相差無幾。

自從RLVR被DeepSeek-R1帶火，RL推理研究層出不窮，走進(jìn)了蜜月期。

這不，來自華盛頓大學(xué)的一群博士生來火上澆油了——

使用Qwen模型（尤其是數(shù)學(xué)版本），對(duì)虛假獎(jiǎng)勵(lì)進(jìn)行RLVR，仍然可以將MATH-500的絕對(duì)準(zhǔn)確率顯著提升約25%。

團(tuán)隊(duì)實(shí)驗(yàn)發(fā)現(xiàn)：

RLVR通過激活預(yù)訓(xùn)練中的推理能力來提升性能，但不考慮獎(jiǎng)勵(lì)信號(hào)的正確性。

這徹底顛覆了既往大家對(duì)RLVR的認(rèn)知，原來那些年在虛假獎(jiǎng)勵(lì)上踩過的坑，還真能實(shí)現(xiàn)彎道超車？

X上的網(wǎng)友們紛紛表示，強(qiáng)烈建議每位RLVR研究員都來讀一讀，尤其是那些圍繞Qwen模型精心構(gòu)造獎(jiǎng)勵(lì)函數(shù)的研究員們，該瑟瑟發(fā)抖了……

Qwen自家的研究員Binyuan Hui也在評(píng)論區(qū)現(xiàn)身：

也許是預(yù)訓(xùn)練數(shù)據(jù)混合以某種方式意外導(dǎo)致了一些有用的行為，又一次側(cè)面印證了代碼推理的重要性。

具體啥情況？下面我們娓娓道來。

虛假獎(jiǎng)勵(lì)帶來顯著的RLVR增益

此前已有研究證明，RLVR在提升語(yǔ)言模型推理能力上非常有效，核心思想是利用可自動(dòng)驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)優(yōu)化。

普遍研究都默認(rèn)優(yōu)化效果依賴獎(jiǎng)勵(lì)的正確性，但研究團(tuán)隊(duì)反直覺地認(rèn)為其中必有蹊蹺——虛假獎(jiǎng)勵(lì)或許也能“變廢為寶”？

于是說干就干，開始大膽假設(shè)，小心求證。

從實(shí)驗(yàn)出發(fā)

為測(cè)試RLVR提升數(shù)學(xué)推理能力所需的最低監(jiān)督下限，團(tuán)隊(duì)設(shè)計(jì)了一系列逐步簡(jiǎn)化的獎(jiǎng)勵(lì)函數(shù)替代標(biāo)準(zhǔn)真實(shí)獎(jiǎng)勵(lì)：

真實(shí)獎(jiǎng)勵(lì)：使用真實(shí)標(biāo)簽對(duì)可驗(yàn)證正確的回答給予獎(jiǎng)勵(lì)，將其作為獎(jiǎng)勵(lì)監(jiān)督質(zhì)量的上限。
多數(shù)投票獎(jiǎng)勵(lì)：在微調(diào)前利用模型對(duì)訓(xùn)練集進(jìn)行偽標(biāo)注，即對(duì)每個(gè)提示采樣64個(gè)響應(yīng)并選取多數(shù)答案，再基于這些（可能錯(cuò)誤的）標(biāo)簽進(jìn)行獎(jiǎng)勵(lì)。
格式獎(jiǎng)勵(lì)：進(jìn)一步弱化獎(jiǎng)勵(lì)信號(hào)，獎(jiǎng)勵(lì)所有包含至少一個(gè)非空\(chéng)boxed {}表達(dá)式的響應(yīng)，完全忽略回答的數(shù)學(xué)正確性。
隨機(jī)獎(jiǎng)勵(lì)：在獎(jiǎng)勵(lì)過程中不提供任何指導(dǎo)，直接給定一個(gè)固定概率超參數(shù)隨機(jī)分配獎(jiǎng)勵(lì)，其中1的概率為，0為，主實(shí)驗(yàn)中設(shè)置。
錯(cuò)誤獎(jiǎng)勵(lì)：故意提供錯(cuò)誤的監(jiān)督，只獎(jiǎng)勵(lì)錯(cuò)誤答案，即先用多數(shù)投票法標(biāo)注所有訓(xùn)練數(shù)據(jù)，選擇錯(cuò)誤標(biāo)簽的子集進(jìn)行訓(xùn)練，并給予對(duì)應(yīng)的響應(yīng)獎(jiǎng)勵(lì)。

基于GRPO方法微調(diào)Qwen2.5-Math模型，再使用不同獎(jiǎng)勵(lì)函數(shù)進(jìn)行RLVR訓(xùn)練。

實(shí)驗(yàn)結(jié)果表明，與未調(diào)優(yōu)的基線模型相比，所有獎(jiǎng)勵(lì)函數(shù)（即使是設(shè)計(jì)上存在問題的函數(shù)），均能在所有基準(zhǔn)測(cè)試的前50步內(nèi)顯著提升數(shù)學(xué)推理性能。

值得注意的是，虛假獎(jiǎng)勵(lì)帶來的性能提升，與基于真實(shí)標(biāo)簽的RLVR提升幅度，相差只有幾個(gè)百分點(diǎn)。

例如，在MATH500基準(zhǔn)上，使用錯(cuò)誤標(biāo)簽獎(jiǎng)勵(lì)進(jìn)行訓(xùn)練可提升24.6%，而基于真實(shí)答案的RLVR提升幅度只有28.8%，即使是提供純?cè)胍舻碾S機(jī)獎(jiǎng)勵(lì)，也仍能帶來 21.4%的性能提升。

因此團(tuán)隊(duì)證明，即使是完全錯(cuò)誤的獎(jiǎng)勵(lì)或隨機(jī)獎(jiǎng)勵(lì)，也能在Qwen2.5-Math模型中激發(fā)性能提升。

但在進(jìn)一步的研究中，他們發(fā)現(xiàn)這種奇怪的增益只有利于Qwen2.5系列模型，其余非 Qwen模型的性能在虛假獎(jiǎng)勵(lì)下幾乎無變化，甚至還會(huì)出現(xiàn)下降的趨勢(shì)。

這又是怎么一回事呢？研究團(tuán)隊(duì)只好又開始挖掘模型差異的根源。

為什么虛假獎(jiǎng)勵(lì)有效

通過分析Qwen2.5-Math-7B和OLMo2-7B的推理軌跡，團(tuán)隊(duì)發(fā)現(xiàn)預(yù)訓(xùn)練期間，模型學(xué)習(xí)到的特定推理策略差異是關(guān)鍵。

Qwen2.5-Math-7B頻繁生成Python代碼輔助思考過程（占所有回答的 65.0%），盡管無法執(zhí)行，但這種代碼推理行為在一定程度上，與答案準(zhǔn)確率高度正相關(guān)。

但該模式在其他模型中并未有所發(fā)現(xiàn)，例如Llama、Qwen2.5-1.5B以及OLMo2-7B完全不生成代碼，無法從此推理策略中獲益。

OLMo2-7B-SFT和Qwen2.5-7B雖然也頻繁嘗試使用代碼推理，但該策略反而會(huì)降低模型性能。

而基于虛假獎(jiǎng)勵(lì)的RLVR可以有效增強(qiáng)代碼推理頻率，如Qwen2.5-Math-7B在進(jìn)行RLVR訓(xùn)練后，代碼推理頻率在最初15步內(nèi)，迅速?gòu)?5%提升至約90%。

此外，通過分析隨機(jī)獎(jiǎng)勵(lì)也能提升性能的特殊情況，研究人員還發(fā)現(xiàn)一個(gè)有趣的結(jié)論：GRPO的裁剪偏差可能會(huì)誘導(dǎo)隨機(jī)獎(jiǎng)勵(lì)生成有益的訓(xùn)練信號(hào)，增加代碼推理行為，從而實(shí)現(xiàn)性能提升。

One More Thing

本項(xiàng)目是由多位華人學(xué)者共同完成的，他們目前都在華盛頓大學(xué)的NLP小組讀博。

而當(dāng)論文作者Stella Li在X上發(fā)帖介紹自己的論文時(shí)，我們注意到評(píng)論區(qū)有這樣一位網(wǎng)友的留言，他指出在模型改進(jìn)中，也許「結(jié)果不重要，推理過程才重要」

Stella Li的回復(fù)也提出了另外一種可能，也許錯(cuò)誤推理+正確答案或者正確推理+錯(cuò)誤答案，可能也會(huì)幫助OLMo2-7B-SFT實(shí)現(xiàn)類似Qwen在虛假獎(jiǎng)勵(lì)下的性能增益。

另外，作者也溫馨提示，現(xiàn)有的以Qwen為中心的RLVR研究可能需要在非Qwen模型上做進(jìn)一步驗(yàn)證，不要只盯著單一模型做漂亮數(shù)值提升的工作，因?yàn)槟强赡芤饬x并不大。

項(xiàng)目鏈接：https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f
代碼鏈接：https://github.com/ruixin31/Rethink_RLVR
論文鏈接：https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

參考鏈接：
[1]https://x.com/StellaLisy/status/1927392717593526780
[2]https://x.com/huybery/status/1927434422934028358
[3]https://x.com/RulinShao/status/1927442751462707524

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.