大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

獎勵是假的,能讓Qwen提升25%性能卻是真的!

0
分享至

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

即使RLVR(可驗證獎勵強化學習)使用錯誤的獎勵信號,Qwen性能也能得到顯著提升?

甚至還和真實獎勵相差無幾。



自從RLVR被DeepSeek-R1帶火,RL推理研究層出不窮,走進了蜜月期。

這不,來自華盛頓大學的一群博士生來火上澆油了——

使用Qwen模型(尤其是數學版本),對虛假獎勵進行RLVR,仍然可以將MATH-500的絕對準確率顯著提升約25%

團隊實驗發現:

  • RLVR通過激活預訓練中的推理能力來提升性能,但不考慮獎勵信號的正確性。



這徹底顛覆了既往大家對RLVR的認知,原來那些年在虛假獎勵上踩過的坑,還真能實現彎道超車?

X上的網友們紛紛表示,強烈建議每位RLVR研究員都來讀一讀,尤其是那些圍繞Qwen模型精心構造獎勵函數的研究員們,該瑟瑟發抖了……



Qwen自家的研究員Binyuan Hui也在評論區現身:

  • 也許是預訓練數據混合以某種方式意外導致了一些有用的行為,又一次側面印證了代碼推理的重要性。



具體啥情況?下面我們娓娓道來。

虛假獎勵帶來顯著的RLVR增益

此前已有研究證明,RLVR在提升語言模型推理能力上非常有效,核心思想是利用可自動驗證的獎勵信號優化

普遍研究都默認優化效果依賴獎勵的正確性,但研究團隊反直覺地認為其中必有蹊蹺——虛假獎勵或許也能“變廢為寶”?



于是說干就干,開始大膽假設,小心求證。

從實驗出發

為測試RLVR提升數學推理能力所需的最低監督下限,團隊設計了一系列逐步簡化的獎勵函數替代標準真實獎勵:

  1. 真實獎勵:使用真實標簽對可驗證正確的回答給予獎勵,將其作為獎勵監督質量的上限。
  2. 多數投票獎勵:在微調前利用模型對訓練集進行偽標注,即對每個提示采樣64個響應并選取多數答案,再基于這些(可能錯誤的)標簽進行獎勵。
  3. 格式獎勵:進一步弱化獎勵信號,獎勵所有包含至少一個非空\boxed {}表達式的響應,完全忽略回答的數學正確性。
  4. 隨機獎勵:在獎勵過程中不提供任何指導,直接給定一個固定概率超參數隨機分配獎勵,其中1的概率為,0為,主實驗中設置。
  5. 錯誤獎勵:故意提供錯誤的監督,只獎勵錯誤答案,即先用多數投票法標注所有訓練數據,選擇錯誤標簽的子集進行訓練,并給予對應的響應獎勵。



基于GRPO方法微調Qwen2.5-Math模型,再使用不同獎勵函數進行RLVR訓練。

實驗結果表明,與未調優的基線模型相比,所有獎勵函數(即使是設計上存在問題的函數),均能在所有基準測試的前50步內顯著提升數學推理性能。

值得注意的是,虛假獎勵帶來的性能提升,與基于真實標簽的RLVR提升幅度,相差只有幾個百分點

例如,在MATH500基準上,使用錯誤標簽獎勵進行訓練可提升24.6%,而基于真實答案的RLVR提升幅度只有28.8%,即使是提供純噪音的隨機獎勵,也仍能帶來 21.4%的性能提升。

因此團隊證明,即使是完全錯誤的獎勵或隨機獎勵,也能在Qwen2.5-Math模型中激發性能提升。

但在進一步的研究中,他們發現這種奇怪的增益只有利于Qwen2.5系列模型,其余非 Qwen模型的性能在虛假獎勵下幾乎無變化,甚至還會出現下降的趨勢。



這又是怎么一回事呢?研究團隊只好又開始挖掘模型差異的根源。

為什么虛假獎勵有效

通過分析Qwen2.5-Math-7B和OLMo2-7B的推理軌跡,團隊發現預訓練期間,模型學習到的特定推理策略差異是關鍵。

Qwen2.5-Math-7B頻繁生成Python代碼輔助思考過程(占所有回答的 65.0%),盡管無法執行,但這種代碼推理行為在一定程度上,與答案準確率高度正相關。



但該模式在其他模型中并未有所發現,例如Llama、Qwen2.5-1.5B以及OLMo2-7B完全不生成代碼,無法從此推理策略中獲益。

OLMo2-7B-SFT和Qwen2.5-7B雖然也頻繁嘗試使用代碼推理,但該策略反而會降低模型性能。



而基于虛假獎勵的RLVR可以有效增強代碼推理頻率,如Qwen2.5-Math-7B在進行RLVR訓練后,代碼推理頻率在最初15步內,迅速從65%提升至約90%。



此外,通過分析隨機獎勵也能提升性能的特殊情況,研究人員還發現一個有趣的結論:GRPO的裁剪偏差可能會誘導隨機獎勵生成有益的訓練信號,增加代碼推理行為,從而實現性能提升。



One More Thing

本項目是由多位華人學者共同完成的,他們目前都在華盛頓大學的NLP小組讀博。



而當論文作者Stella Li在X上發帖介紹自己的論文時,我們注意到評論區有這樣一位網友的留言,他指出在模型改進中,也許「結果不重要,推理過程才重要」



Stella Li的回復也提出了另外一種可能,也許錯誤推理+正確答案或者正確推理+錯誤答案,可能也會幫助OLMo2-7B-SFT實現類似Qwen在虛假獎勵下的性能增益。



另外,作者也溫馨提示,現有的以Qwen為中心的RLVR研究可能需要在非Qwen模型上做進一步驗證,不要只盯著單一模型做漂亮數值提升的工作,因為那可能意義并不大。

項目鏈接:https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f
代碼鏈接:https://github.com/ruixin31/Rethink_RLVR
論文鏈接:https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

參考鏈接:
[1]https://x.com/StellaLisy/status/1927392717593526780
[2]https://x.com/huybery/status/1927434422934028358
[3]https://x.com/RulinShao/status/1927442751462707524

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
河南禁酒令大反轉!本以為是“硬核新規”,官方回應,網友:理解

河南禁酒令大反轉!本以為是“硬核新規”,官方回應,網友:理解

溫讀史
2025-06-14 09:56:47
上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

趣文說娛
2025-06-14 11:13:03
局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

一個有靈魂的作者
2025-06-14 22:17:44
國防大學的教授也是一個水貨

國防大學的教授也是一個水貨

回旋鏢
2025-06-14 15:59:57
跌太猛了!浙江余杭這個小區從214萬暴跌到80萬,跌幅超過60%…

跌太猛了!浙江余杭這個小區從214萬暴跌到80萬,跌幅超過60%…

火山詩話
2025-06-14 14:30:42
好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

荷蘭豆愛健康
2025-06-12 18:47:39
伊朗不打倒神棍政權,國家將永無希望

伊朗不打倒神棍政權,國家將永無希望

廖保平
2025-06-14 09:19:25
南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
哈梅內伊聲明:要徹底摧毀以色列政權!伊朗向以方向發射約150枚導彈!伊軍稱擊落以戰機并逮捕飛行員

哈梅內伊聲明:要徹底摧毀以色列政權!伊朗向以方向發射約150枚導彈!伊軍稱擊落以戰機并逮捕飛行員

每日經濟新聞
2025-06-14 06:41:13
LABUBU真成“頂流”了!韓國線下店有人為它通宵排隊,有人為它吵架動手,為您揭秘其火爆原因

LABUBU真成“頂流”了!韓國線下店有人為它通宵排隊,有人為它吵架動手,為您揭秘其火爆原因

三湘都市報
2025-06-14 18:04:05
恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

柳絮憶史
2025-06-14 07:10:03
聊聊步行者 VS 雷霆 G4

聊聊步行者 VS 雷霆 G4

靜易墨
2025-06-14 21:17:05
伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

看看新聞Knews
2025-06-14 20:25:47
蘇超最新積分榜公布

蘇超最新積分榜公布

現代快報
2025-06-14 21:17:08
鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

妮妮玩不夠
2025-06-14 07:47:04
中紀委怒批公務員也是人!正常生活不應問責處!

中紀委怒批公務員也是人!正常生活不應問責處!

霹靂炮
2025-06-13 23:49:27
羅帥宇的通報來了,真相終于大白

羅帥宇的通報來了,真相終于大白

大張的自留地
2025-06-14 08:39:21
慘不忍睹!女籃三人10中1,籃板也不會搶,球迷:趕快淘汰他仨

慘不忍睹!女籃三人10中1,籃板也不會搶,球迷:趕快淘汰他仨

南海浪花
2025-06-14 11:30:33
1-2!鄭欽文輸球內情曝光,賽后眼眶含淚,對手采訪說到了關鍵

1-2!鄭欽文輸球內情曝光,賽后眼眶含淚,對手采訪說到了關鍵

侃球熊弟
2025-06-15 00:02:53
2025-06-15 04:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

親子
本地
健康
房產
公開課

親子要聞

給18個月幼兒灌酒,無論出于什么心態都不該寬恕|新京報快評

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

呼吸科專家破解呼吸道九大謠言!

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久视频这里只有精品在线观看| 人妻中文字幕在线网站| 亚洲欧美色一区二区三区| 成片免费观看| 国产老妇伦国产熟女老妇视频| 激情综合亚洲色婷婷五月| 狠狠躁天天躁日日躁欧美| 亚洲人成综合网站7777香蕉| 精品午夜国产福利观看| 色护士极品影院| 午夜精品影视国产一区在线麻豆| 亚洲va久久久噜噜噜久久狠狠| 少妇挑战三个黑人惨叫4p国语| 久久人人爽人人爽人人av| 无码国产精品一区二区av| 品色永久免费| 丁香婷婷综合激情五月色| 中文字幕亚洲一区二区va在线| 无码一区二区免费波多野播放搜索| 少妇人妻精品一区二区| 无码国产69精品久久久久同性| 中文字幕丝袜精品久久| 久久成人网站亚洲综合| 国产av久久久久精东av| 末发育娇小性色xxxxx| 亚洲成年网站青青草原| 国产私人尤物无码不卡| 欧美 亚洲 国产 制服 中文| 777爽死你无码免费看一二区| 国产精品白丝av嫩草影院| 亚洲精品国产成人av| 久久精品国产亚洲av麻豆蜜芽| av无码久久久久久不卡网站| √8天堂资源地址中文在线| 日日摸天天摸97狠狠婷婷| 亚洲另类伦春色综合| 看全色黄大色大片免费久久| 国内揄拍国内精品人妻| 久久久久久99av无码免费网站| 精品国产三级a∨在线| 欧洲人妻丰满av无码久久不卡|