大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

獎(jiǎng)勵(lì)是假的,能讓Qwen提升25%性能卻是真的!

0
分享至

鷺羽 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

即使RLVR(可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí))使用錯(cuò)誤的獎(jiǎng)勵(lì)信號(hào),Qwen性能也能得到顯著提升?

甚至還和真實(shí)獎(jiǎng)勵(lì)相差無幾。



自從RLVR被DeepSeek-R1帶火,RL推理研究層出不窮,走進(jìn)了蜜月期。

這不,來自華盛頓大學(xué)的一群博士生來火上澆油了——

使用Qwen模型(尤其是數(shù)學(xué)版本),對(duì)虛假獎(jiǎng)勵(lì)進(jìn)行RLVR,仍然可以將MATH-500的絕對(duì)準(zhǔn)確率顯著提升約25%

團(tuán)隊(duì)實(shí)驗(yàn)發(fā)現(xiàn):

  • RLVR通過激活預(yù)訓(xùn)練中的推理能力來提升性能,但不考慮獎(jiǎng)勵(lì)信號(hào)的正確性。



這徹底顛覆了既往大家對(duì)RLVR的認(rèn)知,原來那些年在虛假獎(jiǎng)勵(lì)上踩過的坑,還真能實(shí)現(xiàn)彎道超車?

X上的網(wǎng)友們紛紛表示,強(qiáng)烈建議每位RLVR研究員都來讀一讀,尤其是那些圍繞Qwen模型精心構(gòu)造獎(jiǎng)勵(lì)函數(shù)的研究員們,該瑟瑟發(fā)抖了……



Qwen自家的研究員Binyuan Hui也在評(píng)論區(qū)現(xiàn)身:

  • 也許是預(yù)訓(xùn)練數(shù)據(jù)混合以某種方式意外導(dǎo)致了一些有用的行為,又一次側(cè)面印證了代碼推理的重要性。



具體啥情況?下面我們娓娓道來。

虛假獎(jiǎng)勵(lì)帶來顯著的RLVR增益

此前已有研究證明,RLVR在提升語(yǔ)言模型推理能力上非常有效,核心思想是利用可自動(dòng)驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)優(yōu)化

普遍研究都默認(rèn)優(yōu)化效果依賴獎(jiǎng)勵(lì)的正確性,但研究團(tuán)隊(duì)反直覺地認(rèn)為其中必有蹊蹺——虛假獎(jiǎng)勵(lì)或許也能“變廢為寶”?



于是說干就干,開始大膽假設(shè),小心求證。

從實(shí)驗(yàn)出發(fā)

為測(cè)試RLVR提升數(shù)學(xué)推理能力所需的最低監(jiān)督下限,團(tuán)隊(duì)設(shè)計(jì)了一系列逐步簡(jiǎn)化的獎(jiǎng)勵(lì)函數(shù)替代標(biāo)準(zhǔn)真實(shí)獎(jiǎng)勵(lì):

  1. 真實(shí)獎(jiǎng)勵(lì):使用真實(shí)標(biāo)簽對(duì)可驗(yàn)證正確的回答給予獎(jiǎng)勵(lì),將其作為獎(jiǎng)勵(lì)監(jiān)督質(zhì)量的上限。
  2. 多數(shù)投票獎(jiǎng)勵(lì):在微調(diào)前利用模型對(duì)訓(xùn)練集進(jìn)行偽標(biāo)注,即對(duì)每個(gè)提示采樣64個(gè)響應(yīng)并選取多數(shù)答案,再基于這些(可能錯(cuò)誤的)標(biāo)簽進(jìn)行獎(jiǎng)勵(lì)。
  3. 格式獎(jiǎng)勵(lì):進(jìn)一步弱化獎(jiǎng)勵(lì)信號(hào),獎(jiǎng)勵(lì)所有包含至少一個(gè)非空\(chéng)boxed {}表達(dá)式的響應(yīng),完全忽略回答的數(shù)學(xué)正確性。
  4. 隨機(jī)獎(jiǎng)勵(lì):在獎(jiǎng)勵(lì)過程中不提供任何指導(dǎo),直接給定一個(gè)固定概率超參數(shù)隨機(jī)分配獎(jiǎng)勵(lì),其中1的概率為,0為,主實(shí)驗(yàn)中設(shè)置。
  5. 錯(cuò)誤獎(jiǎng)勵(lì):故意提供錯(cuò)誤的監(jiān)督,只獎(jiǎng)勵(lì)錯(cuò)誤答案,即先用多數(shù)投票法標(biāo)注所有訓(xùn)練數(shù)據(jù),選擇錯(cuò)誤標(biāo)簽的子集進(jìn)行訓(xùn)練,并給予對(duì)應(yīng)的響應(yīng)獎(jiǎng)勵(lì)。



基于GRPO方法微調(diào)Qwen2.5-Math模型,再使用不同獎(jiǎng)勵(lì)函數(shù)進(jìn)行RLVR訓(xùn)練。

實(shí)驗(yàn)結(jié)果表明,與未調(diào)優(yōu)的基線模型相比,所有獎(jiǎng)勵(lì)函數(shù)(即使是設(shè)計(jì)上存在問題的函數(shù)),均能在所有基準(zhǔn)測(cè)試的前50步內(nèi)顯著提升數(shù)學(xué)推理性能。

值得注意的是,虛假獎(jiǎng)勵(lì)帶來的性能提升,與基于真實(shí)標(biāo)簽的RLVR提升幅度,相差只有幾個(gè)百分點(diǎn)

例如,在MATH500基準(zhǔn)上,使用錯(cuò)誤標(biāo)簽獎(jiǎng)勵(lì)進(jìn)行訓(xùn)練可提升24.6%,而基于真實(shí)答案的RLVR提升幅度只有28.8%,即使是提供純?cè)胍舻碾S機(jī)獎(jiǎng)勵(lì),也仍能帶來 21.4%的性能提升。

因此團(tuán)隊(duì)證明,即使是完全錯(cuò)誤的獎(jiǎng)勵(lì)或隨機(jī)獎(jiǎng)勵(lì),也能在Qwen2.5-Math模型中激發(fā)性能提升。

但在進(jìn)一步的研究中,他們發(fā)現(xiàn)這種奇怪的增益只有利于Qwen2.5系列模型,其余非 Qwen模型的性能在虛假獎(jiǎng)勵(lì)下幾乎無變化,甚至還會(huì)出現(xiàn)下降的趨勢(shì)。



這又是怎么一回事呢?研究團(tuán)隊(duì)只好又開始挖掘模型差異的根源。

為什么虛假獎(jiǎng)勵(lì)有效

通過分析Qwen2.5-Math-7B和OLMo2-7B的推理軌跡,團(tuán)隊(duì)發(fā)現(xiàn)預(yù)訓(xùn)練期間,模型學(xué)習(xí)到的特定推理策略差異是關(guān)鍵。

Qwen2.5-Math-7B頻繁生成Python代碼輔助思考過程(占所有回答的 65.0%),盡管無法執(zhí)行,但這種代碼推理行為在一定程度上,與答案準(zhǔn)確率高度正相關(guān)。



但該模式在其他模型中并未有所發(fā)現(xiàn),例如Llama、Qwen2.5-1.5B以及OLMo2-7B完全不生成代碼,無法從此推理策略中獲益。

OLMo2-7B-SFT和Qwen2.5-7B雖然也頻繁嘗試使用代碼推理,但該策略反而會(huì)降低模型性能。



而基于虛假獎(jiǎng)勵(lì)的RLVR可以有效增強(qiáng)代碼推理頻率,如Qwen2.5-Math-7B在進(jìn)行RLVR訓(xùn)練后,代碼推理頻率在最初15步內(nèi),迅速?gòu)?5%提升至約90%。



此外,通過分析隨機(jī)獎(jiǎng)勵(lì)也能提升性能的特殊情況,研究人員還發(fā)現(xiàn)一個(gè)有趣的結(jié)論:GRPO的裁剪偏差可能會(huì)誘導(dǎo)隨機(jī)獎(jiǎng)勵(lì)生成有益的訓(xùn)練信號(hào),增加代碼推理行為,從而實(shí)現(xiàn)性能提升。



One More Thing

本項(xiàng)目是由多位華人學(xué)者共同完成的,他們目前都在華盛頓大學(xué)的NLP小組讀博。



而當(dāng)論文作者Stella Li在X上發(fā)帖介紹自己的論文時(shí),我們注意到評(píng)論區(qū)有這樣一位網(wǎng)友的留言,他指出在模型改進(jìn)中,也許「結(jié)果不重要,推理過程才重要」



Stella Li的回復(fù)也提出了另外一種可能,也許錯(cuò)誤推理+正確答案或者正確推理+錯(cuò)誤答案,可能也會(huì)幫助OLMo2-7B-SFT實(shí)現(xiàn)類似Qwen在虛假獎(jiǎng)勵(lì)下的性能增益。



另外,作者也溫馨提示,現(xiàn)有的以Qwen為中心的RLVR研究可能需要在非Qwen模型上做進(jìn)一步驗(yàn)證,不要只盯著單一模型做漂亮數(shù)值提升的工作,因?yàn)槟强赡芤饬x并不大。

項(xiàng)目鏈接:https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f
代碼鏈接:https://github.com/ruixin31/Rethink_RLVR
論文鏈接:https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

參考鏈接:
[1]https://x.com/StellaLisy/status/1927392717593526780
[2]https://x.com/huybery/status/1927434422934028358
[3]https://x.com/RulinShao/status/1927442751462707524

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不信謠不傳謠,關(guān)于羅某宇之死,人民日?qǐng)?bào)發(fā)布超詳細(xì)通報(bào)

不信謠不傳謠,關(guān)于羅某宇之死,人民日?qǐng)?bào)發(fā)布超詳細(xì)通報(bào)

讀鬼筆記
2025-06-14 11:41:48
馬英九還沒啟程,民進(jìn)黨大佬先到大陸,這一次,賴清德根本攔不住

馬英九還沒啟程,民進(jìn)黨大佬先到大陸,這一次,賴清德根本攔不住

牛鍋巴小釩
2025-06-14 10:28:42
尼科在西班牙隊(duì)更衣室對(duì)巴薩球員開玩笑:兄弟們,把我?guī)?>
    </a>
        <h3>
      <a href=直播吧
2025-06-15 11:49:13
浙江一家3人確診癌癥!醫(yī)生:早期沒癥狀,發(fā)現(xiàn)時(shí)已嚴(yán)重耽誤

浙江一家3人確診癌癥!醫(yī)生:早期沒癥狀,發(fā)現(xiàn)時(shí)已嚴(yán)重耽誤

FM93浙江交通之聲
2025-06-15 06:35:36
前年?duì)渴峙艹隹紙?chǎng)情侶現(xiàn)狀:男生今年三戰(zhàn)高考,女生即將大三

前年?duì)渴峙艹隹紙?chǎng)情侶現(xiàn)狀:男生今年三戰(zhàn)高考,女生即將大三

悠閑歷史
2025-06-13 08:57:41
我月入3000,國(guó)家興衰跟我有何干?

我月入3000,國(guó)家興衰跟我有何干?

V記錄號(hào)
2025-05-26 10:45:57
剛剛確認(rèn):全面影響杭州!明天更猛

剛剛確認(rèn):全面影響杭州!明天更猛

19樓
2025-06-15 09:11:09
瑞典決定打擊俄影子艦隊(duì),韃靼斯坦抗議征兵,吉爾吉斯斯坦拆雕像

瑞典決定打擊俄影子艦隊(duì),韃靼斯坦抗議征兵,吉爾吉斯斯坦拆雕像

桑未落
2025-06-09 12:26:18
6月下旬,鴻運(yùn)當(dāng)頭,4屬相財(cái)運(yùn)亨通,事業(yè)順利,日子紅紅火火!

6月下旬,鴻運(yùn)當(dāng)頭,4屬相財(cái)運(yùn)亨通,事業(yè)順利,日子紅紅火火!

素然追光
2025-06-14 12:20:04
梁洛施有了新戀情和李澤楷無復(fù)合可能,郭嘉文這下可以放心了

梁洛施有了新戀情和李澤楷無復(fù)合可能,郭嘉文這下可以放心了

農(nóng)村教育光哥
2025-06-14 10:59:34
伊朗反對(duì)派呼吁推翻德黑蘭政權(quán)

伊朗反對(duì)派呼吁推翻德黑蘭政權(quán)

一種觀點(diǎn)
2025-06-13 22:53:21
400億市值的新股上市7天破發(fā),進(jìn)場(chǎng)的股民全部被套,無一幸免

400億市值的新股上市7天破發(fā),進(jìn)場(chǎng)的股民全部被套,無一幸免

八百者也
2025-06-15 09:54:55
普京給伊總統(tǒng)打去電話,態(tài)度很明確,俄不會(huì)給伊朗提供實(shí)質(zhì)性幫助

普京給伊總統(tǒng)打去電話,態(tài)度很明確,俄不會(huì)給伊朗提供實(shí)質(zhì)性幫助

掌青說歷史
2025-06-14 10:59:57
趙麗穎20小時(shí)冷對(duì)章子怡!內(nèi)娛體面規(guī)矩被當(dāng)場(chǎng)掀翻

趙麗穎20小時(shí)冷對(duì)章子怡!內(nèi)娛體面規(guī)矩被當(dāng)場(chǎng)掀翻

心誠(chéng)則靈了
2025-06-14 21:26:48
提醒!昆明主城區(qū)6個(gè)淹積水點(diǎn)采取臨時(shí)管制

提醒!昆明主城區(qū)6個(gè)淹積水點(diǎn)采取臨時(shí)管制

開屏新聞客戶端
2025-06-15 11:18:10
Labubu韓國(guó)門店大排長(zhǎng)龍,警察出動(dòng)維護(hù)秩序!泡泡瑪特決定:中止韓國(guó)線下銷售

Labubu韓國(guó)門店大排長(zhǎng)龍,警察出動(dòng)維護(hù)秩序!泡泡瑪特決定:中止韓國(guó)線下銷售

第一財(cái)經(jīng)資訊
2025-06-14 17:43:31
高考后旗袍迎來“退貨潮”,汗臭難聞吊牌沒摘,網(wǎng)友:犯了大忌!

高考后旗袍迎來“退貨潮”,汗臭難聞吊牌沒摘,網(wǎng)友:犯了大忌!

涵豆說娛
2025-06-14 09:06:48
屠夫醫(yī)生劉翔峰,逼迫病人天價(jià)化療,表面救死扶傷,背地摘人器官

屠夫醫(yī)生劉翔峰,逼迫病人天價(jià)化療,表面救死扶傷,背地摘人器官

中州俠士
2025-06-14 01:34:39
飛天茅臺(tái)價(jià)格持續(xù)走低,有網(wǎng)友分析若到1900元,多數(shù)經(jīng)銷商要賠錢

飛天茅臺(tái)價(jià)格持續(xù)走低,有網(wǎng)友分析若到1900元,多數(shù)經(jīng)銷商要賠錢

愛看劇的阿峰
2025-06-15 00:51:33
10 元一盤、排隊(duì) 2000 桌,日本“窮鬼壽司”,爭(zhēng)奪北上廣

10 元一盤、排隊(duì) 2000 桌,日本“窮鬼壽司”,爭(zhēng)奪北上廣

每日人物
2025-06-15 10:35:10
2025-06-15 12:36:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10667文章數(shù) 176167關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴(yán)重缺貨

頭條要聞

清華高顏值美女學(xué)霸走紅 本人最新發(fā)聲

頭條要聞

清華高顏值美女學(xué)霸走紅 本人最新發(fā)聲

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財(cái)經(jīng)要聞

以伊沖突持續(xù)升級(jí),對(duì)全球市場(chǎng)影響多大

汽車要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

教育
房產(chǎn)
旅游
手機(jī)
公開課

教育要聞

今日上午8點(diǎn)半開始,成都百余所高中在王府井科華店等你來咨詢

房產(chǎn)要聞

又一城購(gòu)房補(bǔ)貼!買房就發(fā)錢,正在海南樓市瘋狂擴(kuò)散!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機(jī)要聞

消息稱小米 MIX Flip2、魅族 22 系列等機(jī)型 6 月-7 月發(fā)布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久香蕉超碰97国产精品| 天堂资源在线www中文| 女人把脚张来开让男人桶| 女女女女女裸体处开bbb| 小12箩利洗澡无码视频网站| 中文字幕久久综合久久88| 久久av无码精品人妻系列果冻传媒| 最近免费韩国日本hd中文字幕| 久久精品国产精品青草| 日本日本熟妇中文在线视频| 精品999日本久久久影院| 欧美野性肉体狂欢大派对| 精品国产不卡一区二区三区| 一个本道久久综合久久88| 老司机精品成人无码av| 动漫啪啪高清区一区二网站| 亚洲影院天堂中文av色| 久久99精品久久只有精品| 亚洲综合一区无码精品| 国产成人av无码永久免费一线天| 任我爽精品视频在线观看| 亚洲另类激情专区小说图片| 精品国产一区二区av麻豆| 人妻 校园 激情 另类| 人妻系列无码专区免费视频| 国产精品va无码免费| 在线 亚洲 国产 欧美| 精品国产一区二区三区香蕉| 成熟老妇女视频| 美女高潮无遮挡免费视频| 久久无码字幕中文久久无码| 国产精品亚洲综合色区| 亚洲人做受???高潮游戏| 亚洲 欧美 日本 国产 高清| 亚洲经典千人经典日产| 任你躁x7x7x7x7在线观看| 激情国产一区二区三区四区小说| 久久久久青草大香综合精品| 含紧一点h边做边走动免费视频| 久久精品av国产一区二区| 国产又色又爽又黄的免费|