大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

MSRA清北推出強化預訓練!取代傳統自監督,14B模型媲美32B

0
分享至

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

“預測下一個token”——這個支撐LLM的核心訓練機制,正在被強化學習顛覆。

微軟亞洲研究院(MSRA)聯合清華大學、北京大學提出全新預訓練范式RPT(強化預訓練),首次將強化學習深度融入預訓練階段,讓模型在預測每個token前都能先“動腦推理”,并根據推理正確性獲得獎勵。



傳統預訓練依賴海量文本進行自監督學習,模型通過簡單預測下一個token建立語言能力,作者將之比喻為一塊蛋糕胚,而RL只是作為上面點綴的一顆櫻桃。

現在RPT要做的就是用櫻桃直接做蛋糕,即將這一過程重構為推理任務,促進模型更深層次理解和提升下一個token的預測準確度。



那這塊櫻桃蛋糕到底怎么做?詳細烘焙流程我們接著往下看。

將強化學習引入預訓練

傳統的預訓練方法采用自監督的下一個token預測任務,而RL通常承擔微調LLM的功能,使其與人類偏好對齊或者增強復雜推理。

然而基于人類反饋的強化學習(RLHF)過度依賴昂貴數據,且模型容易受到獎勵破解;可驗證獎勵的強化學習(RLVR)也會受到數據稀缺的限制,只能應用于特定領域的微調。

為了讓強化學習更好地作用于LLM,團隊提出的全新范式強化預訓練RPT,激勵使用RL進行有效的Next-Token推理任務,將預訓練語料庫重構為推理問題集,推動預訓練從學習表面的token相關性轉為理解深層含義。

模型首先需要對多個token生成一個思維鏈推理序列,涉及多種推理模式(如頭腦風暴、自我批評和自我糾正),然后再為下一個token生成預測。



具體來說,RPT就是通過讓LLM同策略(on-policy)執行,以生成多條不同的思維軌跡,每條軌跡包含中間推理步驟和對下一個token的最終預測。

引入前綴匹配獎勵,驗證預測的正確性。如果預測與真實token匹配,則分配正獎勵1,反之為0。該獎勵信號將用于更新LLM,以鼓勵生成能準確延續上下文的軌跡。



團隊使用包含4428個競賽數學問題及答案的OmniMATH數據集,并通過計算下一token的熵和設定閾值,進行數據過濾,只保留更難預測的token參與訓練。

另外采用Deepseek-R1-Distill-Qwen-14B作為基礎模型,使用GRPO算法和8K的訓練長度,批大小為256個問題,每個問題采樣8個響應。

更深層次的推理

實驗表明,與R1-Distill-Queen-14B相比,RPT-14B在三種難度(簡單、中等、困難)上均實現了更高的下一個token預測準確率,優于標準下一token預測基線和使用推理的預測基線。



在性能上,也可與更大的模型R1-Distill-Queen-32B相媲美,說明RPT能有效捕捉token生成背后的復雜推理信號,并在提升LLM的語言建模能力方面擁有巨大潛力。



RPT在跨難度的訓練計算方面,也表現出清晰的冪律縮放(Power-law Scaling),預測準確性隨著計算的增加而不斷提高,并且與理論曲線緊密擬合。



與傳統的使用下一個token預測相比,在具有可驗證答案的問題(即Skywork-OR1)上,使用RL微調RPT模型顯示出更強的推理能力

在數據有限的情況下,可以快速將從下一token推理中學習到的強化推理模式遷移至最終任務。



另外模型在SuperGPQA和MMLU-Pro基準測試上的零樣本評估表明,RPT-14B不僅優于R1-Distill-Queen-14B,還在推理模式中顯著超過了R1-Distill-Qwen-32B。



最后團隊還對推理軌跡進行分析,發現與顯式問題解決模型相比,RPT-14B采用了更多的假設生成、替代方案的考慮以及對結構線索甚至顆粒度token級細節的反思。

既包含高級語義理解,又包含低級文本特征,說明RPT在訓練過程中會培養更深層次的推理習慣



One More Thing

這個著名的“蛋糕論”最早出自圖靈獎得主Yann LeCun在2016年的演講。

  • 如果智能是一塊蛋糕,那么大部分蛋糕都是無監督學習,蛋糕上的裱花是監督學習,而蛋糕頂部的櫻桃則是強化學習。



而現在試圖用強化學習碾碎這塊蛋糕的,還有OpenAI



在上個月紅杉組織的AI Ascent活動中,OpenAI科學家Dan Roberts就提及了他們在將RL置于模型預訓練過程中的轉變。

在GPT-4o中全是傳統預訓練計算,在o1中引入了一些強化學習運算并且取得了不錯的效果,在o3中則引入更多,他們預計在未來的某一代模型中,將會完全由RL計算主導



有理由相信,未來RL或許將在LLM預訓練過程中掀起更大的風暴,且讓我們拭目以待。

論文鏈接:https://arxiv.org/abs/2506.08007

參考鏈接:
[1]https://x.com/omarsar0/status/1932522665182703664
[2]https://x.com/qx_dong/status/1932268949238067482
[3]https://www.youtube.com/watch?v=_rjD_2zn2JU

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
兩架專機降北京,百年宿敵握手言和,中國這步棋贏在哪?

兩架專機降北京,百年宿敵握手言和,中國這步棋贏在哪?

野山歷史
2025-06-14 08:19:52
萬萬沒想到!讓代駕失業的竟然是禁酒令,還是受傷最嚴重的那一個

萬萬沒想到!讓代駕失業的竟然是禁酒令,還是受傷最嚴重的那一個

火山詩話
2025-06-14 17:10:25
缺口達萬億!機構稱:賬期60天若嚴格實行,僅兩家車企資金安全

缺口達萬億!機構稱:賬期60天若嚴格實行,僅兩家車企資金安全

明鏡pro
2025-06-14 07:49:02
直到現在,我才明白,為什么伊朗這次導彈襲擊讓全球都炸鍋了!

直到現在,我才明白,為什么伊朗這次導彈襲擊讓全球都炸鍋了!

高原一劍客
2025-06-14 17:07:34
大冷!澳網冠軍凱斯0-2輸黑馬無緣決賽 鄭欽文鎖定下周升世界第四

大冷!澳網冠軍凱斯0-2輸黑馬無緣決賽 鄭欽文鎖定下周升世界第四

醉臥浮生
2025-06-14 22:08:58
上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
為什么母親節過得轟轟烈烈,父親節卻沉默無聲?網友的回答笑噴了

為什么母親節過得轟轟烈烈,父親節卻沉默無聲?網友的回答笑噴了

振華觀史
2025-06-14 12:36:28
鄭欽文1-2出局,無緣倫敦站決賽!仍獲56萬獎金,輸球原因揭曉

鄭欽文1-2出局,無緣倫敦站決賽!仍獲56萬獎金,輸球原因揭曉

小火箭愛體育
2025-06-15 01:09:17
馬斯克吐槽:香港法官佩戴過時的假發,像是在清倉甩賣時買的!網友:28年了辮子都還沒剪掉

馬斯克吐槽:香港法官佩戴過時的假發,像是在清倉甩賣時買的!網友:28年了辮子都還沒剪掉

大白聊IT
2025-06-14 22:41:29
1-2,世界第5不敵世界第15,鄭欽文止步WTA500倫敦站半決賽

1-2,世界第5不敵世界第15,鄭欽文止步WTA500倫敦站半決賽

側身凌空斬
2025-06-15 00:40:42
波音徹底脫責?黑匣子揭露飛行員“違章操作”,印度航空壓力山大

波音徹底脫責?黑匣子揭露飛行員“違章操作”,印度航空壓力山大

金哥說新能源車
2025-06-14 16:57:24
三航母時代即將到來!官方披露福建艦最新消息

三航母時代即將到來!官方披露福建艦最新消息

政知新媒體
2025-06-14 16:53:19
伊朗要變天了

伊朗要變天了

戰爭研究所
2025-06-13 23:40:34
可不限次數往返香港!非深戶也可以!

可不限次數往返香港!非深戶也可以!

深圳本地寶
2025-06-14 22:11:44
連續發射6波導彈,伊朗反擊極為強硬,靜觀是否會與對手死磕到底

連續發射6波導彈,伊朗反擊極為強硬,靜觀是否會與對手死磕到底

國平視野
2025-06-14 18:09:17
袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

趣文說娛
2025-06-14 11:13:03
上海航空突發!機艙內冒出濃煙!有人涉嫌違規…乘客礦泉水接力撲救,“劫后余生的感覺”

上海航空突發!機艙內冒出濃煙!有人涉嫌違規…乘客礦泉水接力撲救,“劫后余生的感覺”

上觀新聞
2025-06-14 11:57:34
河南禁酒令大反轉!本以為是“硬核新規”,官方回應,網友:理解

河南禁酒令大反轉!本以為是“硬核新規”,官方回應,網友:理解

溫讀史
2025-06-14 09:56:47
李連杰宣布跟41歲兒子父親節重聚,久別30年攬實眼濕濕

李連杰宣布跟41歲兒子父親節重聚,久別30年攬實眼濕濕

快樂的小青瓦
2025-06-14 15:03:39
網傳“女生萬象城遭挾持”,杭州上城警方通報

網傳“女生萬象城遭挾持”,杭州上城警方通報

環球網資訊
2025-06-14 18:57:23
2025-06-15 01:48:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

藝術
本地
健康
旅游
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产一区二区三区不卡在线观看| 无码天堂亚洲国产av麻豆| 国产人妻久久精品二区三区| 国产亚洲美女精品久久久久| 激性欧美激情在线| 国产精品麻豆成人av电影艾秋| 亚洲一区二区三区乱码在线欧洲| 国产丝袜美女一区二区三区| 欧美老熟妇喷水| 99热精国产这里只有精品| 午夜福利av无码一区二区| 蜜臀av性久久久久蜜臀aⅴ麻豆| 欧美超大胆裸体xx视频| 特级毛片a片久久久久久| 久久久亚洲欧洲日产国产成人无码| 久久精品成人无码观看不卡| 国产又黄又猛又粗又爽的a片动漫| 51精品国产人成在线观看| 欧美另类与牲交zozozo| 成人免费无码大片a毛片户外| 亚洲人成无码网站久久99热国产| 午夜不卡无码中文字幕影院| 高潮迭起av乳颜射后入| 激情97综合亚洲色婷婷五| 国产熟女亚洲精品麻豆| 青草青草久热精品视频在线观看| 精品人成视频免费国产| 男女性高爱潮免费网站| 亚洲日韩精品一区二区三区无码| 无码人妻一区、二区、三区免费视频| 真实国产乱啪福利露脸| 久久久久亚洲国产av麻豆| 无码av专区丝袜专区| 综合久久—本道中文字幕| 极品尤物一区二区三区| 亚洲天天做日日做天天欢| 人妻中出受孕 中文字幕在线| 人人干人人噪人人摸| 扒开双腿疯狂进出爽爽爽视频| 在线视频 一区 色| 国产极品精品自在线|