強化學習(RL)到底是語言模型能力進化的「發動機」,還是只是更努力地背題、換個方式答題?這個問題,學界爭論已久:RL 真能讓模型學會新的推理技能嗎,還是只是提高了已有知識的調用效率?
過去的研究多數持悲觀態度:認為 RL 帶來的收益非常有限,有時甚至會讓模型「同質化」加重,失去多樣性。然而,來自英偉達的這項研究指出,造成這一現象的根本原因在于:數學、編程等任務在 base model 的訓練數據中被過度呈現,以及 RL 訓練步數不足。
- 論文題目:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
- 鏈接:https://arxiv.org/pdf/2505.24864
ProRL 來了!長期訓練 = 推理能力質變!
由 NVIDIA 團隊提出的 ProRL(Prolonged Reinforcement Learning)框架,將 RL 訓練步數從傳統的幾百步大幅提升至 2000 步以上,釋放了小模型潛藏的巨大潛力。結果令人震驚:
- 原本完全不會做的邏輯謎題,ProRL 模型的 pass@k 能達到 100%
- 創造力指標(Creativity Index)飆升,模型能主動生成全新解題路徑
- 不再是「蒙對答案」,而是真正「開竅」了!
這一突破主要來自于穩定長期的強化學習,然而,長期 RL 訓練并不容易,容易出現熵崩塌、性能震蕩、甚至「擺爛」。為此,團隊構建了完整的技術組合拳:
- 多樣化可驗證獎勵任
引入了數學、編程、科學問答(STEM)、邏輯謎題、指令遵循等多領域數據,這些任務具有程序化可驗證的正確答案,為 RL 訓練提供了可靠、客觀的監督信號,不再依賴「易被騙」的獎勵模型。
- 改進算法組合:GRPO + DAPO
在 GRPO(Group Relative Policy Optimization)框架基礎上,融合 DAPO(Decoupled Clip and Dynamic Sampling)關鍵的解耦裁剪(Decoupled Clipping)來避免策略更新失衡,以及動態采樣(Dynamic Sampling)來過濾掉「太容易」或「完全不會」的無效樣本,提升訓練效率。
- KL 正則化 + 周期性策略重置
與一些去 KL 正則的做法相反,本論文發現適度 KL 懲罰是穩定訓練的關鍵。同時引入參考策略重置機制:當 KL 驟增或性能下滑時,重置參考策略為當前模型副本,并重置優化器,讓訓練「重啟」。這個簡單機制有效打破訓練停滯,使模型持續進化。
基于 ProRL 技術,團隊訓練出 Nemotron-Research-Reasoning-Qwen-1.5B,展現出驚人的性能優勢:
- 在數學任務中提升 14.7%,趕超 7B 模型
- 在代碼生成上領先 DeepCoder-1.5B 達 6.5%
- 在邏輯推理方面,準確率提升高達 54.8%
ProRL 真的能夠拓寬模型能力邊界
近來,對于 RL 是否能夠拓寬模型的能力邊界一直有爭議。作者在文章中著重分析了 RL 是否能夠拓寬能力邊界的問題,并且發現,長期穩定的 RL 能夠帶來模型能力的真正提升。圍繞著這個主題,文章主要揭示了三個方面的發現:
- RL 模型能解出 base model 無論如何采樣都完全答不出的題,甚至做到 pass@k 100%。這不是隨機波動,而是新能力的誕生。
- 強化學習帶來的提升與基礎模型的初始表現之間呈顯著負相關關系。在那些 base model 表現較弱的任務(初始 pass@k 較低),RL 展現出極強的「推理邊界擴展」能力。
- 而在本身已經很強的領域,如數學和代碼(這些任務的「創造力指數」較低),ProRL 的邊界擴展則較為有限。對于圖中「Diminished Area」中提升較小的任務,作者觀察到一個共同特征:這些任務在預訓練數據中已被充分覆蓋,缺乏進一步擴展的空間,因此 RL 提供的增益有限。
- 模型不僅「答對」,還「想得新」。作者使用 Creativity Index 對模型生成的解題路徑進行量化評估,發現:訓練步數越長,模型「跳出預訓練語料」的能力越強。解題方式不再拘泥于模板套路,而是展現出更豐富、更具創造性的推理策略。
總結
這項來自 NVIDIA 的研究,讓我們重新認識了 RL 的真正潛力——不僅能優化策略,還能擴展模型的能力邊界。
通過 ProRL,我們第一次看到「小模型」也可以在復雜推理任務中「迎難而上」,甚至跑贏大模型。而這種進步,不靠更多數據、不靠更大模型,只靠更長、更穩、更聰明的訓練流程。
未來,如果你想做出推理能力強、部署成本低、泛化能力強的小語言模型,ProRL 可能正是那把鑰匙。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.