機器之心發布
機器之心編輯部
上下文長度達 13 萬 token,適用于多段文檔綜合分析、金融、法律、科研等復雜領域任務。
近期的推理大模型(LRMs)通過強化學習(RL)展現出強大的推理能力,但這些改進主要體現在短上下文推理任務中。相比之下,如何通過強化學習擴展 LRMs 以有效處理和推理長上下文輸入,仍然是一個尚未解決的關鍵挑戰。
來自阿里巴巴通義實驗室的團隊首先形式化定義長上下文推理強化學習范式,并識別出其中的兩個核心挑戰:次優的訓練效率與不穩定的優化過程
針對這些問題,團隊提出QwenLong-L1長上下文推理強化學習框架,通過漸進式上下文擴展策略逐步提升模型在長上下文推理任務上的表現,最終在多個長文檔問答 benchmarks 上,QwenLong-L1-32B 表現卓越,不僅超越 OpenAI-o3-miniQwen3-235B-A22B等旗艦模型,更與 Claude-3.7-Sonnet-Thinking 性能對標
主要貢獻
1. 定義長上下文推理強化學習范式
區別于短上下文推理強化學習促進模型利用內部知識推理,長上下文推理強化學習需要模型首先定位外部關鍵信息然后整合內部推理
2. 識別長上下文推理強化學習關鍵問題
長上下文推理強化學習訓練效率低,具體表現在(a)獎勵收斂較慢,(b)模型輸出熵的顯著降低,限制了優化過程中的探索行為。同時,長上下文推理強化學習訓練不穩定,具體表現為(c)KL 散度突刺較多,這是由于(d)較長的輸出長度和不均勻的輸入長度導致方差變大,導致策略更新不穩定。
3. 構建 QwenLong-L1 長上下文推理強化學習框架
基于漸進式上下文擴展技術混合獎勵機制,QwenLong-L1 通過強化學習實現了從短文本到長文本的穩定上下文適應。
4. 開源 QwenLong-L1-32B 長上下文文檔推理大模型
與前沿長上下文推理大模型相比,QwenLong-L1-32B 實現了顯著的性能提升,相較于 DeepSeek-R1-Distill-Qwen-32B 平均提升7.8%,不僅超越OpenAI-o3-miniQwen3-235B-A22B等旗艦模型,更與 Claude-3.7-Sonnet-Thinking 性能對標,為長文本推理優化提供了基礎性技術方案,
核心技術
基于傳統的短上下文推理強化學習框架,QwenLong-L1 主要提出如下改進:漸進式上下文擴展技術和混合獎勵機制。
漸進式上下文擴展技術
訓練長上下文推理大模型存在不穩定的優化動態特性。為解決這些問題,我們提出了一種漸進式上下文擴展框架,該框架包含:課程引導的分階段強化學習策略以穩定從短到長上下文的優化過程;難度感知的回顧采樣機制,優先探索復雜實例;以及穩定的監督微調預熱階段,在強化學習訓練前提供穩健的初始化基礎。
穩健的監督微調預熱:使用蒸餾的長上下文推理數據在強化學習前監督微調模型,獲取穩定的初始策略,降低訓練過程中的不穩定。
課程引導的分階段強化學習:將強化學習訓練分為兩階段,階段 I 輸入長度 20K,階段 II 擴展至 60K,逐步適應長上下文。每階段僅訓練當前長度區間的樣本,避免混合長度導致的優化沖突。
難度感知的回顧采樣:根據樣本平均獎勵動態計算難度,低獎勵樣本(高難度)被優先保留至后續階段。階段 II 訓練時,包含階段 I 的高難度樣本,強制模型持續探索復雜案例。
混合獎勵機制
在數學、編程和邏輯推理等短上下文推理任務中,先前的研究工作通常采用基于規則的獎勵函數。然而,開放域問答等長上下文推理任務因其固有的答案多樣性帶來了獨特挑戰。在這種情境下,限制性過強的基于規則的獎勵機制可能會制約有效答案的多樣性,從而可能影響整體性能。針對這些局限性,我們提出一種融合規則驗證模型評判的混合獎勵機制,通過互補性評估實現精確率與召回率的平衡。
規則獎勵:通過正則表達式從模型輸出中提取答案,與標準答案嚴格匹配。確保答案格式正確性,防止 Reward Hacking。
模型評判:訓練過程采用 Qwen2.5-1.5B-Instruct 作為輕量級評判模型,評估預測答案和標準答案之間語義等價性。
組合策略:最終獎勵取規則與模型評判的最大值,兼顧精確性與答案多樣性。
實驗發現
主實驗結果
相較于 SFT,RL 性能提升顯著:僅需 1.6K 高質量樣本在 R1-Distill-Qwen 模型上 RL 后提升明顯,14B 模型平均提升 4.1,32B 模型平均提升 5.1。
在國內外旗艦推理模型中處于領先地位:
- QwenLong-L1-14B 模型平均 Pass@1 達到 68.3,超越 Gemini-2.0-Flash-Thinking, R1-Distill-Qwen-32B, Qwen3-32B
- QwenLong-L1-32B 模型平均 Pass@1 達到 70.7,超越 QwQ-Plus, Qwen3-Plus, OpenAI-o3-mini, 與 Claude-3.7-Sonnet-Thinking 持平
Test-Time Scaling 性能明顯:QwenLong-L1-14B 模型平均 Pass@2 達到 73.7,超越 DeepSeek-R1 (Pass@1, 72.1), OpenAI-o1-preview (Pass@1, 72.9)
SFT 與 RL 的權衡
探究不同起點模型 RL 后的結果:Base Model, Short-Context SFT Model (<=20K), Long-Context SFT Model (<=60K)。
有趣發現:
- SFT 和 RL 發揮著互補作用,SFT 較低代價到可接受性能,而 RL 對達到最佳結果至關重要;
- 要實現最優性能,必須優先考慮 RL 而不是 SFT,因為過度關注 SFT 可能使模型陷入局部最優,從而限制 RL 提升;
長上下文推理行為的涌現和變化
探索訓練過程中推理模式的動態變化:包括長上下文推理相關的 Grounding 和通用推理相關的 Backtracking, Verification, Subgoal Setting 等推理模式。
有趣發現:
- 所有模型都表現出明顯的各類推理模式,且長上下文相關的 Grounding 出現頻率最高
- RL 自然地使這些推理模式出現頻率越來越高,最終性能也會隨之增長
- SFT 盡管讓推理模式取得了遠高于 RL 的增加,但轉換成的性能提高相較于 RL 有限
結論
這項研究通過強化學習探索了長上下文推理大模型的開發。其首先提出長上下文推理強化學習范式,并發現次優的訓練效率和不穩定的優化過程等關鍵問題。
為應對這些挑戰,研究團隊推出 QwenLong-L1,一個漸進式上下文擴展強化學習框架。實驗結果表明 QwenLong-L1 在業界領先的長上下文推理大模型中表現優異。其中,QwenLong-L1-14B 性能超越 Gemini-2.0-Flash-Thinking 和 Qwen3-32B,而 QwenLong-L1-32B 超越 OpenAI-o3-mini、Qwen3-235B-A22B,甚至與 Claude-3.7-Sonnet-Thinking 達到同等水平。
我們的分析揭示了長上下文推理強化學習的三項關鍵洞察:漸進式上下文擴展對實現穩定適應的重要作用、優先強化學習對最優性能的必要性,以及強化學習訓練過程中長文本推理模式的增加對性能提升的促進作用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.