大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

強化學習解決長上下文推理問題:通義推出QwenLong-L1-32B

0
分享至



機器之心發布

機器之心編輯部

上下文長度達 13 萬 token,適用于多段文檔綜合分析、金融、法律、科研等復雜領域任務。

近期的推理大模型(LRMs)通過強化學習(RL)展現出強大的推理能力,但這些改進主要體現在短上下文推理任務中。相比之下,如何通過強化學習擴展 LRMs 以有效處理和推理長上下文輸入,仍然是一個尚未解決的關鍵挑戰。

來自阿里巴巴通義實驗室的團隊首先形式化定義長上下文推理強化學習范式,并識別出其中的兩個核心挑戰:次優的訓練效率與不穩定的優化過程



針對這些問題,團隊提出QwenLong-L1長上下文推理強化學習框架,通過漸進式上下文擴展策略逐步提升模型在長上下文推理任務上的表現,最終在多個長文檔問答 benchmarks 上,QwenLong-L1-32B 表現卓越,不僅超越 OpenAI-o3-miniQwen3-235B-A22B等旗艦模型,更與 Claude-3.7-Sonnet-Thinking 性能對標



主要貢獻



1. 定義長上下文推理強化學習范式

區別于短上下文推理強化學習促進模型利用內部知識推理,長上下文推理強化學習需要模型首先定位外部關鍵信息然后整合內部推理

2. 識別長上下文推理強化學習關鍵問題

長上下文推理強化學習訓練效率低,具體表現在(a)獎勵收斂較慢,(b)模型輸出熵的顯著降低,限制了優化過程中的探索行為。同時,長上下文推理強化學習訓練不穩定,具體表現為(c)KL 散度突刺較多,這是由于(d)較長的輸出長度和不均勻的輸入長度導致方差變大,導致策略更新不穩定。

3. 構建 QwenLong-L1 長上下文推理強化學習框架

基于漸進式上下文擴展技術混合獎勵機制,QwenLong-L1 通過強化學習實現了從短文本到長文本的穩定上下文適應。

4. 開源 QwenLong-L1-32B 長上下文文檔推理大模型

與前沿長上下文推理大模型相比,QwenLong-L1-32B 實現了顯著的性能提升,相較于 DeepSeek-R1-Distill-Qwen-32B 平均提升7.8%,不僅超越OpenAI-o3-miniQwen3-235B-A22B等旗艦模型,更與 Claude-3.7-Sonnet-Thinking 性能對標,為長文本推理優化提供了基礎性技術方案,

核心技術

基于傳統的短上下文推理強化學習框架,QwenLong-L1 主要提出如下改進:漸進式上下文擴展技術和混合獎勵機制。



漸進式上下文擴展技術

訓練長上下文推理大模型存在不穩定的優化動態特性。為解決這些問題,我們提出了一種漸進式上下文擴展框架,該框架包含:課程引導的分階段強化學習策略以穩定從短到長上下文的優化過程;難度感知的回顧采樣機制,優先探索復雜實例;以及穩定的監督微調預熱階段,在強化學習訓練前提供穩健的初始化基礎。

穩健的監督微調預熱:使用蒸餾的長上下文推理數據在強化學習前監督微調模型,獲取穩定的初始策略,降低訓練過程中的不穩定。

課程引導的分階段強化學習:將強化學習訓練分為兩階段,階段 I 輸入長度 20K,階段 II 擴展至 60K,逐步適應長上下文。每階段僅訓練當前長度區間的樣本,避免混合長度導致的優化沖突。



難度感知的回顧采樣:根據樣本平均獎勵動態計算難度,低獎勵樣本(高難度)被優先保留至后續階段。階段 II 訓練時,包含階段 I 的高難度樣本,強制模型持續探索復雜案例。



混合獎勵機制

在數學、編程和邏輯推理等短上下文推理任務中,先前的研究工作通常采用基于規則的獎勵函數。然而,開放域問答等長上下文推理任務因其固有的答案多樣性帶來了獨特挑戰。在這種情境下,限制性過強的基于規則的獎勵機制可能會制約有效答案的多樣性,從而可能影響整體性能。針對這些局限性,我們提出一種融合規則驗證模型評判的混合獎勵機制,通過互補性評估實現精確率與召回率的平衡。

規則獎勵:通過正則表達式從模型輸出中提取答案,與標準答案嚴格匹配。確保答案格式正確性,防止 Reward Hacking。



模型評判:訓練過程采用 Qwen2.5-1.5B-Instruct 作為輕量級評判模型,評估預測答案和標準答案之間語義等價性。



組合策略:最終獎勵取規則與模型評判的最大值,兼顧精確性與答案多樣性。

實驗發現

主實驗結果



相較于 SFT,RL 性能提升顯著:僅需 1.6K 高質量樣本在 R1-Distill-Qwen 模型上 RL 后提升明顯,14B 模型平均提升 4.1,32B 模型平均提升 5.1。

在國內外旗艦推理模型中處于領先地位:

  • QwenLong-L1-14B 模型平均 Pass@1 達到 68.3,超越 Gemini-2.0-Flash-Thinking, R1-Distill-Qwen-32B, Qwen3-32B
  • QwenLong-L1-32B 模型平均 Pass@1 達到 70.7,超越 QwQ-Plus, Qwen3-Plus, OpenAI-o3-mini, 與 Claude-3.7-Sonnet-Thinking 持平



Test-Time Scaling 性能明顯:QwenLong-L1-14B 模型平均 Pass@2 達到 73.7,超越 DeepSeek-R1 (Pass@1, 72.1), OpenAI-o1-preview (Pass@1, 72.9)

SFT 與 RL 的權衡



探究不同起點模型 RL 后的結果:Base Model, Short-Context SFT Model (<=20K), Long-Context SFT Model (<=60K)。

有趣發現:

  • SFT 和 RL 發揮著互補作用,SFT 較低代價到可接受性能,而 RL 對達到最佳結果至關重要;
  • 要實現最優性能,必須優先考慮 RL 而不是 SFT,因為過度關注 SFT 可能使模型陷入局部最優,從而限制 RL 提升;

長上下文推理行為的涌現和變化



探索訓練過程中推理模式的動態變化:包括長上下文推理相關的 Grounding 和通用推理相關的 Backtracking, Verification, Subgoal Setting 等推理模式。

有趣發現:

  • 所有模型都表現出明顯的各類推理模式,且長上下文相關的 Grounding 出現頻率最高
  • RL 自然地使這些推理模式出現頻率越來越高,最終性能也會隨之增長
  • SFT 盡管讓推理模式取得了遠高于 RL 的增加,但轉換成的性能提高相較于 RL 有限

結論

這項研究通過強化學習探索了長上下文推理大模型的開發。其首先提出長上下文推理強化學習范式,并發現次優的訓練效率和不穩定的優化過程等關鍵問題。

為應對這些挑戰,研究團隊推出 QwenLong-L1,一個漸進式上下文擴展強化學習框架。實驗結果表明 QwenLong-L1 在業界領先的長上下文推理大模型中表現優異。其中,QwenLong-L1-14B 性能超越 Gemini-2.0-Flash-Thinking 和 Qwen3-32B,而 QwenLong-L1-32B 超越 OpenAI-o3-mini、Qwen3-235B-A22B,甚至與 Claude-3.7-Sonnet-Thinking 達到同等水平。

我們的分析揭示了長上下文推理強化學習的三項關鍵洞察:漸進式上下文擴展對實現穩定適應的重要作用、優先強化學習對最優性能的必要性,以及強化學習訓練過程中長文本推理模式的增加對性能提升的促進作用。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蘇林醒了,卻不是因為美國,而是烏克蘭的下場

蘇林醒了,卻不是因為美國,而是烏克蘭的下場

科技虎虎
2025-06-11 11:31:35
高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
以色列開始斬首伊朗最高領袖,伊朗稱擊落3架F35

以色列開始斬首伊朗最高領袖,伊朗稱擊落3架F35

史政先鋒
2025-06-14 12:44:59
這次破案了,以色列斬首六大核科學家:伊朗終于知道是誰出賣情報

這次破案了,以色列斬首六大核科學家:伊朗終于知道是誰出賣情報

帥先工場
2025-06-14 20:40:00
印度男子攢錢6年帶上妻兒4人飛往倫敦定居,客機起飛幾分鐘后墜毀在地

印度男子攢錢6年帶上妻兒4人飛往倫敦定居,客機起飛幾分鐘后墜毀在地

可達鴨面面觀
2025-06-13 08:57:43
菲律賓和廣東同為1億多人口,菲律賓創造3.3萬億,廣東是多少?

菲律賓和廣東同為1億多人口,菲律賓創造3.3萬億,廣東是多少?

快看張同學
2025-06-13 12:40:02
上影節紅毯:倪妮眾星捧月,章子怡低調楊冪優雅,劉德華散發魅力

上影節紅毯:倪妮眾星捧月,章子怡低調楊冪優雅,劉德華散發魅力

巴塞電影
2025-06-14 20:59:24
美國:兩場“大戲”即將同時上場!

美國:兩場“大戲”即將同時上場!

參考消息
2025-06-14 21:59:11
中共中央批準:陳杰同志任上海市委常委

中共中央批準:陳杰同志任上海市委常委

新民晚報
2025-06-13 22:22:54
前田浩二:1-2的比分是無法接受的,對方很難打穿我們的防守

前田浩二:1-2的比分是無法接受的,對方很難打穿我們的防守

懂球帝
2025-06-15 00:34:43
上海證券交易所:2023年僅3.2%人口直持,0.34%持百萬以上

上海證券交易所:2023年僅3.2%人口直持,0.34%持百萬以上

和訊網
2025-06-14 18:25:29
鬧掰阿斯:巴薩想簽離奇離隊的16歲小將 波爾圖威脅全面斷交

鬧掰阿斯:巴薩想簽離奇離隊的16歲小將 波爾圖威脅全面斷交

直播吧
2025-06-14 13:57:21
特權高墻下的冷漠:解析伊朗民眾對高層遇刺的沉默邏輯

特權高墻下的冷漠:解析伊朗民眾對高層遇刺的沉默邏輯

步論天下事
2025-06-14 20:17:14
速看!股市突傳大事件:致歐美股市下跌!下周A股行情預測

速看!股市突傳大事件:致歐美股市下跌!下周A股行情預測

虎哥閑聊
2025-06-14 12:35:56
鄭欽文無緣決賽!好消息:世界排名首進TOP4

鄭欽文無緣決賽!好消息:世界排名首進TOP4

湖報體育
2025-06-15 00:44:28
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
中國最先倒下的13家電器公司,都曾是家喻戶曉的著名企業

中國最先倒下的13家電器公司,都曾是家喻戶曉的著名企業

小蜜情感說
2025-06-05 09:27:01
瑞典決定打擊俄影子艦隊,韃靼斯坦抗議征兵,吉爾吉斯斯坦拆雕像

瑞典決定打擊俄影子艦隊,韃靼斯坦抗議征兵,吉爾吉斯斯坦拆雕像

桑未落
2025-06-09 12:26:18
這次,高調官宣新戀情的梁洛施,終究沒給涼薄的李澤楷留一絲體面

這次,高調官宣新戀情的梁洛施,終究沒給涼薄的李澤楷留一絲體面

山河月明史
2025-06-13 17:22:30
楊穎被經紀人當街訓罵照曝光!自費租房面試找工作,吃地攤無人識

楊穎被經紀人當街訓罵照曝光!自費租房面試找工作,吃地攤無人識

史書無明
2025-05-28 21:51:52
2025-06-15 02:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
親子
游戲
時尚
軍事航空

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

親子要聞

給18個月幼兒灌酒,無論出于什么心態都不該寬恕|新京報快評

死掉的“賽博初戀”,有誰能夠打贏復活賽?

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 免费人成网站在线视频| 亚洲熟妇真实自拍另类| 国产在线精品成人一区二区三区| 大屁股熟女一区二区三区| 一区二区免费视频中文乱码| 影视先锋av资源噜噜| 日本真人边吃奶边做爽电影| 日本精品人妻无码77777| 99久热re在线精品99re8热视频| 亚洲制服丝袜av一区二区三区| 性色av无码中文av有码vr| 国产精品香蕉成人网在线观看| 人人玩人人添人人澡超碰| 色欲天天婬色婬香综合网| 痉挛高潮喷水av无码免费| 夜夜高潮夜夜爽夜夜爱爱| 女女互揉吃奶揉到高潮视频| 久久久欧美精品激情| 一本久道综合色婷婷五月| 欧美精品久久久久久久自慰| 99re66在线观看精品免费| 摸进她的内裤里疯狂揉她动图视频| 94久久国产乱子伦精品免费| 天天碰免费上传视频| 无码色av一二区在线播放| www成人国产高清内射| 成人av鲁丝片一区二区免费| 国色天香社区在线视频| 日韩av中文无码影院| 无码aⅴ在线观看| 狠狠色狠狠色狠狠五月| 美女又色又爽视频免费| 国产亚洲精品成人aa片| 欧美黑人性暴力猛交高清| 免费ā片在线观看| 免费的国产成人av网站装睡的| 中文字幕人妻色偷偷久久| 特黄特色大片免费播放器图片| 乱人伦xxxx国语对白| 国产精品成人免费999| 伊人激情av一区二区三区|