大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

8卡32B模型超越o1預覽版、DeepSeek V3等提出層次化RL推理新范式

0
分享至



AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

一.引言

推理大語言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通過模擬人類推理過程,在多個專業領域已超越人類專家,并通過延長推理時間提高準確性。推理模型的核心技術包括強化學習(Reinforcement Learning)和推理規模(Inference scaling)。

主流的大模型強化學習算法,如 DPO、PPO、GRPO 等,通常需要在完整的思維鏈上進行微調,需要高質量數據、精確的獎勵函數、快速反饋和在線迭代、以及大量的算力。當處理復雜任務,如高級數學和編程問題時,模型需要更細粒度的搜索、更精確的推理步驟和更長的思維鏈,導致狀態空間和策略空間的規模急劇擴大,難度大幅上升。

Inference scaling 策略,不依賴訓練,通過延長推理時間進一步提高模型的 Reasoning 能力。常見方法,如 Best-of-N 或者蒙特卡洛樹搜索(MCTS),允許 LLM 同時探索多條推理路徑,擴大搜索空間,朝著更有希望的方向前進。這些方法計算成本高,特別是步驟多或搜索空間大的時候。采樣隨機性使得確定最佳路徑困難,且依賴手動設計的搜索策略和獎勵函數,限制了泛化能力。

在此背景下,普林斯頓大學團隊聯合北京大學團隊合作開發了名為 ReasonFlux 的多層次(Hierarchical)LLM 推理框架。



  • 文章鏈接:https://arxiv.org/abs/2502.06772
  • 開源地址:https://github.com/Gen-Verse/ReasonFlux

(該論文作者特別聲明:本工作沒有蒸餾或用任何方式使用 DeepSeek R1。)

基于層次化強化學習(Hierachical Reinforcement Learning)思想,ReasonFlux 提出了一種更高效且通用的大模型推理范式,它具有以下特點:

  • 思維模版:ReasonFlux 的核心在于結構化的思維模板,每個模版抽象了一個數學知識點和解題技巧。僅用 500 個通用的思維模板庫,就可解決各類數學難題。
  • 層次化推理和強可解釋性:ReasonFlux 利用層次化推理(Hierarchical Reasoning)將思維模板組合成思維軌跡(Thought Template Trajectory)、再實例化得到完整回答。模型的推理過程不再是 “黑盒”,而是清晰的展現了推理步驟和依據,這為 LLM 的可解釋性研究提供了新的工具和視角,也為模型的調試和優化提供了便利。與 DeepSeek-R1 和 OpenAI-o1 等模型的推理方式不同,ReasonFlux 大大壓縮并凝練了推理的搜索空間,提高了強化學習的泛化能力,提高了 inference scaling 的效率。
  • 輕量級系統:ReasonFlux 僅 32B 參數,強化訓練只用了 8 塊 NVIDIA A100-PCIE-80GB GPU。它能通過自動擴展思維模板來提升推理能力,更高效靈活。



ReasonFlux-32B 在多個數學推理基準測試中表現出色,僅僅用了 500 個基于不同數學知識點的思維模版,就展現了其強大的推理能力和躋身第一梯隊的實力。

二.ReasonFlux:

三大關鍵技術構建大模型推理新框架

ReasonFlux 的性能提升得益于其三大核心技術:

  1. 結構化的思維模板抽取:ReasonFlux 利用大語言模型從以往的數學問題中提取了一個包含大約 500 個結構化思維模板的知識庫。每個模板都包含標簽、描述、適用范圍、應用步驟等信息,這些信息經過組織和結構化處理,為 LLM 的推理提供了元知識參考。這些模板覆蓋了多種數學問題類型和解題方法,如不等式求解、三角函數變換、極值定理等,是 ReasonFlux 進行推理的基礎。
  2. 多層次強化學習(Hierarchical RL)選擇最優的 Thought Template Trajectory:該算法通過 Hierarchical Reinforcement Learning 訓練一個 High-level 的 navigator,使其能夠對輸入問題進行拆解,轉而求解多個更簡單的子問題,根據子問題類型從模板庫中檢索相關的思維模板,并規劃出最優的 Thought Template Trajectory。它可以看作是解決問題的 “路線圖”,它由一系列的模板組合而成。這種基于 Hierarchical RL 的優化算法通過獎勵在相似問題上的泛化能力,提升了推理軌跡的魯棒性和有效性,使得 ReasonFlux 能夠舉一反三,為各種數學問題生成有效的思維模板軌跡。
  3. 新型 Inference Scaling 系統:該系統實現了結構化模板庫和 inference LLM 之間的多輪交互。“Navigator” 負責規劃模板軌跡和檢索模板,inference LLM 負責將模板實例化為具體的推理步驟,并通過分析中間結果來動態調整軌跡,實現高效的推理過程。這種交互機制使得 ReasonFlux 能夠根據問題的具體情況靈活調整推理策略,從而提高推理的準確性和效率。

(a)推理示例對比:

接下來我們來分析 ReasonFlux 在解決實際問題上相較于 o1-mini 的對比。

我們來看和 o1-mini 的對比



如上圖可知,o1-mini 在面對這道難題時,嘗試了多種策略,但均未能找到有效的突破口。它首先試圖通過引入新變量和利用對稱性來簡化方程組,但收效甚微;接著又嘗試假設變量相等來尋找特解,結果卻得出了矛盾;隨后,它試圖用一個變量表示其他變量,并嘗試平方去根號,但復雜的表達式使其望而卻步;最后,它甚至想到了三角換元,但由于未能正確應用,最終只能無奈地放棄求解。

相比之下,ReasonFlux 的解題過程如下:

  1. 分析與規劃:ReasonFlux 首先對題目進行分析,確定了解題的主要步驟:初步確定 k 值的范圍、利用三角換元、化簡方程組、求解 θ、計算目標值。這一步反映了 ReasonFlux 的問題分析和規劃能力,為后續解題過程提供了基礎。
  2. 模板化推理:ReasonFlux 隨后依次應用了 “三角換元”、“化簡方程組”、“求解 θ” 等模板,將復雜的方程組逐步簡化,并最終求解出 θ 的值。每一步都依據模板的指導,旨在保證解題過程的準確性。
  3. 逐步推導:ReasonFlux 根據求得的角度值,計算出 (x, y, z) 的值,并最終計算出目標值,從而得到 (m=1, n=32, m+n=33)。整個過程邏輯清晰,步驟明確,展示了 ReasonFlux 的規劃和推理能力。



(b) 新的 inference scaling law:



如上圖所示,隨著問題復雜度的增加,ReasonFlux 正確解答問題時所需的模板數量和交互輪數也相應增加。這表明 ReasonFlux 能夠根據問題的難度動態調整推理策略,體現了其優秀的自適應能力。并且可以觀察到,交互輪數的增長趨勢略高于模板數量,這意味著規劃能力的提升對解決復雜問題至關重要。

三.主流推理范式對比:

ReasonFlux vs Best-of-N & MCTS

目前,提升 LLM 推理性能的主流方法通常依賴于增加模型規模和計算資源。例如,增加模型參數量、采用 Best-of-N 或蒙特卡洛樹搜索 (MCTS) 等方法來擴大搜索空間以尋找更優解。然而,這些方法往往計算成本較高,且模型的推理過程難以解釋。

ReasonFlux 采用了一種不同的方法,通過構建結構化的思維模板庫和設計新的層次化強化學習算法,實現了一種更高效和可解釋的推理方式。

傳統的 Inference Scaling 方法,如 Best-of-N 和 MCTS,主要通過擴大搜索空間來提高準確率。但隨著問題復雜度的增加,搜索空間呈指數級增長,導致計算成本顯著上升。



ReasonFlux 通過引入結構化的思維模板,將搜索空間從 “原始解空間” 縮小到 “模板空間”,從而降低了搜索的難度和成本。如果說傳統的推理范式是 “大海撈針”,那么 ReasonFlux 則是 “按圖索驥”。這些模板并非簡單的規則堆砌,而是經過提煉和結構化處理的知識模板,它們將復雜的推理過程分解為一系列可復用的步驟,從而提升了推理的效率和準確率。



如上圖所示,隨著問題難度的提升,Best-of-N 和 MCTS 的探索成本(例如采樣軌跡數量和迭代次數)顯著增加,而 ReasonFlux 的探索成本(交互輪數)則保持在較低水平且相對穩定。這說明 ReasonFlux 能夠更高效地利用已有的知識模板來解決問題,而不需要像 Best-of-N 和 MCTS 那樣進行大量的試錯和探索。這得益于 ReasonFlux 的結構化模板庫和模板軌跡規劃機制,使其能夠在更小的搜索空間內找到正確的推理路徑。

四.訓練及推理框架介紹

下圖展示了 ReasonFlux 的訓練框架,其核心在于利用結構化的思維模板庫和基于思維模板軌跡獎勵的層次化強化學習算法,訓練出一個能夠進行高效推理的大模型。整個訓練過程可以分為兩個主要階段:結構化知識學習和思維模板軌跡優化。



1.結構化知識學習階段:這個階段的目標是讓模型學習思維模板庫中蘊含的結構化知識。這些結構化的 Thought template 格式如下圖所示:





通過這兩個階段的訓練,ReasonFlux 模型不僅學習到了結構化的模板知識,還學會了如何針對特定問題選擇和組合模板,形成有效的推理路徑。這種能力使得 ReasonFlux 能夠高效地解決各種復雜的數學推理問題。

下圖是 ReasonFlux 的推理框架。其核心在于 navigator、inference LLM 和結構化模板庫之間的多輪交互。這種交互機制使得 ReasonFlux 能夠根據問題的具體情況靈活調整推理策略,從而提高推理的準確性和效率。





五.數學推理數據集上的表現:

小模型媲美大模型,展現未來應用潛力

ReasonFlux 在 MATH、AIME 2024、AMC 2023、OlympiadBench 和 Gaokao En 2023 等多個具有挑戰性的數學推理數據集上進行了測試,并取得了良好的結果。

ReasonFlux-32B 在這些數據集上的表現處于前列,與其他先進模型相比具有競爭力。如下表所示,在 MATH 數據集上,ReasonFlux-32B 的準確率為 91.2%;在 AIME 2024 數據集上,ReasonFlux-32B 的準確率為 56.7%。這些結果表明 ReasonFlux 框架具有有效性。更重要的是,它表明較小規模的模型通過優化推理框架,可以達到甚至在某些情況下超越較大模型的性能。

ReasonFlux 還可用于不同大小(1.5B, 7B 和 32B)的基礎模型,并且都能獲得巨幅的推理效果提升,足見其通用性和泛化性。



ReasonFlux 的成功不僅限于數學推理領域,其背后的核心思想 —— 結構化思維模板和模板軌跡 —— 具有廣泛的應用潛力。未來,ReasonFlux 有潛力被應用于更多領域,如代碼生成,醫療診斷,具身智能等多個領域。

六.作者介紹

楊靈:北大在讀博士,普林斯頓高級研究助理,研究領域為大語言模型和擴散模型。

余昭辰:新加坡國立大學在讀碩士,北京大學 PKU-DAIR 實驗室科研助理,研究領域為大語言模型和擴散模型。

崔斌教授:崔斌現為北京大學計算機學院博雅特聘教授、博士生導師,擔任計算機學院副院長、數據科學與工程研究所所長。他的研究方向包括數據庫系統、大數據管理與分析、機器學習 / 深度學習系統等。

王夢迪教授:王夢迪現任普林斯頓大學電子與計算機工程系終身教授,并創立并擔任普林斯頓大學 “AI for Accelerated Invention” 中心的首任主任。她的研究領域涵蓋強化學習、可控大模型、優化學習理論以及 AI for Science 等多個方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
49歲馬伊琍真實狀態曝光,跟普通人沒啥區別,真沒啥特別的!

49歲馬伊琍真實狀態曝光,跟普通人沒啥區別,真沒啥特別的!

草莓解說體育
2025-06-10 00:54:17
邱毅,早勸你回頭不聽勸,如今回頭已無路

邱毅,早勸你回頭不聽勸,如今回頭已無路

呼呼歷史論
2025-05-29 00:32:19
6月14日俄烏:美反對G7降低俄石油上限,俄軍戰機擊落自家飛機

6月14日俄烏:美反對G7降低俄石油上限,俄軍戰機擊落自家飛機

山河路口
2025-06-14 18:19:12
世俱杯前瞻|拜仁5-0奧克蘭城:拜仁奪冠大熱,中國球員獨苗亮相

世俱杯前瞻|拜仁5-0奧克蘭城:拜仁奪冠大熱,中國球員獨苗亮相

體育世界
2025-06-15 09:47:31
誰能抱住新“藥王” 司美格魯肽的 “金大腿”?

誰能抱住新“藥王” 司美格魯肽的 “金大腿”?

財經早餐
2025-06-14 06:43:07
果然有問題!黃楊鈿甜父親被立案調查,新華社已通報,后悔也晚了

果然有問題!黃楊鈿甜父親被立案調查,新華社已通報,后悔也晚了

素衣讀史
2025-05-23 15:45:00
48歲男子遭裁員獲70萬補償,當天刪光同事微信,隔天領導急打電話

48歲男子遭裁員獲70萬補償,當天刪光同事微信,隔天領導急打電話

蘭姐說故事
2025-06-12 10:00:09
單打4強全部出爐!國乒3人晉級,日本全軍覆沒,產生2個意想不到

單打4強全部出爐!國乒3人晉級,日本全軍覆沒,產生2個意想不到

知軒體育
2025-06-14 22:13:34
鄭欽文1-2出局,無緣倫敦站決賽!仍獲56萬獎金,輸球原因揭曉

鄭欽文1-2出局,無緣倫敦站決賽!仍獲56萬獎金,輸球原因揭曉

小火箭愛體育
2025-06-15 01:09:17
省委書記當“首席推薦人”后 云南出臺旅居發展正負面清單:支持打造旅居村 不得強迫農民“出村”

省委書記當“首席推薦人”后 云南出臺旅居發展正負面清單:支持打造旅居村 不得強迫農民“出村”

紅星新聞
2025-06-14 16:49:09
阿曼外交大臣:原定15日舉行的伊美談判取消

阿曼外交大臣:原定15日舉行的伊美談判取消

上觀新聞
2025-06-15 07:08:10
以色列官員:如果對伊朗的襲擊成功,在10天里對真主黨高級官員所做的,就相當于10分鐘內對伊朗所做的

以色列官員:如果對伊朗的襲擊成功,在10天里對真主黨高級官員所做的,就相當于10分鐘內對伊朗所做的

和訊網
2025-06-13 10:04:30
澤連斯基躲進地堡,6月13日,俄羅斯斬首行動傳來新消息

澤連斯基躲進地堡,6月13日,俄羅斯斬首行動傳來新消息

文雅筆墨
2025-06-15 04:33:33
我國最大燃機完成吊裝 計劃2025年底投產

我國最大燃機完成吊裝 計劃2025年底投產

財聯社
2025-06-14 17:31:08
F-35被伊朗擊落!女飛行員跳傘后被活捉,以色列淪為第二個印度

F-35被伊朗擊落!女飛行員跳傘后被活捉,以色列淪為第二個印度

大道無形我有型
2025-06-14 11:30:28
器官移植的前提條件是公開器官來源的身份,這是基本的道德底線!

器官移植的前提條件是公開器官來源的身份,這是基本的道德底線!

逍遙論經
2025-06-08 09:30:22
莫雷加德談多哈不敵王楚欽:這是我迄今為止打得最好的一場

莫雷加德談多哈不敵王楚欽:這是我迄今為止打得最好的一場

懂球帝
2025-06-15 01:45:51
自行車價格雪崩,萬元豪車變衣架?

自行車價格雪崩,萬元豪車變衣架?

快刀財經
2025-06-14 22:12:56
30歲TVB歌手獲億萬富貴老婆跪拜似足皇帝,住3千呎獨立屋極威水

30歲TVB歌手獲億萬富貴老婆跪拜似足皇帝,住3千呎獨立屋極威水

粵睇先生
2025-06-14 13:43:29
打入關鍵進球!15歲中國小將弗朗西斯科-王隨本菲卡獲U15聯賽冠軍

打入關鍵進球!15歲中國小將弗朗西斯科-王隨本菲卡獲U15聯賽冠軍

直播吧
2025-06-14 14:42:39
2025-06-15 10:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
健康
時尚
手機
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

呼吸科專家破解呼吸道九大謠言!

夏天最值得入手的6件單品,全在這了

手機要聞

蘋果Liquid Glass UI影響文字可讀性并提高設計界面難度引發質疑

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久久久久久波多野结衣高潮| 日本午夜免费福利视频| 狠狠色色综合网站| 亚洲精品97久久中文字幕无码| 亚洲av无码乱码在线观看裸奔| 99热在线精品国产观看| 国产成人av一区二区三区在线观看| 无码熟熟妇丰满人妻啪啪| 19禁无遮挡啪啪无码网站性色| 国内熟女啪啪自拍| 亚洲综合精品伊人久久| 亚洲成aⅴ人片在线观看无app| 狠狠色综合网丁香五月| а√8天堂中文官网资源| 亚洲精品无码乱码成人| 精品无码av一区二区三区不卡| 亚洲精品蜜桃久久久久久| 国产av无码国产av毛片| 国产成人亚洲综合色影视| 久久婷婷五月综合色一区二区| 亚洲午夜成人精品无码色欲| 狠狠色噜噜狠狠狠狠777米奇| av无码天堂一区二区三区| 亚洲第一页综合图片自拍| 一本无码字幕在线少妇| 亚洲成在人线av| 女人和拘做爰正片视频| 亚洲制服丝袜精品久久| 新香蕉少妇视频网站| 少妇无码av无码去区钱| 视频区 国产 图片区 小说区| 日本久久久www成人免费毛片丨| 欧美视频二区欧美影视| 无码大潮喷水在线观看| 国产亚洲精品久久久久久牛牛| 亚洲欧美综合一区二区三区| 无码毛片视频一区二区本码| 亚洲成aⅴ人片精品久久久久久| 欧美艳星nikki激情办公室| 国产色精品久久人妻| 国产女主播喷水视频在线观看|