大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

UCB提出無需外部獎勵的強化學習方法,只靠自信就能學習復雜推理

0
分享至

最近幾個月來,可驗證獎勵強化學習(RLVR,Reinforcement Learning with Verifiable Rewards)愈發受到學界關注。相比起傳統的基于人類反饋的強化學習(RLHF,Reinforcement Learning from Human Feedback,)帶來的高昂成本和人類偏見,RLVR 通過引入可自動驗證的獎勵信號(如數學問題的標準答案、代碼測試用例的通過情況)在一定程度上降低了對人工標注的依賴,但是,其應用范圍又受限于那些能夠提供清晰、可驗證獎勵的特定領域,因此限制了模型在更廣泛、更開放場景中的應用。

近日,來自美國加州大學伯克利分校(UCB,University of California,Berkeley)的一支研究團隊給這個問題帶來了新的解法,他們提出了一種名為 INTUITOR 的方法,使大模型能夠僅憑其“內在信心”進行學習和推理,無需外部獎勵或真值答案的指引。相關論文以《無需外部獎勵的學習推理》(Learning to Reason without External Rewards)為題發表在預印本網站arXiv上,迅速引發了廣泛關注。


圖丨相關論文(來源:arXiv)



掙脫外部獎勵的枷鎖——RLIF 與 INTUITOR 的誕生

我們知道,盡管 RLHF 在提升模型表現方面卓有成效,但由于它需要大量的人工標注,就導致其成本高昂且可能引入偏見。最近這段時間以來,研究者們轉向了基于可驗證獎勵的強化學習,這種方法在數學問題解決和代碼生成等任務中,使用可自動驗證的信號(如精確答案匹配)作為獎勵。RLVR 避免了學習獎勵模型的復雜性,并在 DeepSeek-R1 等模型上展現了強大的推理能力。

然而,RLVR 同樣也有一定的局限,它需要領域特定的驗證器和“黃金標準”解決方案,例如數學問題需要專家標注答案,代碼生成則需要全面的測試用例和執行環境。這些要求將 RLVR 的應用限制在精心策劃的領域內,并且其以結果為導向的獎勵機制也限制了模型向其他領域的遷移能力。

那么,有沒有可能大模型在沒有外部驗證器或領域特定真值的情況下,僅僅依靠其內在信號來提升推理能力呢?

正是基于這一問題,UCB 的研究團隊提出了“基于內部反饋的強化學習”(RLIF,Reinforcement Learning from Internal Feedback)這一全新框架。RLIF 的核心思想是,模型可以通過優化其自身產生的內在信號來提升性能,而無需依賴外部獎勵或監督信息。這為模型在未來可能發展出超越人類評估能力的場景提供了自洽的改進機制。

在 RLIF 框架下,團隊進一步提出了具體的實現方法——INTUITOR。INTUITOR 巧妙地將模型自身的“信心”(confidence),更準確地說是“自我確定性”(self-certainty),作為唯一的獎勵信號。這一想法源于一個直觀的觀察:無論是人類還是大模型,在面對難題或缺乏相關知識時,通常會表現出較低的信心;反之,當其對某個答案或推理過程更有把握時,信心水平會更高,并且這種高信心往往與正確性相關聯。

那么,如何量化模型的“自我確定性”呢?研究團隊借鑒了他們在 2025 年 2 月發表的另一篇重要工作《通過自我確定性為大型語言模型提供可擴展的 N 次最佳選擇》(Scalable Best-of-N Selection for Large Language Models via Self-Certainty)。在該工作中,他們提出使用模型輸出 Token 的概率分布與均勻分布之間的平均 KL 散度(Kullback-Leibler divergence)來度量自我確定性。


圖丨相關論文(來源:arXiv)

簡單來說,如果模型對其預測的下一個 Token 非常確定(即概率高度集中在少數幾個 Token 上),那么其輸出分布會遠離均勻分布,KL 散度值會較大,代表自我確定性高。這種度量方式被證明在從多個候選答案中挑選高質量答案時非常有效,并且相比于困惑度(perplexity)或熵(entropy)等其他啟發式方法,更不容易受到輸出長度等因素的干擾,也更能隨著候選答案數量的增加而提升其效用。

INTUITOR 將這種自我確定性評分直接作為強化學習過程中的獎勵信號,并結合了現有成熟的強化學習算法,如“組相對策略優化”(Group Relative Policy Optimization, GRPO),來指導模型的策略更新。在 GRPO 算法中,通常需要外部獎勵來評估一組候選輸出的優劣;而在 INTUITOR 中,外部獎勵被完全替換為模型自身計算出的自我確定性分數。通過這種方式,模型被激勵去生成那些能讓自己“更自信”的輸出序列,從而在沒有外部監督的情況下實現學習和推理能力的提升。



“自信”就能學會復雜推理

為了驗證 INTUITOR 的有效性,研究團隊進行了一系列實驗。他們使用 Qwen2.5-1.5B 和 Qwen2.5-3B 作為基礎模型,在 MATH 數據集上進行訓練。實驗結果發現,在領域內的數學基準測試(如 GSM8K 和 MATH500)中,INTUITOR 的表現與使用外部獎勵的 GRPO 相當,甚至在某些情況下(如使用 Qwen2.5-3B 模型),INTUITOR 在 GSM8K 上的準確率達到了 79.2%,略低于 GRPO 的 82.6%,但在 MATH500 上達到了 61.2%,也略低于 GRPO 的 63.6%。


(來源:arXiv)

研究團隊還對比了一種稱為 GRPO-PV 的變體方法,該方法使用多數投票(plurality voting)作為一種弱監督信號,模擬了不依賴真值答案的場景。結果顯示,INTUITOR 的表現與 GRPO-PV 相當,進一步證明了其在無監督環境下的學習能力。

INTUITOR 最大的優勢在于其跨任務泛化能力。當將在 MATH 數據集上訓練的 Qwen2.5-3B 模型應用于代碼生成任務 LiveCodeBench 時,INTUITOR 展現出了高達 65% 的相對性能提升;而在 CRUXEval-O 代碼任務上,INTUITOR 也取得了 76% 的增益,顯著優于僅獲得 44% 增益的 GRPO 方法,后者在代碼生成任務上甚至沒有表現出明顯提升。這或許表明,通過優化內在的自我確定性信號,模型不僅能在訓練領域內取得進步,還能將學到的“元認知”能力遷移到全新的、結構迥異的任務上。


(來源:arXiv)

除了在具體任務上的性能提升,研究還揭示了 INTUITOR 對模型行為的一些深層影響。例如,INTUITOR 能夠顯著提升模型的指令遵循能力,在 AlpacaEval 這類評估指令遵循度的基準上取得了比 GRPO 更好的成績。這意味著模型不僅學會了如何“自信地”解決問題,還學會了如何更好地理解和執行指令。

更有意思的是,研究團隊觀察到,經過 INTUITOR 訓練的模型,即使在沒有明確要求的情況下,也會自發地生成更長的、更具結構化的推理鏈條。例如,在處理 CRUXEval-O 任務時,模型會先進行一番自然語言形式的“自由思考”,然后才將最終答案組織成指令所要求的 JSON 格式。

在代碼生成任務中,也觀察到了類似的“代碼前自然語言推理”現象。這種行為表明,為了提升自身的“確定感”,模型傾向于將復雜問題分解,并進行更詳盡的思考,這恰恰是復雜推理能力的重要體現。此外,INTUITOR 訓練的模型在學習初期就展現出比 GRPO 更快的學習速度,這可能得益于自我確定性這種連續且過程感知的內在獎勵信號,它能引導模型探索更有效的學習軌跡。

另一個重要的發現是,INTUITOR 所采用的在線自我確定性機制(即獎勵信號隨著模型策略的進化而動態調整)能夠有效防止“獎勵利用”(reward hacking)問題。在強化學習中,如果獎勵模型是靜態的,策略模型很容易找到獎勵模型的漏洞,并生成一些表面上得分很高但實際質量很差的輸出。實驗對比顯示,如果使用一個固定的(離線的)自我確定性打分器,模型很快就會學會通過生成冗余內容等方式來“欺騙”打分器,導致性能崩潰。而 INTUITOR 的在線機制則避免了這一問題,保證了訓練的穩定性和魯棒性。



邁向更自主的 AI

論文作者之一、UCB 博士后研究員 Xuandong Zhao 在其社交媒體上分享了這項研究的歷程。

Zhao 在其推文中提到,這項研究的種子始于去年秋天,當時本科生 Zhewei Kang 主動聯系他希望合作開展研究。他們從兩個關鍵觀察出發:一是在考試中,人們對自己有信心的題目往往回答得更準確;二是大模型是否也能展現出這種“信心約等于正確性”的模式?這啟發了他們對“自我確定性”這一概念的探索。


圖丨相關推文(來源:X)

他們發現,現有的啟發式方法如熵和困惑度在衡量模型信心方面存在輸出長度敏感、存在偏見以及隨樣本量增加擴展性差等問題。于是,他們提出了一個關鍵洞見:衡量每個 Token 的輸出分布與均勻分布的距離,即前述的 KL 散度,這構成了“自我確定性”度量的基礎,并催生了他們 2 月份關于“通過自我確定性實現可擴展的 Best-of-N 選擇”的論文。INTUITOR 正是這一系列研究思路的自然延伸和深化,將自我確定性從答案選擇標準提升為驅動整個強化學習過程的內在獎勵。

如果這一方法確實有效,它或將為訓練更自主、更通用的 AI 系統提供一條極具潛力的新路徑。通過擺脫對外部獎勵和人類監督的強依賴,INTUITOR 有望大幅降低訓練成本,并使 AI 能夠在缺乏先驗知識或難以獲得反饋的新領域中進行探索和學習。有網友就評論道:“如果這行得通,我們將在其他領域看到與編程和數學中相同類型的進步。”


圖丨相關評論(來源:X)

其次,INTUITOR 的成功表明,預訓練的大模型可能擁有比我們先前認知中更為豐富的隱性行為先驗。這些先驗知識和能力可以通過恰當的內在激勵機制被“解鎖”和“塑造”,從而展現出驚人的推理和泛化能力。

再者,該研究提出的 RLIF 框架和自我確定性作為內在獎勵的思路,也可能對于未來構建能夠進行自我改進、甚至可能超越人類能力的 AI 系統具有重要啟示。當 AI 系統發展到其能力邊界超出人類評估范圍時,基于內在一致性和自我確定性的學習機制將變得至關重要。

不過,目前的實驗主要集中在相對較小的模型和數據集上,未來需要將 INTUITOR 擴展到更大規模的基礎模型和更多樣化的真實世界數據上進行驗證。例如,有研究者擔心“獎勵利用”和“模型崩潰”或許會在更大規模模型上可能成為潛在的障礙。


圖丨相關評論(來源:X)

事實上,團隊在研究中就發現了將 INTUITOR 擴展到更大模型(Qwen2.5-7B 和 Qwen2.5-14B)時會遇到新的問題。他們提到,最初的訓練方案在較大模型上會引發嚴重的行為崩潰。通過簡化系統提示、調整學習率和增加采樣響應數量等方式,學習過程方得到了初步的穩定(團隊強調這些設置是“首次的、未經調整的嘗試”,而非全面的超參數優化)。

但如果為了防止更大模型的獎勵利用,最終仍需依賴帶有真值驗證的復雜超參數調整,那么 INTUITOR 方法在“無需外部獎勵”方面的核心優勢就可能會被削弱。

因此,如何在擴展到更大模型時,繼續保持這種內在獎勵機制的有效性和免監督特性,將是未來研究中一個值得關注的重要方向。

參考資料:

1.https://www.arxiv.org/pdf/2505.19590

2.https://x.com/xuandongzhao/status/1927270931874910259

3.https://arxiv.org/pdf/2502.18581

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
器官移植的前提條件是公開器官來源的身份,這是基本的道德底線!

器官移植的前提條件是公開器官來源的身份,這是基本的道德底線!

逍遙論經
2025-06-08 09:30:22
49歲馬伊琍真實狀態曝光,跟普通人沒啥區別,真沒啥特別的!

49歲馬伊琍真實狀態曝光,跟普通人沒啥區別,真沒啥特別的!

草莓解說體育
2025-06-10 00:54:17
世上最快樂地方? 1家游迪士尼1天花1400美元,父親:這里是地獄

世上最快樂地方? 1家游迪士尼1天花1400美元,父親:這里是地獄

環球趣聞分享
2025-05-22 15:17:34
某些地方公職人員下班后禁止飲酒之規定,合理合法嗎?

某些地方公職人員下班后禁止飲酒之規定,合理合法嗎?

牛鍋巴小釩
2025-06-12 12:58:02
你還敢集郵嗎?清朝郵票從122萬跌至26萬!猴票從1.2萬跌至4千!

你還敢集郵嗎?清朝郵票從122萬跌至26萬!猴票從1.2萬跌至4千!

愛下廚的阿釃
2025-06-13 15:02:18
曾經的中產標配,賣不動了?

曾經的中產標配,賣不動了?

中國新聞周刊
2025-06-14 12:22:45
喬丹叼雪茄乘游艇,模特愛妻相伴,被吹牛老爹“角色扮演”很憤怒

喬丹叼雪茄乘游艇,模特愛妻相伴,被吹牛老爹“角色扮演”很憤怒

譯言
2025-06-13 11:48:42
你真的以為中國內卷是因為14億人太多嗎?

你真的以為中國內卷是因為14億人太多嗎?

流蘇晚晴
2025-06-08 18:56:42
6次撲救 1次撲點球,邁阿密國際門將奧斯塔里在半場表現出色

6次撲救 1次撲點球,邁阿密國際門將奧斯塔里在半場表現出色

星耀國際足壇
2025-06-15 10:00:40
趙本山兒子完美詮釋土和豪

趙本山兒子完美詮釋土和豪

情感大頭說說
2025-06-02 20:22:02
50歲大媽救受傷蛇養12年,寵物院長捂嘴尖叫:這哪是蛇啊

50歲大媽救受傷蛇養12年,寵物院長捂嘴尖叫:這哪是蛇啊

故事秘棧
2025-05-17 18:42:12
澤連斯基躲進地堡,6月13日,俄羅斯斬首行動傳來新消息

澤連斯基躲進地堡,6月13日,俄羅斯斬首行動傳來新消息

文雅筆墨
2025-06-15 04:33:33
小別勝新婚是啥場面?網友:天雷勾地火加上干柴烈火

小別勝新婚是啥場面?網友:天雷勾地火加上干柴烈火

解讀熱點事件
2025-06-14 00:05:07
退休老人最大的愚蠢,就是以下兩種行為

退休老人最大的愚蠢,就是以下兩種行為

有故事的人
2025-06-15 06:37:24
誰能抱住新“藥王” 司美格魯肽的 “金大腿”?

誰能抱住新“藥王” 司美格魯肽的 “金大腿”?

財經早餐
2025-06-14 06:43:07
稀土永磁+貴金屬回收+國企,3天3板!3天上漲33%!還有機會嗎?

稀土永磁+貴金屬回收+國企,3天3板!3天上漲33%!還有機會嗎?

股海中的老王
2025-06-15 08:00:15
中國發言人曾公開說:“中國已經做到最高程度的克制!

中國發言人曾公開說:“中國已經做到最高程度的克制!

老友科普
2025-06-13 20:05:01
世俱杯前瞻|拜仁5-0奧克蘭城:拜仁奪冠大熱,中國球員獨苗亮相

世俱杯前瞻|拜仁5-0奧克蘭城:拜仁奪冠大熱,中國球員獨苗亮相

體育世界
2025-06-15 09:47:31
中美談完后,賴清德想通了?邀藍白營會面,派人搶在馬英九前赴京

中美談完后,賴清德想通了?邀藍白營會面,派人搶在馬英九前赴京

掌青說歷史
2025-06-14 17:36:51
省委書記當“首席推薦人”后 云南出臺旅居發展正負面清單:支持打造旅居村 不得強迫農民“出村”

省委書記當“首席推薦人”后 云南出臺旅居發展正負面清單:支持打造旅居村 不得強迫農民“出村”

紅星新聞
2025-06-14 16:49:09
2025-06-15 10:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15294文章數 513782關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

數碼
時尚
旅游
家居
健康

數碼要聞

為什么iPad不直接運行macOS系統?蘋果高管這樣說

夏天最值得入手的6件單品,全在這了

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

森林幾何 極簡灰調原木風

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 玩弄人妻少妇500系列| 日本少妇人妻xxxxx18| 国产精品欧美成人| 日日碰狠狠躁久久躁2023| 国产成人a视频高清在线观看| 丝袜美腿亚洲一区二区| 日本精品久久久久中文字幕| 免费无码肉片在线观看| 一本色道久久hezyo无码| 国产有奶水哺乳期无码avav| 欧美老肥熟妇多毛xxxxx| 久久久综合九色合综| 18禁无遮挡羞羞污污污污网站| 久久久亚洲精华液精华液精华液| 高跟肉丝少妇A片在线| 鲁一鲁一鲁一鲁一澡| 狠狠亚洲婷婷综合色香五月排名| 成人无遮挡18禁免费视频| 中文成人无字幕乱码精品区| 97影院理论片手机在线观看| 成人在线| 亚洲国产成人无码av在线| 无套内谢少妇毛片aaaa片免费| 亚洲老熟女av一区二区在线播放| 久久国产成人午夜av影院| 9久9久女女热精品视频在线观看| 国产成人无码精品久久久露脸| 欧美成年黄网站色视频| 亚洲中文字幕无码永久免弗| 全球成人中文在线| 久久www成人看片免费不卡| 亚洲色无码专线精品观看| 人妻无码aⅴ不卡中文字幕| 男人狂躁进女人下面免费视频| 亚洲精品无码mv在线观看网站| 国产95在线 | 亚洲| 国产强被迫伦姧在线观看无码| 国产精品久久久久久久久久| 成人午夜特黄aaaaa片男男| 久久婷婷五月综合色区| 女人脱了内裤趴开腿让男躁|