大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

UC伯克利新作顛覆認知:LLM靠「自信爆表」學會推理?無需外部獎勵超進化

0
分享至


新智元報道

編輯:Aeneas 犀牛

【新智元導讀】不靠外部獎勵,LLM純靠「自信爆棚」,就能學會推理了?UC伯克利的華人團隊發現,LLM居然跟人一樣!靠自信來訓練AI后,數學、編程性能提升驚人。

就在剛剛,UC伯克利CS博士后Xuandong Zhao,分享出來自己「今年參與的最鼓舞人心的工作」。

他和同事們發現,在沒有外部獎勵的情況下,LLM竟然只靠「自信爆棚」,就學會了復雜推理?


論文地址:https://arxiv.org/pdf/2505.19590

LLM靠自信心,竟能學會復雜推理

LLM不靠外部獎勵,就能自己學會復雜推理,這個結論實在很出乎意料。

團隊之所以能做出這個結果,是源于兩個關鍵的觀察。

  1. 在考試中,人們往往對自己有信心的問題,回答得更準確。這種「信心≈正確性」的模型,對LLM是否也適用呢?

  2. 在測試時推理中,長CoT或并行擴展技術(如多數投票)很常見。但在面對代碼生成這樣的開放式任務時,我們該如何在多樣化的輸出中做出選擇呢?

為此,他們探討了如何有效擴展「n選一最優」的選擇策略。

現有的一些啟發式方法,比如熵和困惑度都存在不少問題:比如對輸出長度敏感、有偏差,而且在樣本數量增加時效果變差。

然后,他們就得出了一個關鍵的洞察:衡量每個token的分布距離均勻分布有多遠。KL散度KL(U‖P) ,可以量化模型在預測每個token時的「自信程度」。可以將這一度量稱為「自我確定性」。

而它,正是熵的反面——不是覆蓋多種可能,而是傾向于聚焦在最可能的結果上。

他們發現,自我確定性是一個非常有效的信號——

  1. 當答案已知時,它通過加權投票的方式表現優于多數投票。

  2. 當答案未知時,它仍然可以隨著n的增加而穩健地擴展。


由此,在今年二月份,他們發表了第一篇論文。


論文地址:https://arxiv.org/abs/2502.18581

不過,他們的探究并未止步于此。一個后續問題自然而然出現了:如果「自我確定性」是一個良好的評估信號,它是否也可以用作訓練模型的獎勵?

也就是說,如果人類可以通過探索和反思建立起自己的信心,那LLM也能做到同樣的事嗎?

這就啟發了研究者們的新范式——RLIF。


他們采用的新方法,使用自我確定性作為強化學習的獎勵信號,而不需要外部監督。


結果,這種方法果然奏效了!

它在數學任務中的表現,可與使用規則獎勵的GRPO相媲美,在代碼生成任務中甚至有更好的泛化能力。

它能學習結構化推理——提前規劃、分解問題,甚至能夠遵循指令,而這一切都來自于內部反饋(內在獎勵)。


Xuandong Zhao表示,這個項目給了自己很大信心,尤其看到一些同期研究(TTRL、基于熵的強化學習、語義熵+答案等)時。

很明顯,RLIF是一個很有前景的方向。很顯然,目前的探索才剛剛觸及了表面。

展望未來,RLIF還提出了許多開放性問題。

  • 它為什么會有效?哪些任務最受益?

  • 它能否擴展到更大的模型?它與幻覺或記憶有何關系?

  • RLIF能否在現實世界的部署中補充RLHF或RLVR?

  • 它在智能體任務中的表現如何?

RLIF登場,打破根本局限

強化學習(RL)已經成為提升大語言模型能力的一個重要工具。

早期主要是基于人類反饋的強化學習(RLHF)上。

最近,基于可驗證獎勵的強化學習(RLVR)取得了進展,它用可自動驗證的信號(如數學題解中精確匹配的答案)取代了傳統的學習型獎勵模型,并在DeepSeek-R1等模型上展現出了更強的推理能力。

盡管取得了不少成功,RLHF和RLVR仍然面臨一些根本性的局限。

RLHF需要大量的人工標注,成本高且容易存在偏見。

而RLVR則需要特定領域的驗證器與標準答案。例如,在數學領域需要專家標注的解;代碼生成任務中,需要全面的測試用例和執行環境。

那么,大語言模型能夠否僅靠自身生成的內在信號來提升推理能力?

于是本文的研究者們提出、探索了一種新范式:基于內部反饋的強化學習(Reinforcement Learning from Internal Feedback,RLIF)。

在這種新范式下,模型通過優化自身的內部反饋來提升性能,從而無需外部獎勵或監督。

RLIF不僅適用于當前的場景,還延伸到了未來——當模型的發展超出人類能力,人類難以直接評估其表現時,模型只能通過內在機制實現自我改進。

在RLIF范式下,研究團隊提出了INTUITOR,這是一種新的強化學習方法,利用模型自身的置信度作為一種內在獎勵。


具體來說,團隊使用自我確定性作為置信度的衡量標準。自我確定性已被證明可以有效區分高質量和有缺陷的回答。

INTUITOR的實現方式簡單、高效且有效:團隊用自我確定性得分取代了現有RLVR框架(特別是GRPO)中的可驗證獎勵信號,并沿用了相同的策略梯度算法。

實驗設置

訓練設置

GRPO和INTUITOR都使用Open-R1框架在MATH數據集的訓練集上進行訓練,該數據集包含7,500道題目。

研究者采用Qwen2.5-1.5B和Qwen2.5-3B作為基礎模型,全程使用對話式提示格式。

由于這些模型最初在指令遵循能力上較弱,不強制要求它們將中間推理過程與最終答案拆分開。

每次更新處理128道題目,每題生成7個候選解,默認的KL懲罰系數為β=0.005。

為了公平比較,GRPO與INTUITOR使用完全相同的超參數,未進行額外調參。

INTUITOR在代碼生成任務中的應用(INTUITOR-Code)

為評估其在數學推理之外的泛化能力,研究者將INTUITOR應用于Codeforces代碼生成數據集。該變體在表1中被標記為INTUITOR-Code。

評估

評估階段大多采用與訓練一致的對話式提示格式。所有生成均采用貪婪解碼。

實驗在英偉達A100顯卡上進行,每張卡具有40GB顯存。

在以下基準上,研究者評估了模型性能:

數學推理任務:MATH500和GSM8K,使用lighteval庫;

代碼推理任務:CRUXEval-O,使用ZeroEval 框架,以及LiveCodeBench v6(LCB);

指令遵循任務:AlpacaEval 2.0,使用長度控制的勝率指標,由GPT-4.1進行評審。

結果與分析

表1展示了主要的評估結果,圖3則顯示了訓練過程中回答長度的變化趨勢。

在MATH和GSM8K數據集上,INTUITOR和GRPO-PV(兩者都不依賴標準答案)表現出了與GRPO(使用標準答案)相當的性能。

雖然INTUITOR整體表現略遜于GRPO,但在MATH數據集上,它的回答更長,且代碼生成能力顯著提升,顯示出更強的推理能力。


各種方法在GSM8K、MATH、LCB、CRUXEval-O、MMLU-Pro和AlpacaEval基準測試上的性能對比


訓練過程中平均響應長度。對于Qwen2.5-1.5B模型,INTUITOR和GRPO減少了無意義輸出。對于Qwen2.5-3B模型,INTUITOR和GRPO增加了推理長度,其中INTUITOR的響應長度顯著更長。GRPO-PV的長度增加最小

學會遵循指令

INTUITOR在遵循指令方面有了顯著提升。

最初,預訓練的Qwen2.5-1.5B模型在處理對話式提示時表現不佳,在所有對話模板任務上的得分低于10%(見表1),生成的回答往往重復且無意義,導致平均回答長度過長(見圖3)。

通過INTUITOR的微調,這種無意義輸出大幅減少,回答長度縮短,且在所有評估基準上都取得了非凡的性能提升。

此外,在MATH數據集上,INTUITOR顯著提高了Qwen2.5-1.5B和Qwen2.5-3B模型在AlpacaEval上的長度控制勝率,超越了相同設置下的GRPO。

這表明INTUITOR在遵循指令方面取得了穩健的進步。

培養結構化推理

快速初步學習。「自我確定性」是一種連續的、內在的獎勵信號,來自模型對所有token的內部評估,與二元獎勵形成對比。

這種內部信號可能推動大語言模型(LLMs)走上更高效的學習路徑。

考慮到GRPO和INTUITOR的最終表現不分伯仲,團隊通過對比兩者在訓練至第10步時的領域內準確率,來評估它們早期的學習能力。

如表2所示,在GSM8K和MATH基準測試中,INTUITOR在Qwen2.5-1.5B和Qwen2.5-3B模型上始終優于GRPO,凸顯了其在快速初步學習上的優勢。


跨任務泛化。圖4展示了在MATH數據集上訓練的模型在MATH500(領域內任務)和LiveCodeBench(遷移任務)上的表現變化。

無論是INTUITOR還是GRPO,模型都會先在MATH500上率先提分,而LiveCodeBench的準確率提升要到訓練后期才逐漸顯現。

更有意思的是,哪怕MATH500的成績已經進入平臺期,LiveCodeBench上的表現仍在繼續攀升。

這說明:先在MATH數據上學到的「本行」知識,為之后遷移到代碼生成任務(LiveCodeBench)提供了扎實的基礎。


長推理的涌現雖然像Deepseek-R1這樣的大模型通過大量強化學習(RL)實現長篇推理,但INTUITOR使較小的模型在有限數據下也能發展出結構化推理能力。

在CRUXEval-O基準(圖5)上,用INTUITOR訓出來的模型常常先用自然語言隨意地想一番,再把結論濃縮進要求的JSON里——盡管提示里已經要求它直接用JSON推理。

同樣的「先自然語言推理,后寫代碼」現象,也出現在LiveCodeBench上。

這種自發出現的「預推理」過程,或許正是INTUITOR能在這些評測中表現亮眼的關鍵。


理解LLM的涌現式長鏈推理能力

當LLM遇到陌生問題時,它們會從一組可能的答案分布中進行采樣。

自我確定性反映了模型對其輸出連貫性的內部評估。通過強化高自信度的回答,INTUITOR鼓勵更具層次的推理過程,有可能提升模型對自身輸出的理解能力。

研究者通過分析使用INTUITOR訓練的代碼模型在不同訓練階段生成的結果,來觀察這一機制。

具體方法是從LiveCodeBench數據集中隨機選取10道題,觀察各訓練階段模型的輸出演變。

圖6展示了輸出類型和模型準確率的變化趨勢。


結果顯示出了清晰的演進路徑:模型首先學會生成有效的 Python 代碼(體現在準確率提升和無效輸出減少),隨后開始發展出前置推理能力,以便更好地理解自身行為。

進一步的生成樣本檢查也證實:模型在訓練過程中會逐步豐富其推理內容,驗證了我們關于「INTUITOR鼓勵模型生成自身更易理解的推理軌跡」的假設。

在線自置信防止獎勵濫用

在強化學習里,如果獎勵模型是靜態的,策略就可能一味鉆空子而不是老老實實提高能力。

為測試把「自置信」當獎勵到底穩不穩定,團隊做了兩種設置:

  • 離線自置信:獎勵來自固定的基礎模型;

  • 在線自置信:獎勵隨策略模型一同更新。

兩種情況下,我們把每次梯度更新的批大小都降到224條回答。

圖7所示,大約在第100次更新后,離線設置的策略學會了「刷分」:它在每個答案后偷偷附上一道自己早已解出的額外題目,以此抬高自置信獎勵。結果是:

  • 回答長度(虛線)突然飆升;

  • 驗證準確率(實線)卻瞬間崩盤。


在線設置下,獎勵信號隨著策略同步進化,策略想「騙分」就難多了,訓練曲線始終平穩。

研究團隊進一步拿INTUITOR和GRPO在MATH500上生成的回答,分析自置信分布(圖8),并用Mann–Whitney U檢驗比較正確與錯誤答案的自置信差異。

  • 正確答案的平均自置信都顯著高于錯誤答案。

  • INTUITOR(在線自置信):沒有任何「刷分」跡象,在U檢驗中給出了最低p值和最大的效應量r,說明它最能用自置信區分對錯,即便整體信心更高。


這些結果表明,INTUITOR的在線自置信機制不僅防止了獎勵被濫用,還讓模型在大規模數據集上有望保持穩健訓練。

參考資料:

https://x.com/xuandongzhao/status/1927270937033883928

https://arxiv.org/abs/2505.19590



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
遼寧艦抵近關島,美國態度變了:扣下臺島66架戰機,只收錢不發貨

遼寧艦抵近關島,美國態度變了:扣下臺島66架戰機,只收錢不發貨

紅色鑒史官
2025-06-13 19:00:03
中方衛星突然變軌到伊朗上空,接下來一幕讓以色列冷靜下來

中方衛星突然變軌到伊朗上空,接下來一幕讓以色列冷靜下來

頭條爆料007
2025-06-14 08:19:04
抽到下下簽!鄭欽文可能首輪出局,拿冠軍也難了,鮑里妮天堂好簽

抽到下下簽!鄭欽文可能首輪出局,拿冠軍也難了,鮑里妮天堂好簽

侃球熊弟
2025-06-15 00:01:50
A股:下周一,不好的消息又來了!

A股:下周一,不好的消息又來了!

虎哥閑聊
2025-06-14 16:48:27
日本游戲主機市場正被中國搶奪

日本游戲主機市場正被中國搶奪

海格講
2025-06-12 06:10:04
氛圍超贊!淮安南京比賽一側看臺坐滿觀眾,tifo“崛起江淮”矚目

氛圍超贊!淮安南京比賽一側看臺坐滿觀眾,tifo“崛起江淮”矚目

直播吧
2025-06-14 16:17:14
臺網友集體倒戈,汪小菲詮釋了什么叫“打鐵還需自身硬”

臺網友集體倒戈,汪小菲詮釋了什么叫“打鐵還需自身硬”

大笑江湖史
2025-06-14 07:54:53
長沙玉蘭路死灰復燃!網友爆料:顧客嫖娼致雞婆身亡,法醫都來了

長沙玉蘭路死灰復燃!網友爆料:顧客嫖娼致雞婆身亡,法醫都來了

社會醬
2025-06-14 18:17:14
換鞋換拍!又換衣服!鄭欽文到底輸在了哪里,賽后的數據一清二楚

換鞋換拍!又換衣服!鄭欽文到底輸在了哪里,賽后的數據一清二楚

侃球熊弟
2025-06-15 02:11:33
羅帥宇父親曾稱有人想用1500萬元封口,湖南省衛健委工作人員:馬上會有官方通報

羅帥宇父親曾稱有人想用1500萬元封口,湖南省衛健委工作人員:馬上會有官方通報

深圳晚報
2025-06-13 19:40:17
天選公主!威爾士三寶最新亮相,夏洛特優勢明顯,氣質沉穩似女王

天選公主!威爾士三寶最新亮相,夏洛特優勢明顯,氣質沉穩似女王

阿傖說事
2025-06-14 18:14:15
超巨時刻!亞歷山大末節最后4分38秒獨攬15分逆天改命!

超巨時刻!亞歷山大末節最后4分38秒獨攬15分逆天改命!

直播吧
2025-06-14 11:40:20
中超海港2-2浙江!26018人觀賽,蘇超淮安1-1南京,足協咋應對

中超海港2-2浙江!26018人觀賽,蘇超淮安1-1南京,足協咋應對

阿柒體訊
2025-06-14 21:37:20
俄羅斯一情報部門,公開稱中國為“敵人”,普京或要另謀出路?

俄羅斯一情報部門,公開稱中國為“敵人”,普京或要另謀出路?

允華說
2025-06-12 16:03:44
雷霆2-2扳平!一場丑陋的勝利,誰是贏球最大功臣?數據不會說謊

雷霆2-2扳平!一場丑陋的勝利,誰是贏球最大功臣?數據不會說謊

籃球掃地僧
2025-06-14 11:31:19
上海63歲阿姨未婚未育,尋找40年前的空軍戀人,見到他后淚流滿面

上海63歲阿姨未婚未育,尋找40年前的空軍戀人,見到他后淚流滿面

夜闌故事集
2025-06-10 14:10:02
我不會給羅帥宇唱挽歌

我不會給羅帥宇唱挽歌

關爾東
2025-06-13 16:00:30
特朗普緊急開會,美國在中東調兵!伊朗:美參與襲擊,正準備回應!伊空軍高級軍官被騙聚集開會,遭以軍打擊,司令等多人身亡

特朗普緊急開會,美國在中東調兵!伊朗:美參與襲擊,正準備回應!伊空軍高級軍官被騙聚集開會,遭以軍打擊,司令等多人身亡

每日經濟新聞
2025-06-14 00:40:08
100萬人傷亡背后俄羅斯實際已遭重創

100萬人傷亡背后俄羅斯實際已遭重創

史政先鋒
2025-06-13 10:54:49
【文體市場面面觀】農文旅融合如何“四季紅”

【文體市場面面觀】農文旅融合如何“四季紅”

經濟日報
2025-06-14 05:04:15
2025-06-15 04:31:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12876文章數 66068關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
旅游
手機
數碼
公開課

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

三星Galaxy Z Fold7渲染圖曝光:很輕薄、相機明顯凸起

數碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久er热在这里只有精品66| 亚洲日韩欧美一区二区三区| 亚洲aⅴ无码成人网站国产app| 夜色阁亚洲一区二区三区| 久久精品熟女人妻一区二区三区| 国语对白做受xxxxx在线| 久久国国产免费999| 无码人妻久久一区二区三区不卡| 欧美一区二区三区成人久久片| 亚洲另类无码专区首页| 亚洲 丝袜 另类 校园 欧美| 久久国产精品久久精| 东北女人毛多水多牲交视频| 国产乱色国产精品播放视频| 人妻少妇heyzo无码专区| 成人免费精品网站在线观看影片| 国产精品一久久香蕉国产线看观看| 亚洲精品无码久久久久av麻豆| 国产肥白大熟妇bbbb| 亚洲一区二区三区成人网站| 亚洲国产高清在线一区二区三区| 在线中文字幕乱码英文字幕正常| 久久精品私人影院免费看| 色丁狠狠桃花久久综合网| 狠狠色婷婷久久综合频道毛片| 最新亚洲人成无码网www电影| aⅴ亚洲 日韩 色 图网站 播放| 亚洲精品成人久久电影网| 日产精品久久久久久久| 亚洲另类欧美综合久久图片区| 亚洲r成人av久久人人爽澳门赌| 精品国产综合区久久久久久| 久久久亚洲欧洲日产国码二区| 亚洲熟妇丰满多毛xxxx| 国内精品自在自线视频| 国产老妇伦国产熟女老妇高清| !精品国产99久久久久久宅男| 伊人久久精品无码二区麻豆| 成人性生交大片免费看视频app| 国产在线观看超清无码视频一区二区| 99久久亚洲精品无码毛片|