新智元報道
編輯:Aeneas 犀牛
【新智元導讀】不靠外部獎勵,LLM純靠「自信爆棚」,就能學會推理了?UC伯克利的華人團隊發現,LLM居然跟人一樣!靠自信來訓練AI后,數學、編程性能提升驚人。
就在剛剛,UC伯克利CS博士后Xuandong Zhao,分享出來自己「今年參與的最鼓舞人心的工作」。
他和同事們發現,在沒有外部獎勵的情況下,LLM竟然只靠「自信爆棚」,就學會了復雜推理?
論文地址:https://arxiv.org/pdf/2505.19590
LLM靠自信心,竟能學會復雜推理
LLM不靠外部獎勵,就能自己學會復雜推理,這個結論實在很出乎意料。
團隊之所以能做出這個結果,是源于兩個關鍵的觀察。
在考試中,人們往往對自己有信心的問題,回答得更準確。這種「信心≈正確性」的模型,對LLM是否也適用呢?
在測試時推理中,長CoT或并行擴展技術(如多數投票)很常見。但在面對代碼生成這樣的開放式任務時,我們該如何在多樣化的輸出中做出選擇呢?
為此,他們探討了如何有效擴展「n選一最優」的選擇策略。
現有的一些啟發式方法,比如熵和困惑度都存在不少問題:比如對輸出長度敏感、有偏差,而且在樣本數量增加時效果變差。
然后,他們就得出了一個關鍵的洞察:衡量每個token的分布距離均勻分布有多遠。KL散度KL(U‖P) ,可以量化模型在預測每個token時的「自信程度」。可以將這一度量稱為「自我確定性」。
而它,正是熵的反面——不是覆蓋多種可能,而是傾向于聚焦在最可能的結果上。
他們發現,自我確定性是一個非常有效的信號——
當答案已知時,它通過加權投票的方式表現優于多數投票。
當答案未知時,它仍然可以隨著n的增加而穩健地擴展。
由此,在今年二月份,他們發表了第一篇論文。
論文地址:https://arxiv.org/abs/2502.18581
不過,他們的探究并未止步于此。一個后續問題自然而然出現了:如果「自我確定性」是一個良好的評估信號,它是否也可以用作訓練模型的獎勵?
也就是說,如果人類可以通過探索和反思建立起自己的信心,那LLM也能做到同樣的事嗎?
這就啟發了研究者們的新范式——RLIF。
他們采用的新方法,使用自我確定性作為強化學習的獎勵信號,而不需要外部監督。
結果,這種方法果然奏效了!
它在數學任務中的表現,可與使用規則獎勵的GRPO相媲美,在代碼生成任務中甚至有更好的泛化能力。
它能學習結構化推理——提前規劃、分解問題,甚至能夠遵循指令,而這一切都來自于內部反饋(內在獎勵)。
Xuandong Zhao表示,這個項目給了自己很大信心,尤其看到一些同期研究(TTRL、基于熵的強化學習、語義熵+答案等)時。
很明顯,RLIF是一個很有前景的方向。很顯然,目前的探索才剛剛觸及了表面。
展望未來,RLIF還提出了許多開放性問題。
它為什么會有效?哪些任務最受益?
它能否擴展到更大的模型?它與幻覺或記憶有何關系?
RLIF能否在現實世界的部署中補充RLHF或RLVR?
它在智能體任務中的表現如何?
RLIF登場,打破根本局限
強化學習(RL)已經成為提升大語言模型能力的一個重要工具。
早期主要是基于人類反饋的強化學習(RLHF)上。
最近,基于可驗證獎勵的強化學習(RLVR)取得了進展,它用可自動驗證的信號(如數學題解中精確匹配的答案)取代了傳統的學習型獎勵模型,并在DeepSeek-R1等模型上展現出了更強的推理能力。
盡管取得了不少成功,RLHF和RLVR仍然面臨一些根本性的局限。
RLHF需要大量的人工標注,成本高且容易存在偏見。
而RLVR則需要特定領域的驗證器與標準答案。例如,在數學領域需要專家標注的解;代碼生成任務中,需要全面的測試用例和執行環境。
那么,大語言模型能夠否僅靠自身生成的內在信號來提升推理能力?
于是本文的研究者們提出、探索了一種新范式:基于內部反饋的強化學習(Reinforcement Learning from Internal Feedback,RLIF)。
在這種新范式下,模型通過優化自身的內部反饋來提升性能,從而無需外部獎勵或監督。
RLIF不僅適用于當前的場景,還延伸到了未來——當模型的發展超出人類能力,人類難以直接評估其表現時,模型只能通過內在機制實現自我改進。
在RLIF范式下,研究團隊提出了INTUITOR,這是一種新的強化學習方法,利用模型自身的置信度作為一種內在獎勵。
具體來說,團隊使用自我確定性作為置信度的衡量標準。自我確定性已被證明可以有效區分高質量和有缺陷的回答。
INTUITOR的實現方式簡單、高效且有效:團隊用自我確定性得分取代了現有RLVR框架(特別是GRPO)中的可驗證獎勵信號,并沿用了相同的策略梯度算法。
實驗設置
訓練設置
GRPO和INTUITOR都使用Open-R1框架在MATH數據集的訓練集上進行訓練,該數據集包含7,500道題目。
研究者采用Qwen2.5-1.5B和Qwen2.5-3B作為基礎模型,全程使用對話式提示格式。
由于這些模型最初在指令遵循能力上較弱,不強制要求它們將中間推理過程與最終答案拆分開。
每次更新處理128道題目,每題生成7個候選解,默認的KL懲罰系數為β=0.005。
為了公平比較,GRPO與INTUITOR使用完全相同的超參數,未進行額外調參。
INTUITOR在代碼生成任務中的應用(INTUITOR-Code)
為評估其在數學推理之外的泛化能力,研究者將INTUITOR應用于Codeforces代碼生成數據集。該變體在表1中被標記為INTUITOR-Code。
評估
評估階段大多采用與訓練一致的對話式提示格式。所有生成均采用貪婪解碼。
實驗在英偉達A100顯卡上進行,每張卡具有40GB顯存。
在以下基準上,研究者評估了模型性能:
數學推理任務:MATH500和GSM8K,使用lighteval庫;
代碼推理任務:CRUXEval-O,使用ZeroEval 框架,以及LiveCodeBench v6(LCB);
指令遵循任務:AlpacaEval 2.0,使用長度控制的勝率指標,由GPT-4.1進行評審。
結果與分析
表1展示了主要的評估結果,圖3則顯示了訓練過程中回答長度的變化趨勢。
在MATH和GSM8K數據集上,INTUITOR和GRPO-PV(兩者都不依賴標準答案)表現出了與GRPO(使用標準答案)相當的性能。
雖然INTUITOR整體表現略遜于GRPO,但在MATH數據集上,它的回答更長,且代碼生成能力顯著提升,顯示出更強的推理能力。
各種方法在GSM8K、MATH、LCB、CRUXEval-O、MMLU-Pro和AlpacaEval基準測試上的性能對比
訓練過程中平均響應長度。對于Qwen2.5-1.5B模型,INTUITOR和GRPO減少了無意義輸出。對于Qwen2.5-3B模型,INTUITOR和GRPO增加了推理長度,其中INTUITOR的響應長度顯著更長。GRPO-PV的長度增加最小
學會遵循指令
INTUITOR在遵循指令方面有了顯著提升。
最初,預訓練的Qwen2.5-1.5B模型在處理對話式提示時表現不佳,在所有對話模板任務上的得分低于10%(見表1),生成的回答往往重復且無意義,導致平均回答長度過長(見圖3)。
通過INTUITOR的微調,這種無意義輸出大幅減少,回答長度縮短,且在所有評估基準上都取得了非凡的性能提升。
此外,在MATH數據集上,INTUITOR顯著提高了Qwen2.5-1.5B和Qwen2.5-3B模型在AlpacaEval上的長度控制勝率,超越了相同設置下的GRPO。
這表明INTUITOR在遵循指令方面取得了穩健的進步。
培養結構化推理
快速初步學習。「自我確定性」是一種連續的、內在的獎勵信號,來自模型對所有token的內部評估,與二元獎勵形成對比。
這種內部信號可能推動大語言模型(LLMs)走上更高效的學習路徑。
考慮到GRPO和INTUITOR的最終表現不分伯仲,團隊通過對比兩者在訓練至第10步時的領域內準確率,來評估它們早期的學習能力。
如表2所示,在GSM8K和MATH基準測試中,INTUITOR在Qwen2.5-1.5B和Qwen2.5-3B模型上始終優于GRPO,凸顯了其在快速初步學習上的優勢。
跨任務泛化。圖4展示了在MATH數據集上訓練的模型在MATH500(領域內任務)和LiveCodeBench(遷移任務)上的表現變化。
無論是INTUITOR還是GRPO,模型都會先在MATH500上率先提分,而LiveCodeBench的準確率提升要到訓練后期才逐漸顯現。
更有意思的是,哪怕MATH500的成績已經進入平臺期,LiveCodeBench上的表現仍在繼續攀升。
這說明:先在MATH數據上學到的「本行」知識,為之后遷移到代碼生成任務(LiveCodeBench)提供了扎實的基礎。
長推理的涌現。雖然像Deepseek-R1這樣的大模型通過大量強化學習(RL)實現長篇推理,但INTUITOR使較小的模型在有限數據下也能發展出結構化推理能力。
在CRUXEval-O基準(圖5)上,用INTUITOR訓出來的模型常常先用自然語言隨意地想一番,再把結論濃縮進要求的JSON里——盡管提示里已經要求它直接用JSON推理。
同樣的「先自然語言推理,后寫代碼」現象,也出現在LiveCodeBench上。
這種自發出現的「預推理」過程,或許正是INTUITOR能在這些評測中表現亮眼的關鍵。
理解LLM的涌現式長鏈推理能力
當LLM遇到陌生問題時,它們會從一組可能的答案分布中進行采樣。
自我確定性反映了模型對其輸出連貫性的內部評估。通過強化高自信度的回答,INTUITOR鼓勵更具層次的推理過程,有可能提升模型對自身輸出的理解能力。
研究者通過分析使用INTUITOR訓練的代碼模型在不同訓練階段生成的結果,來觀察這一機制。
具體方法是從LiveCodeBench數據集中隨機選取10道題,觀察各訓練階段模型的輸出演變。
圖6展示了輸出類型和模型準確率的變化趨勢。
結果顯示出了清晰的演進路徑:模型首先學會生成有效的 Python 代碼(體現在準確率提升和無效輸出減少),隨后開始發展出前置推理能力,以便更好地理解自身行為。
進一步的生成樣本檢查也證實:模型在訓練過程中會逐步豐富其推理內容,驗證了我們關于「INTUITOR鼓勵模型生成自身更易理解的推理軌跡」的假設。
在線自置信防止獎勵濫用
在強化學習里,如果獎勵模型是靜態的,策略就可能一味鉆空子而不是老老實實提高能力。
為測試把「自置信」當獎勵到底穩不穩定,團隊做了兩種設置:
離線自置信:獎勵來自固定的基礎模型;
在線自置信:獎勵隨策略模型一同更新。
兩種情況下,我們把每次梯度更新的批大小都降到224條回答。
圖7所示,大約在第100次更新后,離線設置的策略學會了「刷分」:它在每個答案后偷偷附上一道自己早已解出的額外題目,以此抬高自置信獎勵。結果是:
回答長度(虛線)突然飆升;
驗證準確率(實線)卻瞬間崩盤。
在線設置下,獎勵信號隨著策略同步進化,策略想「騙分」就難多了,訓練曲線始終平穩。
研究團隊進一步拿INTUITOR和GRPO在MATH500上生成的回答,分析自置信分布(圖8),并用Mann–Whitney U檢驗比較正確與錯誤答案的自置信差異。
正確答案的平均自置信都顯著高于錯誤答案。
INTUITOR(在線自置信):沒有任何「刷分」跡象,在U檢驗中給出了最低p值和最大的效應量r,說明它最能用自置信區分對錯,即便整體信心更高。
這些結果表明,INTUITOR的在線自置信機制不僅防止了獎勵被濫用,還讓模型在大規模數據集上有望保持穩健訓練。
參考資料:
https://x.com/xuandongzhao/status/1927270937033883928
https://arxiv.org/abs/2505.19590
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.