新智元報道
編輯:桃子 犀牛
【新智元導讀】數據枯竭正成為AI發展的新瓶頸!CMU團隊提出革命性方案SRT:讓LLM實現無需人類標注的自我進化!SRT初期就能迭代提升數學與推理能力,甚至性能逼近傳統強化學習的效果,揭示了其顛覆性潛力。
通往AGI最大的絆腳石,便是互聯網數據不夠用了!
DeepSeek-R1、OpenAI的o系推理模型出世,不再單純依賴人類標注「標準答案」,而是通過RL實現破局。
但問題來了——當前,LLM依然需要人類設計「正確信號」來指導訓練。
如果問題復雜到人類都不知道答案,這些AI就只能抓瞎了。
為此,CMU聯手獨立研究員推出一套「自獎勵訓練」(SRT)的全新方法,堪稱AI「自我修行」的秘籍!
論文地址:https://arxiv.org/pdf/2505.21444
它的核心思路是,讓LLM利用自身「自洽性」作為內在的監督信號,生成獎勵來優化自己。
簡單來說,AI會像一個哲學家,盯著自己的答案自問:這個推導邏輯自洽嗎?有沒有漏洞?
然后,它會根據答案「自洽程度」給自己打分,再用分數去不斷改進。
關鍵是,SRT完全不需要人類標注的數據,可以自然地應用于「測試時訓練」。
實驗結果讓人眼前一亮:在早期訓練階段,SRT的性能與標準答案訓練RL方法相媲美。
目前,研究團隊的代碼已公開。
地址:https://github.com/tajwarfahim/srt
自獎勵訓練:AI自我修行秘籍
在沒有外部監督的情況下,模型需要依靠自身來生成監督信號。
直觀來說,如果模型能夠在其生成的多個答案中識別出更高質量的答案,那么這種識別出的改進就可以作為訓練信號。
這種情況自然地發生在具有正向「生成-驗證差距」的問題中,比如數學、邏輯推理和代碼生成任務。
一種簡單但有效的方法是利用多數投票來挖掘這種差距。實驗表明,這比單個模型生成的答案有更高的準確性。
在本文的設置中,多數投票的步驟包括:
對每個提示采樣生成多個答案;
根據解析出的最終解決方案對答案進行分組;
用最常見的解決方案(眾數)來估計真實答案。
自進化方法SRT
研究團隊提出了一種新穎的方法,把模型的自我改進過程設計成一個強化學習任務。
在這個過程中,標簽并不是固定的,而是由模型不斷演變的多數投票結果動態生成的。
簡單來說,就是讓模型自己「投票」選出最好的答案,并用這些答案作為指導,逐步提升自己的表現。
強化學習的每一輪操作可以簡單理解為以下步驟:
采樣一小批提示,然后用當前模型為每個提示生成n個可能的答案。
通過「多數投票」的方式,找出每個提示下最常見的答案,作為臨時的「標準答案」(偽標簽)。
檢查每個生成答案是否與多數投票的答案一致,如果一致就給它一個獎勵(用公式表示為:r(y) = 1[answer(y) = y_majority])。
根據這批數據和計算出的獎勵,更新一次模型,讓它變得更聰明。
具體來說,研究團隊設計了一種獎勵機制,巧妙利用模型自洽性來定義獎勵方式。這使得他們的方法能輕松適配常見的強化學習算法,比如PPO、RLOO、REINFORCE和REINFORCE+++。
另外,由于每個問題提示通常會生成16到64個答案,SRT跟其他基于標簽的算法相比,不會增加額外的計算負擔。
只要每次強化學習迭代時,多數投票都能讓模型的生成結果比驗證結果更好一點,這種反復的自我獎勵就能持續提供有用的指導信號,幫助模型不斷進步。
雖然模型自我改進的前景令人振奮,但仍然有局限性:模型自生成的獎勵僅僅是衡量潛在正確性的代用指標。
這種代用獎勵可能觸發「獎勵作弊」(reward hacking):模型為了最大化自身賦予的獎勵,會產出越來越自洽卻可能并不正確的答案。
總的來說,這項研究的貢獻有以下四點:
提出了一種簡單而有效的自訓練強化學習方法——自獎勵訓練(SRT)。該方法利用多個模型生成解之間的一致性來估計強化學習訓練中的正確性,在沒有標記數據的情況下提供自監督信號。
通過實驗證明,在早期訓練階段,SRT的性能可媲美使用標準答案訓練的標準強化學習方法。
分析了自生成獎勵的局限性,揭示了模型的獎勵函數最初與正確性相關,但可能會退化為僅反映置信度而非真實準確性,導致獎勵作弊問題。
提出了緩解獎勵作弊的策略,為未來持續模型改進的方法奠定了基礎。
實驗結果
最新提出的SRT算法,其優勢和局限是什么?
為此,研究人員基于Qwen2.5-Math-7B模型,展開了一系列研究,具體回答了以下四大核心問題:
與基于真實標記的標準強化學習方法相比,SRT算法的有效性如何?對未見問題可以實現泛化嗎?
自我改進能否持續迭代從而實現性能的不斷提升?抑或這種改進存在固有上限?
哪些底層因素會影響自我改進的有效性?
當SRT用于測試階段的性能提升時,實際效果如何?
基于多數投票的自訓練
如下圖2所示,在MATH和AIME訓練集上,自監督SRT方法無需真實標記信號,即可取得與基于真實標記的強化學習相當的結果。
值得注意的是,圖2的pass@1分數均是在保留測試集上評估的,這表明自訓練過程能穩健地泛化到訓練分布之外。
然而,DAPO數據集上的結果更為復雜。
具體而言,在DAPO上訓練時,研究人員發現SRT算法在測試集上的性能,最初以與基于真實答案的標準RL相當的速度提升。
但在約400-600訓練步時,SRT達到峰值性能后開始下降,而基于真實標記的標準RL訓練卻能持續提升。
總體而言,研究發現了一個引人注目且出人意料的趨勢:即使沒有任何標注樣本,SRT的性能曲線在訓練初期與基于標準答案的RL高度吻合。
在統計誤差范圍內,SRT在MATH和AIME'83-AIME'23數據集上的峰值測試pass@1分數與有監督RL方法基本持平。
在更具挑戰性的DAPO數據集上,SRT仍能達到RL最終性能的75%。
此外,在所有三個訓練集上,SRT的峰值性能相比基礎模型都有約100%的相對提升。
SRT性能峰值后,異?,F象分析
當SRT在DAPO訓練集上達到性能峰值后(見圖2),研究人員觀察到其測試準確率開始顯著惡化。
事實上,在MATH-12k數據集上訓練超過兩個epoch時,同樣會出現明顯的性能崩潰現象。
對于這種行為,作者給出一個簡單而精確的理論解釋:
由SRT目標定義的強化學習優化問題明確鼓勵輸出之間的一致性,而與正確性無關。
因此,在該目標下的最優策略是無論輸入如何都生成完全相同的響應,從而人為地獲得最大可能的獎勵。
因此,自然可以預期,在這種代理目標下的持續訓練可能導致這種退化解,尤其是當優化這一目標比學習解決實際任務更容易時。
測試時自改進
自訓練的一個誘人應用,是通過測試時訓練(test-time training)提升模型準確率。
將SRT作為測試時訓練技術應用異常簡單:只需將無標注測試集完全視作訓練數據集,并直接應用SRT。
接下來,研究人員對比了經過SRT測試時訓練后的多數投票性能,與未進行任何測試時訓練的性能。
如下圖4顯示,在maj@32指標下,相比直接對基礎模型生成輸出應用主流多數投票基線,通過SRR實現的測試時訓練能帶來相對有限,但仍可察覺的性能提升。
此外,在更大規模的測試數據集上,相較于基礎模型的多數投票,其性能增益更為顯著。
為何測試時訓練不會引發性能崩潰?
有趣的是,測試時訓練完成后,通過直觀檢查模型輸出可發現:盡管模型對幾乎每個測試提示的預測都退化成了單一響應(這正是SRT目標的最優解行為),但測試準確率仍保持高位。
研究人員推測,測試時自訓練的穩定性源于數據集規模的關鍵差異。
以AIME24測試數據集為例,其僅含30個自改進樣本。
在此有限樣本量下,模型會通過強化特定CoT推,迅速收斂至這些樣本上的穩定多數投票答案。
一旦達成收斂,SRT便無法獲得有意義的梯度信號以進一步更新參數,從而自然穩定了測試時性能。
相比之下,在大規模數據集常規訓練時,持續輸入的新樣本會不斷驅使模型為一致性進行過度優化。
在此條件下,模型傾向于采用過度簡化的泛化策略(生成相同的\boxed{}答案),最終因輸出與提示無關的單一預測而崩潰。
大模型崩潰,可以避免嗎?
那么,LLM是否可以避免崩潰?
如上所述,自獎勵訓練(SRT)的優化目標,可能導致初期性能顯著提升,但最終引發模型崩潰。
為此,研究人員探究了以下互補策略,以應對模型崩潰問題,進一步提升自訓練性能上限:
早停(Early Stopping)策略:利用少量帶標注的驗證數據集監測模型狀態,及時終止訓練以防止崩潰;
算法策略:通過采用穩定基模型(而非持續更新的模型)生成的偽標記,從根本上降低崩潰風險;
數據驅動的課程學習(Curriculum Learning)策略:突破簡單早停的局限,通過漸進式學習機制提升模型性能。
早停策略
實驗中,即使僅使用少量標注驗證數據,也能有效識別自訓練過程中的性能峰值點,從而規避模型崩潰風險。
如圖6所示,通過在DAPO數據集上持續監測訓練過程并在多個測試集上進行評估,作者發現一個關鍵現象:
不同保留測試集上的性能峰值均出現在相近的訓練步數。
這一規律表明,任意一個測試集都可用于早停決策。
具體而言,圖6中的垂直虛線展示了僅使用1%的DAPO數據作為驗證集的早停效果——此時模型在所有其他評估數據集上的性能仍保持接近最優水平。
算法策略
模型崩潰的根源在于SRT(自訓練強化學習)過度強調一致性而非正確性——即使輸出結果錯誤,模型間的一致性也會被持續強化。
針對此問題,研究人員提出一種簡單有效的解決方案:從穩定的固定檢查點(而非持續更新的策略)生成偽標記。
具體實施中,他們采用Qwen2.5-Math-7B基模型,通過多數表決機制生成偽標記,將這些離線生成的標記存儲后用于后續強化學習訓練。
圖7顯示,使用此類離線標記不僅能顯著提升訓練穩定性,還能達到與SRT相當的模型性能。
這一發現具有重要啟示:訓練過程中動態更新偽標記(在線標注)未必能帶來顯著優勢,反而可能成為訓練不穩定的誘因。
課程學習策略
此外,研究人員提出一個關鍵假設:模型在更具挑戰性的數據集上訓練時,崩潰現象會更快出現。
其內在機理在于:面對高難度數據時,模型更容易放棄預訓練知識,轉而通過優化自一致性(而非真正學習解決任務)來獲取獎勵。
基于此假設,研究人員采用課程學習,通過篩選DAPO數據集中「最簡單」的子集進行訓練。
具體而言,他們保留根據以下兩個指標選出的前1/3最簡單提示樣本:
基模型通過率(需真實標記)
多數表決頻率(無需真實標記)
如圖8所示,在這些簡單子集上訓練能顯著延緩獎勵破解現象的出現,使模型在多個訓練周期內持續提升。
值得注意的是,采用課程學習策略后,模型性能最終達到了與在整個DAPO數據集上使用真實標記進行標準強化學習訓練相當的水平。
這些突破性結果表明,課程學習策略有望進一步拓展SRT的效能邊界,為后續研究開辟了新的方向。
參考資料:
https://www.alphaxiv.org/overview/2505.21444
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.