大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

AI數學能力暴漲100%,自進化直逼RL極限!CMU新作顛覆認知

0
分享至

  

  新智元報道

  編輯:桃子 犀牛

  【新智元導讀】數據枯竭正成為AI發展的新瓶頸!CMU團隊提出革命性方案SRT:讓LLM實現無需人類標注的自我進化!SRT初期就能迭代提升數學與推理能力,甚至性能逼近傳統強化學習的效果,揭示了其顛覆性潛力。

  通往AGI最大的絆腳石,便是互聯網數據不夠用了!

  DeepSeek-R1、OpenAI的o系推理模型出世,不再單純依賴人類標注「標準答案」,而是通過RL實現破局。

  但問題來了——當前,LLM依然需要人類設計「正確信號」來指導訓練。

  如果問題復雜到人類都不知道答案,這些AI就只能抓瞎了。

  為此,CMU聯手獨立研究員推出一套「自獎勵訓練」(SRT)的全新方法,堪稱AI「自我修行」的秘籍!

  

  論文地址:https://arxiv.org/pdf/2505.21444

  它的核心思路是,讓LLM利用自身「自洽性」作為內在的監督信號,生成獎勵來優化自己。

  簡單來說,AI會像一個哲學家,盯著自己的答案自問:這個推導邏輯自洽嗎?有沒有漏洞?

  然后,它會根據答案「自洽程度」給自己打分,再用分數去不斷改進。

  關鍵是,SRT完全不需要人類標注的數據,可以自然地應用于「測試時訓練」。

  實驗結果讓人眼前一亮:在早期訓練階段,SRT的性能與標準答案訓練RL方法相媲美。

  目前,研究團隊的代碼已公開。

  

  地址:https://github.com/tajwarfahim/srt

  自獎勵訓練:AI自我修行秘籍

  在沒有外部監督的情況下,模型需要依靠自身來生成監督信號。

  直觀來說,如果模型能夠在其生成的多個答案中識別出更高質量的答案,那么這種識別出的改進就可以作為訓練信號。

  這種情況自然地發生在具有正向「生成-驗證差距」的問題中,比如數學、邏輯推理和代碼生成任務。

  一種簡單但有效的方法是利用多數投票來挖掘這種差距。實驗表明,這比單個模型生成的答案有更高的準確性。

  在本文的設置中,多數投票的步驟包括:

  對每個提示采樣生成多個答案;

  根據解析出的最終解決方案對答案進行分組;

  用最常見的解決方案(眾數)來估計真實答案。

  自進化方法SRT

  研究團隊提出了一種新穎的方法,把模型的自我改進過程設計成一個強化學習任務。

  在這個過程中,標簽并不是固定的,而是由模型不斷演變的多數投票結果動態生成的。

  簡單來說,就是讓模型自己「投票」選出最好的答案,并用這些答案作為指導,逐步提升自己的表現。

  強化學習的每一輪操作可以簡單理解為以下步驟:

  采樣一小批提示,然后用當前模型為每個提示生成n個可能的答案。

  通過「多數投票」的方式,找出每個提示下最常見的答案,作為臨時的「標準答案」(偽標簽)。

  檢查每個生成答案是否與多數投票的答案一致,如果一致就給它一個獎勵(用公式表示為:r(y) = 1[answer(y) = y_majority])。

  根據這批數據和計算出的獎勵,更新一次模型,讓它變得更聰明。

  具體來說,研究團隊設計了一種獎勵機制,巧妙利用模型自洽性來定義獎勵方式。這使得他們的方法能輕松適配常見的強化學習算法,比如PPO、RLOO、REINFORCE和REINFORCE+++。

  另外,由于每個問題提示通常會生成16到64個答案,SRT跟其他基于標簽的算法相比,不會增加額外的計算負擔。

  只要每次強化學習迭代時,多數投票都能讓模型的生成結果比驗證結果更好一點,這種反復的自我獎勵就能持續提供有用的指導信號,幫助模型不斷進步。

  雖然模型自我改進的前景令人振奮,但仍然有局限性:模型自生成的獎勵僅僅是衡量潛在正確性的代用指標。

  這種代用獎勵可能觸發「獎勵作弊」(reward hacking):模型為了最大化自身賦予的獎勵,會產出越來越自洽卻可能并不正確的答案。

  總的來說,這項研究的貢獻有以下四點:

  提出了一種簡單而有效的自訓練強化學習方法——自獎勵訓練(SRT)。該方法利用多個模型生成解之間的一致性來估計強化學習訓練中的正確性,在沒有標記數據的情況下提供自監督信號。

  通過實驗證明,在早期訓練階段,SRT的性能可媲美使用標準答案訓練的標準強化學習方法。

  分析了自生成獎勵的局限性,揭示了模型的獎勵函數最初與正確性相關,但可能會退化為僅反映置信度而非真實準確性,導致獎勵作弊問題。

  提出了緩解獎勵作弊的策略,為未來持續模型改進的方法奠定了基礎。

  實驗結果

  最新提出的SRT算法,其優勢和局限是什么?

  為此,研究人員基于Qwen2.5-Math-7B模型,展開了一系列研究,具體回答了以下四大核心問題:

  與基于真實標記的標準強化學習方法相比,SRT算法的有效性如何?對未見問題可以實現泛化嗎?

  自我改進能否持續迭代從而實現性能的不斷提升?抑或這種改進存在固有上限?

  哪些底層因素會影響自我改進的有效性?

  當SRT用于測試階段的性能提升時,實際效果如何?

  基于多數投票的自訓練

  如下圖2所示,在MATH和AIME訓練集上,自監督SRT方法無需真實標記信號,即可取得與基于真實標記的強化學習相當的結果。

  值得注意的是,圖2的pass@1分數均是在保留測試集上評估的,這表明自訓練過程能穩健地泛化到訓練分布之外。

  

  然而,DAPO數據集上的結果更為復雜。

  具體而言,在DAPO上訓練時,研究人員發現SRT算法在測試集上的性能,最初以與基于真實答案的標準RL相當的速度提升。

  但在約400-600訓練步時,SRT達到峰值性能后開始下降,而基于真實標記的標準RL訓練卻能持續提升。

  總體而言,研究發現了一個引人注目且出人意料的趨勢:即使沒有任何標注樣本,SRT的性能曲線在訓練初期與基于標準答案的RL高度吻合。

  在統計誤差范圍內,SRT在MATH和AIME'83-AIME'23數據集上的峰值測試pass@1分數與有監督RL方法基本持平。

  在更具挑戰性的DAPO數據集上,SRT仍能達到RL最終性能的75%。

  此外,在所有三個訓練集上,SRT的峰值性能相比基礎模型都有約100%的相對提升。

  SRT性能峰值后,異?,F象分析

  當SRT在DAPO訓練集上達到性能峰值后(見圖2),研究人員觀察到其測試準確率開始顯著惡化。

  事實上,在MATH-12k數據集上訓練超過兩個epoch時,同樣會出現明顯的性能崩潰現象。

  對于這種行為,作者給出一個簡單而精確的理論解釋:

  由SRT目標定義的強化學習優化問題明確鼓勵輸出之間的一致性,而與正確性無關。

  因此,在該目標下的最優策略是無論輸入如何都生成完全相同的響應,從而人為地獲得最大可能的獎勵。

  因此,自然可以預期,在這種代理目標下的持續訓練可能導致這種退化解,尤其是當優化這一目標比學習解決實際任務更容易時。

  

  測試時自改進

  自訓練的一個誘人應用,是通過測試時訓練(test-time training)提升模型準確率。

  將SRT作為測試時訓練技術應用異常簡單:只需將無標注測試集完全視作訓練數據集,并直接應用SRT。

  接下來,研究人員對比了經過SRT測試時訓練后的多數投票性能,與未進行任何測試時訓練的性能。

  如下圖4顯示,在maj@32指標下,相比直接對基礎模型生成輸出應用主流多數投票基線,通過SRR實現的測試時訓練能帶來相對有限,但仍可察覺的性能提升。

  此外,在更大規模的測試數據集上,相較于基礎模型的多數投票,其性能增益更為顯著。

  

  為何測試時訓練不會引發性能崩潰?

  有趣的是,測試時訓練完成后,通過直觀檢查模型輸出可發現:盡管模型對幾乎每個測試提示的預測都退化成了單一響應(這正是SRT目標的最優解行為),但測試準確率仍保持高位。

  研究人員推測,測試時自訓練的穩定性源于數據集規模的關鍵差異。

  以AIME24測試數據集為例,其僅含30個自改進樣本。

  在此有限樣本量下,模型會通過強化特定CoT推,迅速收斂至這些樣本上的穩定多數投票答案。

  一旦達成收斂,SRT便無法獲得有意義的梯度信號以進一步更新參數,從而自然穩定了測試時性能。

  

  相比之下,在大規模數據集常規訓練時,持續輸入的新樣本會不斷驅使模型為一致性進行過度優化。

  在此條件下,模型傾向于采用過度簡化的泛化策略(生成相同的\boxed{}答案),最終因輸出與提示無關的單一預測而崩潰。

  大模型崩潰,可以避免嗎?

  那么,LLM是否可以避免崩潰?

  如上所述,自獎勵訓練(SRT)的優化目標,可能導致初期性能顯著提升,但最終引發模型崩潰。

  為此,研究人員探究了以下互補策略,以應對模型崩潰問題,進一步提升自訓練性能上限:

  早停(Early Stopping)策略:利用少量帶標注的驗證數據集監測模型狀態,及時終止訓練以防止崩潰;

  算法策略:通過采用穩定基模型(而非持續更新的模型)生成的偽標記,從根本上降低崩潰風險;

  數據驅動的課程學習(Curriculum Learning)策略:突破簡單早停的局限,通過漸進式學習機制提升模型性能。

  早停策略

  實驗中,即使僅使用少量標注驗證數據,也能有效識別自訓練過程中的性能峰值點,從而規避模型崩潰風險。

  如圖6所示,通過在DAPO數據集上持續監測訓練過程并在多個測試集上進行評估,作者發現一個關鍵現象:

  不同保留測試集上的性能峰值均出現在相近的訓練步數。

  這一規律表明,任意一個測試集都可用于早停決策。

  具體而言,圖6中的垂直虛線展示了僅使用1%的DAPO數據作為驗證集的早停效果——此時模型在所有其他評估數據集上的性能仍保持接近最優水平。

  

  算法策略

  模型崩潰的根源在于SRT(自訓練強化學習)過度強調一致性而非正確性——即使輸出結果錯誤,模型間的一致性也會被持續強化。

  針對此問題,研究人員提出一種簡單有效的解決方案:從穩定的固定檢查點(而非持續更新的策略)生成偽標記。

  具體實施中,他們采用Qwen2.5-Math-7B基模型,通過多數表決機制生成偽標記,將這些離線生成的標記存儲后用于后續強化學習訓練。

  圖7顯示,使用此類離線標記不僅能顯著提升訓練穩定性,還能達到與SRT相當的模型性能。

  這一發現具有重要啟示:訓練過程中動態更新偽標記(在線標注)未必能帶來顯著優勢,反而可能成為訓練不穩定的誘因。

  

  課程學習策略

  此外,研究人員提出一個關鍵假設:模型在更具挑戰性的數據集上訓練時,崩潰現象會更快出現。

  其內在機理在于:面對高難度數據時,模型更容易放棄預訓練知識,轉而通過優化自一致性(而非真正學習解決任務)來獲取獎勵。

  基于此假設,研究人員采用課程學習,通過篩選DAPO數據集中「最簡單」的子集進行訓練。

  具體而言,他們保留根據以下兩個指標選出的前1/3最簡單提示樣本:

  基模型通過率(需真實標記)

  多數表決頻率(無需真實標記)

  

  如圖8所示,在這些簡單子集上訓練能顯著延緩獎勵破解現象的出現,使模型在多個訓練周期內持續提升。

  值得注意的是,采用課程學習策略后,模型性能最終達到了與在整個DAPO數據集上使用真實標記進行標準強化學習訓練相當的水平。

  這些突破性結果表明,課程學習策略有望進一步拓展SRT的效能邊界,為后續研究開辟了新的方向。

  參考資料:

  https://www.alphaxiv.org/overview/2505.21444

  

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

懸案解密檔案
2025-05-09 18:00:29
100萬人傷亡背后俄羅斯實際已遭重創

100萬人傷亡背后俄羅斯實際已遭重創

史政先鋒
2025-06-13 10:54:49
抗議蔓延全美!特朗普宣布暫停搜捕3個行業移民

抗議蔓延全美!特朗普宣布暫停搜捕3個行業移民

看看新聞Knews
2025-06-14 17:01:31
中美達成協議后,賴清德導師訪問北京,民進黨擔心的事發生了!

中美達成協議后,賴清德導師訪問北京,民進黨擔心的事發生了!

史潎的生活日記
2025-06-15 02:17:51
特朗普受邀訪華1天后,馬斯克父親突然出山,給兒子留下特殊囑托

特朗普受邀訪華1天后,馬斯克父親突然出山,給兒子留下特殊囑托

紅色鑒史官
2025-06-13 19:10:03
A股:下周一,不好的消息又來了!

A股:下周一,不好的消息又來了!

虎哥閑聊
2025-06-14 16:48:27
換鞋換拍!又換衣服!鄭欽文到底輸在了哪里,賽后的數據一清二楚

換鞋換拍!又換衣服!鄭欽文到底輸在了哪里,賽后的數據一清二楚

侃球熊弟
2025-06-15 02:11:33
美退伍軍人推翻國會大廈柵欄抗議閱兵

美退伍軍人推翻國會大廈柵欄抗議閱兵

新京報
2025-06-14 20:16:11
中國要提防巴基斯坦,看看他們的小孩,隨口就:“秦腔窮”

中國要提防巴基斯坦,看看他們的小孩,隨口就:“秦腔窮”

諦聽骨語本尊
2025-06-14 15:17:07
中超海港2-2浙江!26018人觀賽,蘇超淮安1-1南京,足協咋應對

中超海港2-2浙江!26018人觀賽,蘇超淮安1-1南京,足協咋應對

阿柒體訊
2025-06-14 21:37:20
拿到稀土的美總統,對華關稅不降了,中方對美國,只提了一個要求

拿到稀土的美總統,對華關稅不降了,中方對美國,只提了一個要求

娛樂八卦木木子
2025-06-14 08:46:25
超巨時刻!亞歷山大末節最后4分38秒獨攬15分逆天改命!

超巨時刻!亞歷山大末節最后4分38秒獨攬15分逆天改命!

直播吧
2025-06-14 11:40:20
她才是娛樂圈公認的大美女:已經39歲了,但顏值高過好多年輕女星

她才是娛樂圈公認的大美女:已經39歲了,但顏值高過好多年輕女星

逍遙史記
2025-06-13 15:42:40
來了,巴薩!7000萬“頂星”正式同意加盟!8000萬先生轉會敲定

來了,巴薩!7000萬“頂星”正式同意加盟!8000萬先生轉會敲定

頭狼追球
2025-06-14 17:55:04
亞歷山大35分雷霆2:2扳平步行者,福斯特裁判組絕對控制

亞歷山大35分雷霆2:2扳平步行者,福斯特裁判組絕對控制

李廣專業體育評論
2025-06-14 11:35:56
千萬別急,經濟正在扭轉!

千萬別急,經濟正在扭轉!

子木聊房
2025-06-12 18:51:08
范冰冰,裙開叉到大腿根,深v開到肚子,饅頭都可以看7分了

范冰冰,裙開叉到大腿根,深v開到肚子,饅頭都可以看7分了

說真話的小陳
2025-06-14 09:26:28
米體:受伊朗和以色列戰爭影響,塔雷米已無緣參加世俱杯

米體:受伊朗和以色列戰爭影響,塔雷米已無緣參加世俱杯

懂球帝
2025-06-15 01:45:51
扒底褲了!從246萬跌到76萬,深圳坪山這小區房價,讓人痛不欲生

扒底褲了!從246萬跌到76萬,深圳坪山這小區房價,讓人痛不欲生

火山詩話
2025-06-14 12:55:33
劉嘉玲天塌了!出席活動梁朝偉像個小老頭,她的衣服被吐槽不得體

劉嘉玲天塌了!出席活動梁朝偉像個小老頭,她的衣服被吐槽不得體

小咪侃娛圈
2025-06-14 14:04:44
2025-06-15 04:28:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12876文章數 66068關注度
往期回顧 全部

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

藝術
家居
親子
數碼
游戲

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

森林幾何 極簡灰調原木風

親子要聞

給18個月幼兒灌酒,無論出于什么心態都不該寬?。戮﹫罂煸u

數碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

死掉的“賽博初戀”,有誰能夠打贏復活賽?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品无码一区二区| 久久性爱视频| 人妻丝袜中文无码av影音先锋专区| 男人下部进女人下部视频| 色播久久人人爽人人爽人人片av| 亚洲成在人线av无码| 肉色欧美久久久久久久免费看| 熟女无套高潮内谢吼叫免费| 国产精品综合av一区二区| 欧美交换国产一区内射| 亚洲成av人片在线观看天堂无码| 成人无码一区二区三区网站| 无码人妻精品一区二区蜜桃色欲| 18禁黄污无遮挡无码网站| av动漫无码不卡在线观看| 国产成人av综合亚洲色欲| 久久久精品波多野结衣| 国产永久免费观看视频| 成人无码精品一区二区三区亚洲区| 欧美成a高清在线观看| 欧美人与动牲交a精品| 欧美俄罗斯乱妇| 99久久人妻精品免费二区| 国产美女裸身网站免费观看视频| 全黄h全肉边做边吃奶视频| 中文字幕av一区中文字幕天堂| a级毛片内射免费视频| 妺妺窝人体色www在线下载| 人妻丰满av无码久久不卡| 国产精品看高国产精品不卡| 亚洲人成色777777老人头| 日韩一区二区三区无码a片| 日韩精品一区二区av在线| 日本高清www色视频| 色情无码www视频无码区小黄鸭| 伊人无码精品久久一区二区| 四虎永久地址www成人久久| 3d动漫精品啪啪一区二区| 无码h黄动漫在线播放网站| 尤物193在线人妻精品免费| 亚洲精品无码久久久|