大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

AI僅憑“自信”學會推理,浙大校友復刻DeepSeek長思維鏈涌現

0
分享至

夢晨 鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

復刻DeepSeek-R1的長思維鏈推理,大模型強化學習新范式RLIF成熱門話題。

UC Berkeley團隊共同一作Xuandong Zhao把這項成果稱為:

大模型無需接觸真實答案,僅通過優化自己的信心,就能學會復雜推理。



具體來說,新方法完全不需要外部獎勵信號或標注數據,只需使用模型自身的置信程度作為內在獎勵信號。

與使用外部獎勵信號GRPO相比,新方法在數學任務上不需要標準答案也能提升基礎模型性能,在代碼任務上表現得更好。



幾乎同一時間,另外一篇論文《RENT: Reinforcement Learning via Entropy Minimization》也驗證了相似的結論。



作者表示兩者的主要區別在于使用KL散度最小化熵衡量自信程度。



Dropbox工程副總裁看后表示:Confidence is all you need



“自信”驅動的強化學習

長期以來,訓練大模型主要依賴兩種方式:

要么需要大量人工標注(如ChatGPT的RLHF),要么需要可驗證的標準答案(如DeepSeek的RLVR)。

前者成本高昂且可能引入偏見,后者則局限于數學、編程等有明確答案的領域。

那么當AI能力逐漸接近甚至超越人類時,能否讓模型僅憑自身產生的內在信號,擺脫對外部監督的依賴?

針對這個問題,UC Berkeley團隊提出新訓練方法Intuitor,計算模型預測分布與均勻分布之間的KL散度作為“自信程度”。



相當于人類做題時,如果對答案有把握思路也會更清晰,當自信不足的時候往往需要重新思考。

通過優化這個內在信號,INTUITOR鼓勵模型生成它自己”更有把握”的回答,也能促使模型生成更結構化的推理過程。

在實驗中,1.5B和3B的小模型也涌現出與DeepSeek-R1類似的長思維鏈推理行為。



論文還指出,內在獎勵信號還獲得一個額外的好處:從機制上降低了“獎勵黑客”的風險

傳統外部獎勵信號的強化學習容易被“鉆空子”,如模型可能生成語法正確但邏輯錯誤的代碼來匹配測試用例,或在數學題中直接背答案而非推理。

在INTUITOR中,團隊發現如果使用離線學習,在訓練約100步的時候模型也學會了作弊:在回答中附加一個已經解決的簡單問題來提高自信度分數。

但使用在線學習就可以避免這個問題,評估標準隨著模型能力一起進化,作弊策略變得無效。



實驗結果:不僅會做題,還會舉一反三

團隊首先實證研究了INTUITOR框架對LLMs數學推理能力的提升。

實驗選取Qwen2.5-1.5B/3B作為基礎模型,使用自我確定度作為唯一的獎勵信號,并將其分別置于INTUITOR和兩個基線方法(GRPO、GRPO-PV)在MATH數據集的預訓練中。

使用對話提示,每次處理128道題目并各生成7個候選解決方案,KL懲罰系數設置為0.005。

在數學推理、代碼生成、指令遵循的基準測試中進行性能評估,結果如圖所示:



實驗表明,在通過INTUITOR進行微調后,Qwen2.5-1.5B從最初只會輸出重復的無意義內容且對話任務得分均低于10%,轉變為無效輸出大幅減少、響應長度有效增加。



在結構化推理能力上,團隊還發現INTUITOR早期學習速度更快,如Qwen2.5-3B在GSM8K基準測試上INTUITOR(0.811)始終優于GRPO(0.758)



此外,INTUITOR在多任務泛化上也表現優秀,例如當Qwen2.5-3B在代碼生成任務上,雖然相對滯后但持續增長,最終性能比GRPO高8%,相對提升65%



同時團隊還觀察到,在進行長鏈推理時,INTUITOR模型在生成完整代碼前,都會添加自然語言推理(如“為解決X問題,需先執行Y步驟”),據推測也許這就是INTUITOR能夠在測試中始終表現出色的原因之一。

它的演進過程大概可以描述為三個階段:

  1. 模型學會生成代碼,實現準確率提升和無效響應減少。
  2. 進行代碼前推理以促進自我理解。
  3. 逐步細化生成帶詳細推理的有效代碼。



為了評估自我確定度作為獎勵的魯棒性,研究人員還將離線自我確定度(來自固定基礎模型的獎勵)與在線自我確定度(來自不斷進化的策略模型的獎勵)進行了比較。



另外為進一步評估自我確定度作為獎勵信號的質量,研究人員還分析了模型在MATH500響應中生成的自我確定度分數分布。

值得注意的是,INTUITOR模型對正確答案的self-certainty顯著更高,而GRPO雖提升了模型自評能力,但區分度明顯低于INTUITOR。



由于受計算資源限制,實驗只在相對較小的無監督語料庫上進行訓練,未來可在更大規模的基礎模型和更多樣化的真實世界數據集上進一步研究INTUITOR的優勢。

團隊介紹

本項研究來自UC Berkeley的Sergey Levine、宋曉東團隊,作者一共有五位,分別是第一作者博士后研究員Xuandong Zhao、共同一作本科生Zhewei Kang、來自耶魯大學的Aosong Feng,以及Sergey Levine和Dawn Song。



2019年,Xuandong Zhao從浙江大學畢業后,就進入了加州大學圣塔芭芭拉分校攻讀計算機科學博士學位,期間還曾在阿里巴巴、Microsoft和Google等公司實習。

自2024年他進入UC Berkeley后,除本次的新成果外,至今一共還發表過十多篇論文,并先后被ICLR 2025、ICML 2025等接收。



另外在今年2月,Xuandong Zhao和Zhewei Kang還合作發表了一篇論文,描述了基于自我確定性的LLMs推理能力提升新策略Best-of-N,可以看作是本篇論文的一次先驗嘗試。



論文鏈接:https://arxiv.org/abs/2505.19590
代碼鏈接:https://github.com/sunblaze-ucb/Intuitor

參考鏈接:
[1]https://x.com/joshclemm/status/1927400772817285264
[2]https://x.com/xuandongzhao/status/1927270931874910259

[3]https://x.com/xuandongzhao/status/192778163679341780
[4]https://arxiv.org/abs/2502.18581

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
姚安娜被問怎么看待哈佛大學拒收國際生:還好畢業了

姚安娜被問怎么看待哈佛大學拒收國際生:還好畢業了

大象新聞
2025-05-27 08:03:29
4-2,37歲梅西飆世界波+驚艷挑射+無敵擺脫妙傳,率隊終結4輪不勝

4-2,37歲梅西飆世界波+驚艷挑射+無敵擺脫妙傳,率隊終結4輪不勝

側身凌空斬
2025-05-29 09:39:14
善惡終有報!58歲被淘汰的林志炫,是華語樂壇最大的悲哀與損失!

善惡終有報!58歲被淘汰的林志炫,是華語樂壇最大的悲哀與損失!

姩姩有娛呀
2025-05-28 09:07:12
沙特阿拉伯,越來越開放了|地球知識局

沙特阿拉伯,越來越開放了|地球知識局

地球知識局
2025-05-29 12:11:04
家中的床不可空置?觀音菩薩說:無人睡時,也要擺放這3樣物品

家中的床不可空置?觀音菩薩說:無人睡時,也要擺放這3樣物品

風起青萍之未
2025-05-27 17:23:24
快船3+1交易方案曝光,美媒模擬引發球迷熱議!

快船3+1交易方案曝光,美媒模擬引發球迷熱議!

范剬舍長
2025-05-29 00:13:12
老人撿石頭30年,喊著能賣大價錢,住院時湊不齊3000醫療費

老人撿石頭30年,喊著能賣大價錢,住院時湊不齊3000醫療費

全金貓眼
2025-05-05 19:00:03
A股:明天股市或將迎來強降雨

A股:明天股市或將迎來強降雨

生活中的栗子
2025-05-29 10:22:33
汽車屏幕都有彈窗廣告了?有車主控訴駕駛中險些釀禍!CEO致歉……

汽車屏幕都有彈窗廣告了?有車主控訴駕駛中險些釀禍!CEO致歉……

上觀新聞
2025-05-29 08:09:13
百度向李彥宏家的私人飛機支付費用,系配合業務所需而產生的開支

百度向李彥宏家的私人飛機支付費用,系配合業務所需而產生的開支

紅星資本局
2025-05-29 11:57:06
《報告》:延遲退休政策疊加銀行降息,激發年輕消費者對商業養老險的熱情

《報告》:延遲退休政策疊加銀行降息,激發年輕消費者對商業養老險的熱情

北京商報
2025-05-28 21:03:39
曝*汽南京公司全員解散:賠償N+4或回總部調崗不賠償

曝*汽南京公司全員解散:賠償N+4或回總部調崗不賠償

鷂石周說
2025-05-28 20:40:08
游客稱武陵山天池底部竟為304不銹鋼,網友驚呆!景區:確有此事

游客稱武陵山天池底部竟為304不銹鋼,網友驚呆!景區:確有此事

有趣的火烈鳥
2025-05-28 19:09:13
胡金秋:當年拒絕NBA球隊的邀請+拒絕選秀,現在回想起覺得很遺憾

胡金秋:當年拒絕NBA球隊的邀請+拒絕選秀,現在回想起覺得很遺憾

林小湜體育頻道
2025-05-28 21:15:33
哪吒汽車上海總部LOGO被連夜拆除

哪吒汽車上海總部LOGO被連夜拆除

金融界
2025-05-29 11:47:29
史曉燕認為朱媛媛因情緒病患癌,好友稱其生前總擔心辛柏青出軌!

史曉燕認為朱媛媛因情緒病患癌,好友稱其生前總擔心辛柏青出軌!

古希臘掌管月桂的神
2025-05-29 08:59:29
太心酸!一波未平一波又起,59歲劉純燕已經走上了另一條道路

太心酸!一波未平一波又起,59歲劉純燕已經走上了另一條道路

漣漪讀史
2025-05-14 09:06:33
9歲圍棋少年墜亡后續:孩子已火化,爺爺承認家暴,父親討要公道

9歲圍棋少年墜亡后續:孩子已火化,爺爺承認家暴,父親討要公道

悠閑歷史
2025-05-28 14:36:44
金靖真的越來越美越來越瘦!好似森林小精靈太養眼了!

金靖真的越來越美越來越瘦!好似森林小精靈太養眼了!

東方不敗然多多
2025-05-29 14:16:43
媒體人:多哈女單決賽并不公平,王曼昱已經9個月沒教練管了

媒體人:多哈女單決賽并不公平,王曼昱已經9個月沒教練管了

八斗小先生
2025-05-29 15:34:04
2025-05-29 18:40:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10588文章數 176155關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

國務院任免21名干部 剛卸任副省長的女官員進京履新

頭條要聞

國務院任免21名干部 剛卸任副省長的女官員進京履新

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

搭載Thor芯片 領克900城市NOA挑戰重慶

態度原創

時尚
房產
健康
手機
本地

牛仔“藍”很忙,忙著占領你的眼妝

房產要聞

榮耀封頂 | 天正·三亞灣壹號匠筑海居生活新圖景

唇皰疹和口腔潰瘍是"同伙"嗎?

手機要聞

真我Neo7 Turbo首發全新透明機身:同檔罕見

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日日躁夜夜躁狠狠躁夜夜躁| 欧美成人一区二免费视频| 久久精品99国产国产精| 蜜桃精品免费久久久久影院| 无遮掩无码h成人av动漫| 极品少妇一区二区三区四区| 色99久久久久高潮综合影院| 久久国产精久久精产国| 精品一区二区三区av天堂| 国产sm调教折磨视频| 亚洲精品屋v一区二区| 7777精品伊人久久久大香线蕉| 亚洲欧美成人a∨观看| 午夜福利视频网站| 狠狠色婷婷久久一区二区三区| 亚洲日本乱码一区二区产线一∨| 国产成本人片无码免费| 男女啪啪抽搐呻吟高潮动态图| 日本免费不卡的一区视频| 99国产精品99久久久久久| 免费国产乱理伦片在线观看| 亚洲级αv无码毛片久久精品| 国产成人福利美女观看视频| 亚洲欧美日本中文字不卡| 亚洲欧美国产精品无码中文字| 精品国内自产拍在线观看| 香蕉在线精品视频在线| 中文有无人妻vs无码人妻激烈| 九九视频在线观看视频6| 国产亚洲精品久久久久久国模美| 女人高潮抽搐喷液30分钟视频| 九九国产精品无码免费视频| 免费永久看黄神器无码软件| 国产69精品久久久久app下载| 少妇人妻14页_麻花色| 无码中文字幕av免费放dvd| 白嫩日本少妇做爰| 免费无码黄十八禁网站| 成 人色 网 站 欧美大片在线观看| 一本久久a久久精品亚洲| 青青草国产精品人人爱|