大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

思維鏈也「跳幀」浙大團隊提出CoT-Bridge,顯著提升數學推理性能

0
分享至



本文的共同第一作者是徐皓雷和顏聿辰。徐皓雷是浙江大學的一年級碩士生,主要研究興趣集中在大模型推理和可解釋性研究;顏聿辰是浙江大學博士三年級研究生,主要研究興趣集中在大模型推理和智能體。本文通訊作者是浙江大學魯偉明教授和沈永亮研究員。

在大語言模型(LLM)飛速發展的今天,Chain-of-Thought(CoT)技術逐漸成為提升復雜推理能力的關鍵范式,尤其是在數學、邏輯等結構化任務中表現亮眼。

但你是否注意到:即使是精心構建的 CoT 數據,也可能存在 “跳躍式” 推理,缺失關鍵中間步驟。對人類專家來說這些步驟或許 “理所當然”,但對模型而言,卻可能是無法逾越的鴻溝。

為了解決這一問題,浙江大學聯合微軟亞洲研究院、香港中文大學提出了 Thought Leap Bridge 任務,并開發了思維鏈修復方法:CoT-Bridge。實驗顯示,該方法顯著提升了多個數學與邏輯任務中的推理準確率,并能作為 “即插即用” 的模塊嵌入到知識蒸餾、強化學習等流程中。



  • 論文鏈接:https://arxiv.org/abs/2505.14684
  • 項目主頁:https://zju-real.github.io/CoT-Bridge/
  • 代碼倉庫:https://github.com/ZJU-REAL/Mind-the-Gap

CoT 不等于 Coherent-of-Thought

思維跳躍是如何破壞推理鏈的?

CoT 的設計初衷是讓大模型像人一樣 “按步驟思考”,然而研究團隊發現,許多公開 CoT 數據中存在一種被嚴重低估的問題:Thought Leap。

Thought Leap 指的是 CoT 推理鏈中,前后步驟之間存在中間推理內容的省略,導致邏輯跳躍,破壞推理的連貫性。

這種現象往往源于專家在書寫推理過程時的 “經驗性省略”—— 由于熟練掌握相關問題,他們傾向于跳過自認為顯而易見的步驟。然而,模型并不具備這種人類專家式的 “思維粒度”:它需要更細致、逐步的推理過程來建立完整的邏輯鏈條。

論文中給出了一個典型例子:

對于問題 “兩顆八面骰子最少要投多少次,才能確保出現重復的和?”

原始 CoT 中跳過了兩個關鍵推理環節:15 種是怎么來的?為什么要使用鴿巢原理?

這種 “缺口” 雖然對人類來說輕松跨越,對模型而言卻是理解失敗的高風險點。

團隊通過實驗證明,這種結構性不完整對模型訓練帶來顯著負面影響:

  • 訓練效果降低:嚴重的思維跳躍可造成 27.83% 的性能損失
  • 學習效率變低:模型在訓練過程中的收斂速度顯著變慢



CoT-Bridge:為模型補上思維跳躍的 “橋梁”

為解決數學推理任務中推理鏈不連貫的問題,研究團隊提出了 Thought Leap Bridge Task,目標是自動檢測推理鏈中的結構性缺失,并補全相應的中間推理步驟,以恢復其邏輯完整性。

該任務包含兩個關鍵子問題:

1. Leap 檢測:識別推理鏈中相鄰步驟之間是否存在邏輯跳躍,即是否缺失必要的過渡性推理。

2. 步驟補全:對于檢測到的跳躍位置,生成滿足推理連貫性的中間步驟。

團隊將 ScaleQuestMath 作為 “理想” CoT 數據集,并基于其構建了專用訓練數據集 ScaleQM+。研究團隊通過有控制地刪除原始推理鏈中的若干中間步驟,構造出含有 Thought Leap 的 “不完整推理鏈”,并與被刪除的步驟配對,作為訓練樣本。這一設計使得模型能夠學習到如何識別不連貫結構,并生成適當的推理補全內容。

隨后,團隊基于 Qwen2.5-Math-7B 對模型進行指令微調,訓練出 CoT-Bridge 模型。該模型能夠作為獨立組件,接收可能存在缺口的推理鏈輸入,自動輸出所需的中間步驟補全,從而生成結構完整的推理過程。



實驗結果

補全后的數據集顯著提升 SFT 效果

研究團隊在兩個數學推理數據集 MetaMathQA 和 NuminaMath 上,分別使用補全前后的數據進行監督微調(SFT)對比實驗。結果顯示,使用 CoT-Bridge 補全 Thought Leap 后的數據在多個數學基準任務上均帶來了顯著的性能提升,其帶來的最大增益達到 + 5.87%。這表明:思維鏈的連貫性,正是限制模型進一步提升的瓶頸之一,修復這些 “跳躍”,能夠讓模型真正學會 “怎么思考”。



即插即用,增強蒸餾與強化學習流程中的訓練效果

在主實驗基礎上,研究進一步評估了 CoT-Bridge 在更廣泛訓練流程中的適配性,包括知識蒸餾與強化學習兩個典型場景。

蒸餾數據增強:使用大模型生成數學題解是當前訓練數據的來源之一。團隊將 CoT-Bridge 應用于使用 Qwen2.5-Instruct-72B 蒸餾得到的數據。實驗結果表明,補全后的蒸餾數據帶來 + 3.02% 的準確率提升。該結果說明,即便原始生成內容已具備較高質量,推理過程的結構優化仍能帶來額外增益。

強化學習冷啟動優化:在強化學習范式中,初始監督微調模型對最終性能具有重要影響。研究團隊將使用 CoT-Bridge 生成的數據用于 SFT,并在此基礎上繼續訓練。對比實驗顯示,該方案可作為更優的 “冷啟動模型”,在訓練初期即具備更高起點,并最終獲得更好的收斂性能。在 NuminaMath 數據集上,基于補全后數據訓練的模型在 RL 階段最終準確率較原始方案提升約 +3.1%。



泛化能力提升,改善 OOD 推理表現

為了驗證 CoT-Bridge 是否具備跨任務遷移能力,研究將邏輯推理類任務作為模型在 OOD 場景下的評估基準,包括 FOLIO、LogicQA、ProofWriter、ReClor 和 RuleTaker 等。

實驗結果表明,使用補全數據訓練的模型在大多數邏輯任務中準確率有不同程度提升,Meta-Llama3.1-8B 平均提升為 +2.99%,Qwen2.5-Math-1.5B 提升約 +0.99%。此外,模型生成無效輸出的比例有所下降,說明其在結構控制和推理一致性方面表現更為穩健。這意味著,補全思維鏈條不僅提升了數學能力,也讓模型更擅長 “解釋自己是怎么推理出來的”,從而在廣義邏輯任務中具備更強魯棒性。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
楊瀚森加盟尼克斯,NBA總決賽即將上演

楊瀚森加盟尼克斯,NBA總決賽即將上演

老蝣說體育
2025-06-14 19:53:51
伊朗稱逮捕以色列F-35戰機飛行員

伊朗稱逮捕以色列F-35戰機飛行員

國際在線
2025-06-14 21:03:25
HarmonyOS 6.0 突襲曝光,華為這是要全面起飛呀!

HarmonyOS 6.0 突襲曝光,華為這是要全面起飛呀!

明美無限
2025-06-14 18:02:41
兩面派賴清德人后又下毒手? 蔣萬安:行動勝于空談,人民大于朝野

兩面派賴清德人后又下毒手? 蔣萬安:行動勝于空談,人民大于朝野

海峽導報社
2025-06-15 11:19:14
梁洛施有了新戀情和李澤楷無復合可能,郭嘉文這下可以放心了

梁洛施有了新戀情和李澤楷無復合可能,郭嘉文這下可以放心了

農村教育光哥
2025-06-14 10:59:34
伊朗最高領袖高級顧問沙姆哈尼因傷勢過重離世

伊朗最高領袖高級顧問沙姆哈尼因傷勢過重離世

觀察者網
2025-06-15 11:02:04
太開放了!凌晨2點多,老外帶07年女孩打車約會,被司機成功制止

太開放了!凌晨2點多,老外帶07年女孩打車約會,被司機成功制止

火山詩話
2025-06-14 07:08:28
郭晶晶霍啟剛逛首飾店,霍啟剛大方付款,郭晶晶穿回力鞋逛街舒服

郭晶晶霍啟剛逛首飾店,霍啟剛大方付款,郭晶晶穿回力鞋逛街舒服

逍遙史記
2025-06-14 17:23:33
跳水冠軍孫淑偉:16歲一跳成名,退役強迫師妹與他結婚,現今如何

跳水冠軍孫淑偉:16歲一跳成名,退役強迫師妹與他結婚,現今如何

逍遙史記
2025-06-14 15:46:54
以色列女兵為何總穿緊身褲?人人網紅,堪比大片!

以色列女兵為何總穿緊身褲?人人網紅,堪比大片!

健身迷
2025-05-12 09:58:09
瀘州江邊3人溺亡:一位家長帶4個孩子,誤入深水區,親屬透露細節

瀘州江邊3人溺亡:一位家長帶4個孩子,誤入深水區,親屬透露細節

娜烏和西卡
2025-06-15 09:20:40
“夏季不補鈣,骨質疏松快”,夏季多食這3種養鈣菜,補鈣強身!

“夏季不補鈣,骨質疏松快”,夏季多食這3種養鈣菜,補鈣強身!

江江食研社
2025-06-14 10:30:12
觸目驚心的數據,房價的加速下跌即將失控

觸目驚心的數據,房價的加速下跌即將失控

重遠投資觀
2025-06-14 11:22:33
館長訪問四行倉庫后震撼感慨2段話,諷刺統派代表,飆罵獨派代表

館長訪問四行倉庫后震撼感慨2段話,諷刺統派代表,飆罵獨派代表

史潎的生活日記
2025-06-15 02:21:37
總決賽還沒結束就交易!KD太任性!搶總決賽風頭,蕭華也阻止不了

總決賽還沒結束就交易!KD太任性!搶總決賽風頭,蕭華也阻止不了

張家大院趣說天下事
2025-06-15 09:45:03
鳳凰傳奇曾毅塌房:戴“性暗示”手表,機場踹女員工,玲花受牽連

鳳凰傳奇曾毅塌房:戴“性暗示”手表,機場踹女員工,玲花受牽連

春序娛樂
2025-06-14 13:15:28
臺網紅“館長”赴陸強化兩岸和平!最新街訪臺北年輕人“偏見變了”

臺網紅“館長”赴陸強化兩岸和平!最新街訪臺北年輕人“偏見變了”

海峽導報社
2025-06-15 09:23:03
奔馳GLC降到26.5萬還是干不過Q5L?我替奔馳急了

奔馳GLC降到26.5萬還是干不過Q5L?我替奔馳急了

橙心說車
2025-06-15 08:27:13
AI這條鯰魚,終結了志愿填報的信息暴利

AI這條鯰魚,終結了志愿填報的信息暴利

吐槽青年
2025-06-14 10:32:23
楊冪Labubu包包炸街!時尚女王秒殺全場,漫畫腿帥到窒息!

楊冪Labubu包包炸街!時尚女王秒殺全場,漫畫腿帥到窒息!

開心熬夜觀影
2025-06-14 17:07:24
2025-06-15 11:52:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

清華高顏值美女學霸走紅 本人最新發聲

頭條要聞

清華高顏值美女學霸走紅 本人最新發聲

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

家居
親子
教育
旅游
公開課

家居要聞

森林幾何 極簡灰調原木風

親子要聞

幼兒園取消寒暑假?多地教育局回應

教育要聞

今日上午8點半開始,成都百余所高中在王府井科華店等你來咨詢

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产亚洲精品久久久久久久软件| 国产高清一区二区三区直播| 岛国在线观看无码不卡| 亚洲国产一区二区三区波多野结衣| 337p日本欧洲亚洲大胆69影院| 国产乱人视频在线播放| 国产在线拍偷自揄拍无码| 成午夜精品一区二区三区| 亚洲成aⅴ人在线视频| 亚洲国产专区校园欧美| 国产成人无码午夜福利在线直播| 在线观看国产成人av片| 超级碰碰色偷偷免费视频| 2020亚洲国产精品久久久| 男人的天堂av亚洲一区2区| 丰满女邻居的嫩苞张开视频| 中文字幕丰满乱孑伦无码专区| 欧美日本一区二区视频在线观看| 精品国产福利一区二区| 欧美亚洲国产精品久久高清| 无码三级av电影在线观看| 在线精品国精品国产尤物| 国产亚洲精品久久久久久久久| 色偷偷一区二区无码视频| 日本一道本高清一区二区| 亚洲国产精品日本无码网站| 日韩精品乱码av一区二区| 欧美变态另类牲交| 亚洲av人人澡人人爽人人夜夜| 亚洲性无码av中文字幕| av熟女人妻一区二区三区| 一本久道久久综合狠狠爱| 久久综合给合久久国产免费| 亚洲精品乱码久久久久久按摩| 亚洲 欧美 中文 日韩aⅴ综合视频| 99久久国产露脸精品竹菊传媒| 国产白丝精品爽爽久久蜜臀| 2021在线精品自偷自拍无码| 国产精品yy9299在线观看| 99精品久久久久久久婷婷| 奇米在线7777在线精品|