本文的共同第一作者是徐皓雷和顏聿辰。徐皓雷是浙江大學的一年級碩士生,主要研究興趣集中在大模型推理和可解釋性研究;顏聿辰是浙江大學博士三年級研究生,主要研究興趣集中在大模型推理和智能體。本文通訊作者是浙江大學魯偉明教授和沈永亮研究員。
在大語言模型(LLM)飛速發展的今天,Chain-of-Thought(CoT)技術逐漸成為提升復雜推理能力的關鍵范式,尤其是在數學、邏輯等結構化任務中表現亮眼。
但你是否注意到:即使是精心構建的 CoT 數據,也可能存在 “跳躍式” 推理,缺失關鍵中間步驟。對人類專家來說這些步驟或許 “理所當然”,但對模型而言,卻可能是無法逾越的鴻溝。
為了解決這一問題,浙江大學聯合微軟亞洲研究院、香港中文大學提出了 Thought Leap Bridge 任務,并開發了思維鏈修復方法:CoT-Bridge。實驗顯示,該方法顯著提升了多個數學與邏輯任務中的推理準確率,并能作為 “即插即用” 的模塊嵌入到知識蒸餾、強化學習等流程中。
- 論文鏈接:https://arxiv.org/abs/2505.14684
- 項目主頁:https://zju-real.github.io/CoT-Bridge/
- 代碼倉庫:https://github.com/ZJU-REAL/Mind-the-Gap
CoT 不等于 Coherent-of-Thought
思維跳躍是如何破壞推理鏈的?
CoT 的設計初衷是讓大模型像人一樣 “按步驟思考”,然而研究團隊發現,許多公開 CoT 數據中存在一種被嚴重低估的問題:Thought Leap。
Thought Leap 指的是 CoT 推理鏈中,前后步驟之間存在中間推理內容的省略,導致邏輯跳躍,破壞推理的連貫性。
這種現象往往源于專家在書寫推理過程時的 “經驗性省略”—— 由于熟練掌握相關問題,他們傾向于跳過自認為顯而易見的步驟。然而,模型并不具備這種人類專家式的 “思維粒度”:它需要更細致、逐步的推理過程來建立完整的邏輯鏈條。
論文中給出了一個典型例子:
對于問題 “兩顆八面骰子最少要投多少次,才能確保出現重復的和?”
原始 CoT 中跳過了兩個關鍵推理環節:15 種是怎么來的?為什么要使用鴿巢原理?
這種 “缺口” 雖然對人類來說輕松跨越,對模型而言卻是理解失敗的高風險點。
團隊通過實驗證明,這種結構性不完整對模型訓練帶來顯著負面影響:
- 訓練效果降低:嚴重的思維跳躍可造成 27.83% 的性能損失
- 學習效率變低:模型在訓練過程中的收斂速度顯著變慢
CoT-Bridge:為模型補上思維跳躍的 “橋梁”
為解決數學推理任務中推理鏈不連貫的問題,研究團隊提出了 Thought Leap Bridge Task,目標是自動檢測推理鏈中的結構性缺失,并補全相應的中間推理步驟,以恢復其邏輯完整性。
該任務包含兩個關鍵子問題:
1. Leap 檢測:識別推理鏈中相鄰步驟之間是否存在邏輯跳躍,即是否缺失必要的過渡性推理。
2. 步驟補全:對于檢測到的跳躍位置,生成滿足推理連貫性的中間步驟。
團隊將 ScaleQuestMath 作為 “理想” CoT 數據集,并基于其構建了專用訓練數據集 ScaleQM+。研究團隊通過有控制地刪除原始推理鏈中的若干中間步驟,構造出含有 Thought Leap 的 “不完整推理鏈”,并與被刪除的步驟配對,作為訓練樣本。這一設計使得模型能夠學習到如何識別不連貫結構,并生成適當的推理補全內容。
隨后,團隊基于 Qwen2.5-Math-7B 對模型進行指令微調,訓練出 CoT-Bridge 模型。該模型能夠作為獨立組件,接收可能存在缺口的推理鏈輸入,自動輸出所需的中間步驟補全,從而生成結構完整的推理過程。
實驗結果
補全后的數據集顯著提升 SFT 效果
研究團隊在兩個數學推理數據集 MetaMathQA 和 NuminaMath 上,分別使用補全前后的數據進行監督微調(SFT)對比實驗。結果顯示,使用 CoT-Bridge 補全 Thought Leap 后的數據在多個數學基準任務上均帶來了顯著的性能提升,其帶來的最大增益達到 + 5.87%。這表明:思維鏈的連貫性,正是限制模型進一步提升的瓶頸之一,修復這些 “跳躍”,能夠讓模型真正學會 “怎么思考”。
即插即用,增強蒸餾與強化學習流程中的訓練效果
在主實驗基礎上,研究進一步評估了 CoT-Bridge 在更廣泛訓練流程中的適配性,包括知識蒸餾與強化學習兩個典型場景。
蒸餾數據增強:使用大模型生成數學題解是當前訓練數據的來源之一。團隊將 CoT-Bridge 應用于使用 Qwen2.5-Instruct-72B 蒸餾得到的數據。實驗結果表明,補全后的蒸餾數據帶來 + 3.02% 的準確率提升。該結果說明,即便原始生成內容已具備較高質量,推理過程的結構優化仍能帶來額外增益。
強化學習冷啟動優化:在強化學習范式中,初始監督微調模型對最終性能具有重要影響。研究團隊將使用 CoT-Bridge 生成的數據用于 SFT,并在此基礎上繼續訓練。對比實驗顯示,該方案可作為更優的 “冷啟動模型”,在訓練初期即具備更高起點,并最終獲得更好的收斂性能。在 NuminaMath 數據集上,基于補全后數據訓練的模型在 RL 階段最終準確率較原始方案提升約 +3.1%。
泛化能力提升,改善 OOD 推理表現
為了驗證 CoT-Bridge 是否具備跨任務遷移能力,研究將邏輯推理類任務作為模型在 OOD 場景下的評估基準,包括 FOLIO、LogicQA、ProofWriter、ReClor 和 RuleTaker 等。
實驗結果表明,使用補全數據訓練的模型在大多數邏輯任務中準確率有不同程度提升,Meta-Llama3.1-8B 平均提升為 +2.99%,Qwen2.5-Math-1.5B 提升約 +0.99%。此外,模型生成無效輸出的比例有所下降,說明其在結構控制和推理一致性方面表現更為穩健。這意味著,補全思維鏈條不僅提升了數學能力,也讓模型更擅長 “解釋自己是怎么推理出來的”,從而在廣義邏輯任務中具備更強魯棒性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.