網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek再開(kāi)源！大模型直覺(jué)+強(qiáng)化學(xué)習(xí)新方法：AI 數(shù)學(xué)證明迎來(lái)新突破

2025-05-01 06:18:12　來(lái)源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

各位五一快樂(lè)！（順便星標(biāo)??一下本號(hào)，最近很多朋友反應(yīng)不能及時(shí)看到內(nèi)容更新，只有關(guān)注并且??才會(huì)第一時(shí)間收到更新）

讓 AI 理解并進(jìn)行嚴(yán)格的數(shù)學(xué)推理，尤其是形式化證明（就是用像 Lean、Coq 這樣的證明輔助語(yǔ)言寫(xiě)的、機(jī)器可驗(yàn)證的證明），一直是個(gè)挑戰(zhàn)。這不僅需要邏輯能力，還需要某種程度的“數(shù)學(xué)直覺(jué)”來(lái)分解復(fù)雜問(wèn)題。

今天DeepSeek 正式開(kāi)源了他們最新的DeepSeek-Prover-V2模型，專(zhuān)門(mén)用于Lean 4形式化定理證明。這次不僅僅是一次模型的迭代（對(duì)DeepSeek-Prover-V1.5），更帶來(lái)了一種結(jié)合大語(yǔ)言模型（LLM）的直覺(jué)和強(qiáng)化學(xué)習(xí)（RL）嚴(yán)謹(jǐn)性的新思路

DeepSeek這次開(kāi)源了兩個(gè)模型版本

DeepSeek-Prover-V2-671B：基于 DeepSeek-Prover-V1.5-Base 構(gòu)建，上下文長(zhǎng)度擴(kuò)展到 32K tokens

DeepSeek-Prover-V2-7B：基于 DeepSeek-V3-Base 訓(xùn)練，還附有詳細(xì)的論文，論文題目《DeepSeek-Prover-V2：通過(guò)強(qiáng)化學(xué)習(xí)推進(jìn)子目標(biāo)分解的形式數(shù)學(xué)推理》

性能 SOTA：DeepSeek-Prover-V2-671B模型，在標(biāo)準(zhǔn)測(cè)試集MiniF2F-test上達(dá)到了88.9%的通過(guò)率，這是目前的最佳水平

挑戰(zhàn)難題：在更難的PutnamBench（基于普特南數(shù)學(xué)競(jìng)賽題）上，它成功解決了49 個(gè)問(wèn)題（總共 658 個(gè)）。從圖表看，這個(gè)成績(jī)也顯著優(yōu)于之前的 BFS-Prover 7B、STP 7B 等模型

Hugging Face (模型下載):

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B

論文鏈接:

https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/DeepSeek_Prover_V2.pdf

核心思路：兩步走，聯(lián)通直覺(jué)與形式

DeepSeek-Prover-V2 的訓(xùn)練方法很有意思，可以概括為兩個(gè)關(guān)鍵階段：

一,冷啟動(dòng)數(shù)據(jù)合成：用大模型“拆解”問(wèn)題

他們先利用DeepSeek-V3這個(gè)強(qiáng)大的基礎(chǔ)模型。通過(guò)精心設(shè)計(jì)的 Prompt，讓 V3 同時(shí)做兩件事：

?分解定理：把一個(gè)復(fù)雜的證明目標(biāo)，拆解成一系列更小的、更容易處理的子目標(biāo)（Subgoals），并給出高級(jí)證明草圖（Proof Sketch）。這模擬了人類(lèi)數(shù)學(xué)家的“直覺(jué)”或“規(guī)劃”能力
?同步形式化：在分解的同時(shí)，嘗試將這些證明步驟形式化為 Lean 4 代碼片段，形成一系列子目標(biāo)

然后，他們用一個(gè)較小的 7B 參數(shù)模型（DeepSeek-Prover-V2-7B 或類(lèi)似模型）去搜索每個(gè)子目標(biāo)的具體形式化證明。這樣做的好處是，針對(duì)小目標(biāo)的搜索計(jì)算成本更低

一旦所有子目標(biāo)都被解決了，就把這些子目標(biāo)的證明組合起來(lái)，形成原始問(wèn)題的完整形式化證明。

最后，將這個(gè)完整的形式化證明與 DeepSeek-V3 最初生成的“分解思路+形式化草稿”（Chain-of-Thought）配對(duì)，構(gòu)成一份高質(zhì)量的“冷啟動(dòng)”訓(xùn)練數(shù)據(jù)。這份數(shù)據(jù)既包含了宏觀的解題策略，也包含了微觀的、嚴(yán)格的證明步驟

二，強(qiáng)化學(xué)習(xí)：用合成數(shù)據(jù)“教會(huì)”模型連接思路與證明

篩選出一部分“有挑戰(zhàn)性”的問(wèn)題：這些問(wèn)題是 7B 模型無(wú)法直接端到端解決，但其分解出的所有子目標(biāo)都能被成功證明的。用這些問(wèn)題對(duì)應(yīng)的“合成證明”（由子目標(biāo)證明拼接而成）和 DeepSeek-V3 的思路鏈，來(lái)構(gòu)建 RL 的初始數(shù)據(jù)

用這些合成數(shù)據(jù)對(duì) Prover 模型進(jìn)行微調(diào)

然后進(jìn)入強(qiáng)化學(xué)習(xí)階段。目標(biāo)是進(jìn)一步提升模型將非形式化推理（如 V3 給出的解題思路）轉(zhuǎn)化為形式化證明的能力。訓(xùn)練目標(biāo)很直接：對(duì)于模型生成的證明，系統(tǒng)反饋一個(gè)二元信號(hào)（正確或錯(cuò)誤）作為獎(jiǎng)勵(lì)，驅(qū)動(dòng)模型學(xué)習(xí)生成正確的證明

新基準(zhǔn)：ProverBench，更全面的評(píng)測(cè)

為了更全面地評(píng)估模型在不同數(shù)學(xué)領(lǐng)域和難度上的能力，DeepSeek 還推出了一個(gè)新的基準(zhǔn)測(cè)試集ProverBench。

組成：共325個(gè)問(wèn)題

?15 個(gè)來(lái)自近兩年的AIME（美國(guó)數(shù)學(xué)邀請(qǐng)賽）的數(shù)論和代數(shù)題，代表了真實(shí)的高中競(jìng)賽挑戰(zhàn)
?310 個(gè)來(lái)自精心挑選的教科書(shū)和教程，覆蓋了數(shù)論 (40), 初等代數(shù) (30), 線性代數(shù) (50), 抽象代數(shù) (40), 微積分 (90), 實(shí)分析 (30), 復(fù)分析 (10), 泛函分析 (10), 概率論 (10) 等多個(gè)本科及以上數(shù)學(xué)領(lǐng)域

目標(biāo)：提供一個(gè)能同時(shí)評(píng)估高中競(jìng)賽水平和本科基礎(chǔ)數(shù)學(xué)能力的、更多樣化、更貼近教育場(chǎng)景的評(píng)測(cè)平臺(tái)

快速上手：自己跑試試看

想自己跑跑看？很簡(jiǎn)單：

模型可以通過(guò) Hugging Face 的transformers庫(kù)直接加載使用

DeepSeek-Prover-V2-671B 與 DeepSeek-V3架構(gòu)相同，可以直接參考 DeepSeek-V3 在 Hugging Face 上的文檔

倉(cāng)庫(kù)里提供了一個(gè)基礎(chǔ)的 miniF2F 推理示例代碼：輸入形式化的定理描述，設(shè)置好 Prompt（要求模型先提供詳細(xì)證明計(jì)劃，再生成 Lean 4 代碼），模型就能輸出證明思路和代碼

# 示例代碼片段 (關(guān)鍵部分) from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_id = "deepseek-ai/DeepSeek-Prover-V2-7B" # or 671B tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained(model_id, ...) formal_statement = """ import Mathlib ... theorem mathd_algebra_10: abs ((120 : ?) / 100 * 30 - 130 / 100 * 20) = 10 := by   sorry """.strip() prompt = """ Complete the following Lean 4 code: ```lean4 {} Before producing the Lean 4 code to formally prove the given theorem, provide a detailed proof plan... """.strip() chat = [{"role": "user", "content": prompt.format(formal_statement)}] inputs = tokenizer.apply_chat_template(chat, ...) outputs = model.generate(**inputs, ...)

參考：

https://github.com/deepseek-ai/DeepSeek-Prover-V2

?星標(biāo)AI寒武紀(jì)，好內(nèi)容不錯(cuò)過(guò)?

用你的贊和在看告訴我～

求贊

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.