继昨日放出新开源模型 Prover V2 之后,DeepSeek 在今天又公布了它的技术报告。
这份报告长达 34 页,披露了更多该模型的重要技术细节和基准测试表现,让我们有机会进一步了解它的创新之处。
DeepSeek Prover V2 系列模型有两个尺寸:7B 和 671B 参数。
DeepSeek-Prover-V2-671B 在 DeepSeek-V3-Base 基础上进行训练,推理性能更强。
DeepSeek-Prover-V2-7B 则基于 DeepSeek-Prover-V1.5-Base 构建,上下文长度得到了扩展,最高可达 32K token。
其中,DeepSeek-Prover-V2-671B 在神经定理证明(neural theorem proving)领域超越了之前的模型:MiniF2F 测试集在 Pass@32 下达到了 82.4% 的准确率。
(来源:DeepSeek)
两个模型都已经开源,可以在开源社区 Hugging Face 上找到。技术论文则是在 GitHub 上(模型和论文链接在文末)。
据论文介绍,DeepSeek Prover V2 是一个专为 Lean 4 形式定理证明设计的开源大型语言模型。其最大创新点在于,能将非形式化的数学推理能力与严格的形式化证明过程结合在一起,实现了两种思维模式的有效融合。
你可以想象一下,当我们要解决一道数学题时,脑海中往往先有一个大致的思路,然后再一步步填充细节。这种从整体到局部、从思路到步骤的过程,对人类来说很自然,但对AI却是一项艰巨的挑战。
在 AI 发展历程中,GPT 和 Claude 等大语言模型(LLM,Large Language Model)已经展示出令人印象深刻的数学问题求解能力。它们能够通过“思维链”(CoT,Chain-of-Thought)方法,像人类一样逐步思考问题,甚至能解决一些竞赛级别的难题。
图丨获得美国普林斯顿大学副教授王梦迪点赞(来源:X)
然而,在更为严格的数学领域——形式化定理证明方面,AI 的表现却相对逊色。
原因在于两种思维模式的本质差异:自然语言推理是灵活的、启发式的,允许一定程度的模糊性和跳跃性思维;而形式化证明则要求百分百的精确性和严谨性,每一个推理步骤都必须经过严格验证,不允许任何隐含假设和细节省略。
就像两种不同的语言,虽然表达的是同一个数学世界,但规则和要求却大相径庭。
为了解决这一挑战,DeepSeek-Prover-V2 采用了一种创新的“递归定理证明流程”,这一流程的灵感源自人类数学家解决复杂问题的方法——将困难问题分解为一系列更容易解决的子问题。
图 | 递归定理证明流程概括(来源:DeepSeek)
首先,研究团队利用 DeepSeek-V3 模型担任“分解专家”的角色,构建定理证明系统的基础框架。
当面对一个复杂的数学定理时,DeepSeek-V3 会用自然语言分析和理解问题,提出高层次的证明思路,将整个证明分解为一系列较小的子目标,最后将每个子目标翻译成严格的 Lean 4 形式语言表达,由 have…sorry 语句组成,也就是需要解决的子目标。
这种方法也是人类所用的证明构建方式,即将复杂定理逐步简化为一系列更易管理的引理。
一旦复杂问题被分解为多个子目标,研究团队就会使用更小的 7B 参数模型作为解题专家,逐一攻克这些子目标。这种方法不仅提高了效率,还大幅降低了计算资源的消耗。
DeepSeek 采用递归求解策略系统地解决每个中间证明步骤。他们从 have 语句中提取子目标表达式,用它们替代原始问题中的目标,并将前面的子目标作为前提条件。
这种构建使后续子目标能够利用早期步骤的中间结果,从而促进更局部化的依赖结构,有助于开发更简单的引理。
为了减少大量证明搜索的计算开销,使用专门优化的小型 7B 证明模型处理分解后的引理。成功解决所有分解步骤后,原始定理的完整证明就可以自动推导出来。
(来源:DeepSeek)
在这个过程中,证明模型的训练需要大型形式语言问题集,但从人类编写文本形式化获得的训练信号通常较为稀疏,因为大部分计算尝试都不会产生成功的证明,因此不提供积极的奖励信号。
为了产生更密集的训练信号,DeepSeek 利用子目标扩展用于模型训练的形式语句范围,生成两类子目标定理:一类将前面的子目标作为前提条件,另一类则不包含前提条件。
这两类子目标被整合到专家迭代阶段,建立一个课程(curriculum),逐步引导证明模型系统地解决精心策划的一系列挑战性问题。
随后,研究团队挑选了一些 7B 证明模型无法“端到端(完全)解决”,但“所有子目标均已成功解决”的挑战性问题。通过组合所有子目标的证明,他们构建了原始问题的完整形式证明。这个证明再与 DeepSeek-V3 的自然语言推理过程配对,创建了“冷启动推理数据”。
“这使我们能够收集数百个高质量的合成冷启动数据,作为训练 DeepSeek-Prover-V2 的基础。”论文写道。
这些冷启动数据之所以珍贵,是因为它们同时包含了两种形式的数学推理:直观的自然语言思考链和严格的形式化证明步骤。就像是给 AI 提供了一本内容丰富的“双语教材”,帮助它学习如何在两种表达方式之间自如转换。
有了冷启动数据后,研究团队通过面向推理的强化学习(Reasoning-oriented Reinforcement Learning)进一步优化模型性能。在这个阶段,DeepSeek-Prover-V2 会学习如何更好地连接非形式推理与形式证明构建,特别注重保持证明结构与初始分解思路的一致性。
这个过程类似于学生在掌握基本思路后,通过不断练习和反馈来提升解题能力,逐渐形成自己的解题风格和策略。
在训练阶段,DeepSeek-Prover-V2 采用了两阶段训练策略,建立了两种互补的证明生成模式:
高效非链式思维(non-CoT)模式:快速生成简洁的形式 Lean 证明代码,不包含明确的中间推理步骤。高精度链式思维(CoT)模式:系统地阐述中间推理步骤,强调透明度和逻辑进展,构建最终形式证明。
训练过程中,研究团队使用“专家迭代”方法不断提升模型能力。每次迭代中,用当前最佳模型(策略)尝试解决之前未能解决的问题,成功的证明被添加到训练数据中,用于改进模型。
这个迭代循环持续进行,使模型能够逐步提高解决难题的能力。
此外,在强化学习阶段,DeepSeek 使用了“群体相对策略优化”的算法,相比传统 PPO 效果更好、效率更高。
性能方面,DeepSeek-Prover-V2 在多个主流基准测试中都取得了不错的成绩。
在评估 AI 形式证明能力的标准测试集 MiniF2F 中,DeepSeek-Prover-V2-671B 创造了新记录。在尝试 32 次(Pass@32)的情况下达到了 82.4% 的准确率,当增加到 8192 次(Pass@8192)时,表现提高到了 88.9%。
图 | 在 MiniF2F 测试集上的表现(来源:DeepSeek)
即使是参数较少的 DeepSeek-Prover-V2-7B 也超越了以往所有开源定理证明模型。
在评估大学水平数学能力的 ProofNet 和 PutnamBench 测试中,DeepSeek-Prover-V2-671B 同样表现出色。在 ProofNet 测试集上,它以 Pass@1024 指标达到了 37.1% 的解题率。在极具挑战性的 PutnamBench 上成功解决了 658 个问题中的 49 个。
更加令人惊讶的是,研究团队发现较小的 7B 模型在某些特定问题上甚至超越了 671B 的大模型,成功解决了 13 个大模型未能攻克的问题,将总解题数提升至 62 题。
在更全面的 CombiBench 测试中,DeepSeek-Prover-V2 在 77 个问题中解决了 12 个。虽然这一数字看似不高,但考虑到模型主要在数论和代数领域训练,这一表现已经展示了其良好的跨领域泛化能力。
在 15 个来自 AIME 24 和 25 竞赛的数学问题上,DeepSeek-Prover-V2-671B 成功解决了 6 个,而其通用语言模型 DeepSeek-V3 则解决了 8 个。
研究团队认为这一对比结果很有趣,因为它表明形式数学证明与非形式数学推理之间的能力差距正在显著缩小。
最后,DeepSeek 团队计划将创造 DeepSeek-Prover-V2-671B 的经验扩展称一个类似 AlphaProof 的系统,最终目标是挑战国际数学奥林匹克级别的数学问题。
至于传闻中的下一代 V4/R2 模型,说不定也会用上相关的技术进展。
参考资料:
https://github.com/deepseek-ai/DeepSeek-Prover-V2/tree/main
论文链接:
https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/DeepSeek_Prover_V2.pdf
模型链接:
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B
排版:刘雅坤
《r34chara 官网 1.9.8.5》,《w3u7903ejky2ywls》吹雪一拳超人cos
“裸体调教女仆污手机游戏”
美女脱👙给我捏🐻网站
……
05月07日
“同性Gay❌❌❌免费”我发中游队伍,你说队内短板
↓↓↓
05月07日,周末做手工、用视频“写日记”……小网民的朋友圈喜欢晒点啥?,未成人男女免费网站,免费看美女裸体🔞🔞🔞,国产乱婬AV麻豆精东视频小说,莎莉娜裸身被❌羞羞小说
05月07日,内蒙古小县城“瓜子姐姐”带特色农产品“出海”,国产九色91💃💃回来了,少萝自愿裸体❌❌㐅日本,蜜桃AV精品视频一区二区三区,娜美被❌18禁Naruto堂
05月07日,人类第11次成功预警小行星撞击 我国再次开展多站点组网观测,乡村大炕日B小说,揉⋯啊⋯嗯~出水了男同震动器,亚洲丫丫影视🐔品,欧美XXXX警察
05月07日|【高质量发展调研行】滇池东岸卧龙古渔村焕新生 游客“Country Walk”松弛感拉满|3DcartoonGay男男网站|含羞草是清清爽爽的|扒开美女衣服狂揉❌视频|动漫❌XX❌XX❌XXX
05月07日|2024中国县域博览会在广州开幕 一批合作项目签约|她的🍑🍌❌❌❌18🈲|欧美群伦AAAAA片|流萤裸体被❌涩涩|高清🈚️码🔞❌♋
05月07日|法润彩云南丨在群众中间,就是服务群众的最佳点位!|少女与动物真人版在哪看啊|3D尼尔成人黄动漫在线观看|女学生喷浆❌❌❌软件苹果|苍井空裸体被狂躁A片……
05月07日,“网红主播”是员工还是伙伴?,丝袜脚交视频,女S男M圣水免费网站,原神3DXXXPorntake,申鹤被到爽高潮痉挛游戏
05月07日,这个冬天,他们用火热的心焐热冰雪旅游,1887预订,扒开狂揉难受捆绑日本,furry动漫♂️自慰飞机杯,少司缘被c到高潮下不了
05月07日|莫斯科证券交易所:停止使用美元和欧元交易|欧亚做爰XXXⅩ性欧美小说|高中女生打屁股♥网站╳调皮|日本⭕⭕⭕⭕XX高清丝袜|人妻丰满熟妞av无码区赶尸艳谈
05月07日,2023年中国粮食产量再创历史新高,男同GaY18禁免费下载,女人自慰www免费看片手扣,星野裸体❌❌自慰,扒開腿灌牛奶🥛調教虞书欣
05月07日,2024黄埔马拉松赛将于12月22日广州开跑,伽罗太华同人18❌AV在线观看,成人漫画♥羞羞的漫画入口,12脱了内裤自慰❌露精图片,冲田杏梨ipz828无码破坏版
05月07日,2024乐天世界塔垂直马拉松比赛在韩国首尔举行,小南爆乳被❌🔞🔞㊙️,国产XXXX朝鲜,女同❌吃奶,jk漫画🐓🐓
05月07日|东西问|海春生:如何挖掘好、使用好民族古籍资源?|小黄文全肉开车|小雨┅┅快┅┅用力啊视频|老爷趴在两腿中间吸我奶头视频|成人夜晚看Av❌❌❌戴避孕套
05月07日|2024 WWS世界女子斯诺克锦标赛东莞开杆|涩涩同人❌18禁本子免费|开了俩女小嫩苞A片|美女脱👙给我捏🐻真人|少前美女被❌到高潮喷出www
05月07日|【追光的你】习言道|让青春在创新创造中闪光|欧美AV大毛毛片免费看|女性扒开👙看个够视频中国人|男女又爽又黄免费软件|🖤禁漫天堂🖤雏田被C小说
00后裸辞20次最爱工作是保安,美国制裁中俄实体和个人 外交部回应|德总理朔尔茨与乌总统泽连斯基通电话 就乌军事和人道主义局势交流|精品午夜女友AV在线观看|jojo徐伦被❌吸乳网站|触手伸进内裤里疯狂揉捏|动漫美女的尿囗㊙️网站
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺