DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

量子位 · 公众号 · AI · 2025-05-01 11:53

文章预览

梦晨西风发自凹非寺量子位 | 公众号 QbitAI DeepSeek放大招！新模型专注数学定理证明，大幅刷新多项高难基准测试。在普特南测试上，新模型 DeepSeek-Prover-V2 直接把记录刷新到 49道。目前的第一名在657道题中只做出 10道题，为Kimi与 AIME2024冠军团队Numina 合作成果 Kimina-Prover 。而未针对定理证明优化的 DeepSeek-R1只做出 1道。让还没发布的R2更令人期待了。除测评结果之外，论文中特别报告了 “通过强化学习发现新技能” 现象。正如R1带来了“啊哈时刻”，Prover-V2也有令人意想不到的能力。具体来说，在普特南测试中，参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队仔细检查该模型的输出后发现，其推理方法存在一个独特模式：7B模型处理涉及有限基数的问题时，经常使用 Cardinal.toNat 和 Cardinal.natCast_ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博