专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

刚刚，DeepSeek-Prover-V2-671B开源！

新智元 · 公众号 · AI · 2025-04-30 18:55

主要观点总结

DeepSeek在Hugging Face上开源了新模型DeepSeek-Prover-V2-671B。该模型具有671B的参数量，基于DeepSeek-V3架构，使用MoE中间层，包含2048层，每层都有MoE特性，由1个共享专家和256个路由专家组成。每个token激活的专家数量为8个。它可以处理长达163,840的上下文长度，并采用更高效的safetensors文件格式进行训练和部署。该模型支持多种计算精度，资源消耗更少。作为去年发布的DeepSeek-Prover-V1.5的升级版，它在数学难题解决和复杂计算方面的表现值得期待。

关键观点总结

关键观点1: DeepSeek在Hugging Face上开源新模型DeepSeek-Prover-V2-671B。

这是关于模型的基本信息，包括其开源平台和名称。

关键观点2: 模型参数和技术特点。

该模型具有671B的参数量，基于DeepSeek-V3架构，使用MoE中间层，大小为2048，具有MoE层的特性，包括一个共享专家和256个路由专家。每个token激活的专家数量为8个。

关键观点3: 模型的效率和功能。

模型最大能处理长度为163,840的上下文，采用高效的safetensors文件格式进行训练和部署，支持多种计算精度，资源消耗更少。它可能具备优秀的数学难题解决和复杂计算能力。

关键观点4: 与前代模型的比较。

DeepSeek-Prover-V2-671B是去年发布的DeepSeek-Prover-V1.5的升级版。虽然只有7B参数，但DeepSeek-Prover-V1.5在高中数学测试（miniF2F）中已经表现出色。

文章预览

放假前一天，DeepSeek出手了！就在刚刚，DeepSeek在Hugging Face上开源了一个新模型，DeepSeek-Prover-V2-671B。模型链接：https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B config.json文件显示，模型参数量671B，基础架构是DeepSeek-V3，MoE中间层大小是2048，每层都是MoE层。每个MoE层包含1个共享专家和256个路由专家，每个token会激活8个专家。模型最大能处理长度为163,840的上下文。 DeepSeek-Prover-V2-671B还用上了更高效的safetensors文件格式，支持多种计算精度，模型训练和部署时更快，更省资源。从命名来看，这款模型很可能是去年发布的DeepSeek-Prover-V1.5的升级版。虽然只有7B参数，DeepSeek-Prover-V1.5在高中数学测试（miniF2F）里成功率达到了63.5%，大学级别测试（ProofNet）中也有25.3%的成功率。这次的DeepSeek-Prover-V2-671B，在解决数学难题、复杂计算方面的表现令人期待。目前 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博