专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

刚刚,DeepSeek-Prover-V2-671B开源!

新智元  · 公众号  · AI  · 2025-04-30 18:55
    

主要观点总结

DeepSeek在Hugging Face上开源了新模型DeepSeek-Prover-V2-671B。该模型具有671B的参数量,基于DeepSeek-V3架构,使用MoE中间层,包含2048层,每层都有MoE特性,由1个共享专家和256个路由专家组成。每个token激活的专家数量为8个。它可以处理长达163,840的上下文长度,并采用更高效的safetensors文件格式进行训练和部署。该模型支持多种计算精度,资源消耗更少。作为去年发布的DeepSeek-Prover-V1.5的升级版,它在数学难题解决和复杂计算方面的表现值得期待。

关键观点总结

关键观点1: DeepSeek在Hugging Face上开源新模型DeepSeek-Prover-V2-671B。

这是关于模型的基本信息,包括其开源平台和名称。

关键观点2: 模型参数和技术特点。

该模型具有671B的参数量,基于DeepSeek-V3架构,使用MoE中间层,大小为2048,具有MoE层的特性,包括一个共享专家和256个路由专家。每个token激活的专家数量为8个。

关键观点3: 模型的效率和功能。

模型最大能处理长度为163,840的上下文,采用高效的safetensors文件格式进行训练和部署,支持多种计算精度,资源消耗更少。它可能具备优秀的数学难题解决和复杂计算能力。

关键观点4: 与前代模型的比较。

DeepSeek-Prover-V2-671B是去年发布的DeepSeek-Prover-V1.5的升级版。虽然只有7B参数,但DeepSeek-Prover-V1.5在高中数学测试(miniF2F)中已经表现出色。


文章预览

放假前一天,DeepSeek出手了! 就在刚刚,DeepSeek在Hugging Face上开源了一个新模型,DeepSeek-Prover-V2-671B。 模型链接:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B config.json文件显示,模型参数量671B,基础架构是DeepSeek-V3,MoE中间层大小是2048,每层都是MoE层。 每个MoE层包含1个共享专家和256个路由专家,每个token会激活8个专家。 模型最大能处理长度为163,840的上下文。 DeepSeek-Prover-V2-671B还用上了更高效的safetensors文件格式,支持多种计算精度,模型训练和部署时更快,更省资源。 从命名来看,这款模型很可能是去年发布的DeepSeek-Prover-V1.5的升级版。 虽然只有7B参数,DeepSeek-Prover-V1.5在高中数学测试(miniF2F)里成功率达到了63.5%,大学级别测试(ProofNet)中也有25.3%的成功率。 这次的DeepSeek-Prover-V2-671B,在解决数学难题、复杂计算方面的表现令人期待。 目前 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览