国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知 · 公众号 · · 2024-12-28 11:03

文章预览

转载机器之心报道机器之心编辑部今天，一个国产大模型火遍了世界。打开 X，满眼都是讨论 DeepSeek-V3 的推文，而其中最热门的话题之一是这个参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.4 万 H800 GPU Hours，再加上上下文扩展与后训练的训练，总共也只有 278.8 H800 GPU Hours。相较之下，Llama 3 系列模型的计算预算则多达 3930 万 H100 GPU Hours—— 如此计算量足可训练 DeepSeek-V3 至少 15 次。虽然相对于其它前沿大模型， DeepSeek-V3 消耗的训练计算量较少，但其性能却足以比肩乃至更优。据最新发布的 DeepSeek-V3 技术报告，在英语、代码、数学、汉语以及多语言任务上，基础模型 DeepSeek-V3 Base 的表现非常出色，在 AGIEval、CMath、MMMLU-non-English 等一些任务上甚至远远超过其它开源大模型。就算与 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型相比，D ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博