专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
目录
今天看啥  ›  专栏  ›  专知

国产大模型DeepSeek-V3一夜火爆全球,《DeepSeek-V3技术报告》,53页pdf

专知  · 公众号  ·  · 2024-12-28 11:03
    

文章预览

转载机器之心报道 机器之心编辑部 今天,一个国产大模型火遍了世界。 打开 X,满眼都是讨论 DeepSeek-V3 的推文,而其中最热门的话题之一是 这个参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.4 万 H800 GPU Hours,再加上上下文扩展与后训练的训练,总共也只有 278.8 H800 GPU Hours。相较之下,Llama 3 系列模型的计算预算则多达 3930 万 H100 GPU Hours—— 如此计算量足可训练 DeepSeek-V3 至少 15 次。 虽然相对于其它前沿大模型, DeepSeek-V3 消耗的训练计算量较少,但其性能却足以比肩乃至更优。 据最新发布的 DeepSeek-V3 技术报告,在英语、代码、数学、汉语以及多语言任务上,基础模型 DeepSeek-V3 Base 的表现非常出色,在 AGIEval、CMath、MMMLU-non-English 等一些任务上甚至远远超过其它开源大模型。就算与 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型相比,D ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览