讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

DeepSeek-V3 技术报告

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-01-15 00:14
    

文章预览

24年12月来自深度探索公司的论文“DeepSeek-V3 Technical Report”。 DeepSeek-V3,是一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数,每个 token 有 37B 个激活参数。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用多头潜注意 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到彻底的验证。此外,DeepSeek-V3 开创一种无辅助损失的负载平衡策略,并设置多 token 预测训练目标以获得更强大的性能。在 14.8 万亿个多样化和高质量的 token 上对 DeepSeek-V3 进行预训练,然后进行监督微调和强化学习阶段,以充分利用其功能。综合评估表明,DeepSeek-V3 优于其他开源模型,并实现与领先闭源模型相当的性能。尽管性能出色,但 DeepSeek-V3 仅需要 2.788M H800 GPU 小时即可完成完整训练。此外,它的训练过程非常稳定。在整个训练过程中,没有遇到任何无法恢复的损失 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览