DeepSeek-V3 技术报告_大语言模型和具身智体及自动驾驶的专栏文章_微信文章

专栏名称: 大语言模型和具身智体及自动驾驶

讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

文章预览

24年12月来自深度探索公司的论文“DeepSeek-V3 Technical Report”。 DeepSeek-V3，是一个强大的混合专家 (MoE) 语言模型，总共有 671B 个参数，每个 token 有 37B 个激活参数。为了实现高效的推理和经济高效的训练，DeepSeek-V3 采用多头潜注意 (MLA) 和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到彻底的验证。此外，DeepSeek-V3 开创一种无辅助损失的负载平衡策略，并设置多 token 预测训练目标以获得更强大的性能。在 14.8 万亿个多样化和高质量的 token 上对 DeepSeek-V3 进行预训练，然后进行监督微调和强化学习阶段，以充分利用其功能。综合评估表明，DeepSeek-V3 优于其他开源模型，并实现与领先闭源模型相当的性能。尽管性能出色，但 DeepSeek-V3 仅需要 2.788M H800 GPU 小时即可完成完整训练。此外，它的训练过程非常稳定。在整个训练过程中，没有遇到任何无法恢复的损失 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博