专栏名称: 数据法盟
数据法盟(DPOHUB):何渊老师主理的一个只关注数据隐私和数据安全的数据合规权威平台; 一个整合法律、技术及媒体的专业数据法生态体; 一个制造干货、相互赋能及塑造职业品牌的数据法共同体。 合作官微:18721707138
今天看啥  ›  专栏  ›  数据法盟

梁文锋署名DeepSeek新论文:公开V3大模型降本方法

数据法盟  · 公众号  ·  · 2025-05-16 14:46
    

文章预览

金磊 不圆 发自 凹非寺 量子位 | 公众号 QbitAI 梁文锋 亲自参与的 DeepSeek最新论文 ,来了! 这一次,团队把DeepSeek-V3在训练和推理过程中,如何解决 “硬件瓶颈” 的方法公布了出来。 具体而言,DeepSeek-V3之所以可以只用2048块H800,就能达到超大规模集群(如数万块GPU)相当的训练效果,核心在于 四项创新技术 : 内存优化 多头潜在注意力(MLA) 计算优化 混合专家模型(MoE)与FP8低精度训练 通信优化 多层网络拓扑与低延迟设计 推理加速 多token预测(MTP) 那么这四项优化具体又是如何起到作用的,我们继续往下看。 软硬件协同的优化设计 在训练大模型这条路上,可以说一直有“三座大山”在占道。 首先就是 内存不够用 。 现在的大语言模型(比如GPT、Llama)变得越来越庞大,需要的存储空间激增。特别是它们使用的“注意力机制”会产生大量临 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览