天池,基于阿里云的开放数据处理服务ODPS,面向学术界开放海量数据和分布式计算资源,旨在打造“数据众智、众创”第一平台。在这里,人人都可以玩转大数据,共同探索数据众创新模式。
今天看啥  ›  专栏  ›  天池大数据科研平台

阿里云工程师带你独家揭秘:DeepSeek-V3 为何能用 5% 算力对标 GPT-4o?

天池大数据科研平台  · 公众号  · 大数据  · 2025-02-13 11:20
    

文章预览

本文作者敖波(新念) 前言 今年春节 DeepSeek-V3 对国内外 AI 圈产生了巨大的影响,其本质在于开拓了一条不同于 OpenAI 训练方法的道路,证明了通过模型架构和训练方法的极致优化,能够基于更少的算力资源训练出同等能力水平的大模型,这不仅让人们对 OpenAI 等厂商的 高 算力投入产生质疑 ,更通过将先进模型开源的策略对 OpenAI 等 闭源模型的商业模式形成了巨大冲击 。 本文试图探究 DeepSeek 为什么能够利用 5%的算力训练出对标 GPT-4o 的先进模型,由于 DeepSeek-R1 源于 DeepSeek-V3 架构,且 DeepSeek-V3 论文中讲述了更多高效训练方法相关的内容,所以本文将以 DeepSeek-V3 为研究对象,分析其 在高效训练方面都采用了哪些关键技术 ,未来再单独针对 DeepSeek-R1 进行分析总结。 一、模型架构 1.1 高效的模型架构设计:多头潜在注意力 MLA 和 DeepSeekMoE 架构 1. 多 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览