今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

幻方发布全球最强MOE大模型! DeepSeek-V2

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-05-17 04:36
仓库和技术报告地址:https://github.com/deepseek-ai/DeepSeek-V2介绍重新了解一下DeepSeekDeepSeek,是一款国产大型语言模型,凭借其670亿参数的规模,开源了国产第一个基于混合专家技术的大模型DeepSeekMoE-16B,正引领着人工智能领域的新浪潮!混合专家(Mixture of Experts)是大模型一种技术,这个技术将大模型划分为不同的子专家模型,每次推理只选择部分专家网络进行推理,在降低成本的同时保证模型的效果;继一月份开源首个MOE,历时4个月钻研,终于开源第二代MoE模型:DeepSeek-V2!全新的模型结构DeepSeek-V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”,而是对模型框架进行了全方位的创新,提出了媲美MHA的MLA(Multi-head Latent Attention)架构,大幅减少计算量和推理显存;自研Sparse结构DeepSeekMoE进一步将计算量降低到极致,两者结合最终实现模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照