幻方发布全球最强MOE大模型！ DeepSeek-V2

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-05-17 04:36

仓库和技术报告地址：https://github.com/deepseek-ai/DeepSeek-V2介绍重新了解一下DeepSeekDeepSeek，是一款国产大型语言模型，凭借其670亿参数的规模，开源了国产第一个基于混合专家技术的大模型DeepSeekMoE-16B，正引领着人工智能领域的新浪潮！混合专家（Mixture of Experts）是大模型一种技术，这个技术将大模型划分为不同的子专家模型，每次推理只选择部分专家网络进行推理，在降低成本的同时保证模型的效果；继一月份开源首个MOE，历时4个月钻研，终于开源第二代MoE模型：DeepSeek-V2！全新的模型结构DeepSeek-V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”，而是对模型框架进行了全方位的创新，提出了媲美MHA的MLA（Multi-head Latent Attention）架构，大幅减少计算量和推理显存；自研Sparse结构DeepSeekMoE进一步将计算量降低到极致，两者结合最终实现模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博