看啥推荐读物
专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
今天看啥  ›  专栏  ›  GiantPandaCV

Mixtral 8x7B(Mistral MoE) 模型解析

GiantPandaCV  · 公众号  · 3D  · 2024-03-18 23:36
本文特别鸣谢字节跳动 Crane佬解答了我对SWA的疑惑0 前言1 Mistral 7B 模型    1.1 SWA(Sliding Window Attention)2 Mixtral 8x7B(MoE)模型3 Llama2 70B vs Mixtral 8x7B0 前言从前段时间Mistral AI 公司发布全球首款MoE(Mixture-of-Experts)大模型——Mixtral-8x7B 以来,就在AI界引起了不小的轰动,从一众科技自媒体的报道中我注意到了一个关键信息点:比Llama-2 70B具有更少的参数 ,却有更高的精度 。这一点燃起了我的兴趣,故特来学习一下Mixtral 8x7B 相对于Llama 2 70B有何不同。还是老样子paper :https://arxiv.org/pdf/2401.04088.pdfcode :https://github.com/mistralai/mistral-src首先,通过Mistral AI 公司的主页我发现他一共发布了两个模型:Mistral 7B 和 Mixtral-8x7B ,后者为基于前者的MoE模型。从其公布的测试结果可以发现Mistral 7B 以7B的参数量在所有benchmarks超越了Llama-2 13B  并且与Llama-2 34B性能相当而使用MoE策 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照