本文特别鸣谢字节跳动 Crane佬解答了我对SWA的疑惑0 前言1 Mistral 7B 模型 1.1 SWA(Sliding Window Attention)2 Mixtral 8x7B(MoE)模型3 Llama2 70B vs Mixtral 8x7B0 前言从前段时间Mistral AI 公司发布全球首款MoE(Mixture-of-Experts)大模型——Mixtral-8x7B 以来,就在AI界引起了不小的轰动,从一众科技自媒体的报道中我注意到了一个关键信息点:比Llama-2 70B具有更少的参数 ,却有更高的精度 。这一点燃起了我的兴趣,故特来学习一下Mixtral 8x7B 相对于Llama 2 70B有何不同。还是老样子paper :https://arxiv.org/pdf/2401.04088.pdfcode :https://github.com/mistralai/mistral-src首先,通过Mistral AI 公司的主页我发现他一共发布了两个模型:Mistral 7B 和 Mixtral-8x7B ,后者为基于前者的MoE模型。从其公布的测试结果可以发现Mistral 7B 以7B的参数量在所有benchmarks超越了Llama-2 13B 并且与Llama-2 34B性能相当而使用MoE策
………………………………