看啥推荐读物

专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Mixtral 8x7B(Mistral MoE) 模型解析

GiantPandaCV · 公众号 · 3D · 2024-03-18 23:36

本文特别鸣谢字节跳动 Crane佬解答了我对SWA的疑惑0 前言1 Mistral 7B 模型 1.1 SWA(Sliding Window Attention)2 Mixtral 8x7B(MoE)模型3 Llama2 70B vs Mixtral 8x7B0 前言从前段时间Mistral AI 公司发布全球首款MoE(Mixture-of-Experts)大模型——Mixtral-8x7B 以来，就在AI界引起了不小的轰动，从一众科技自媒体的报道中我注意到了一个关键信息点：比Llama-2 70B具有更少的参数，却有更高的精度。这一点燃起了我的兴趣，故特来学习一下Mixtral 8x7B 相对于Llama 2 70B有何不同。还是老样子paper ：https://arxiv.org/pdf/2401.04088.pdfcode ：https://github.com/mistralai/mistral-src首先，通过Mistral AI 公司的主页我发现他一共发布了两个模型：Mistral 7B 和 Mixtral-8x7B ，后者为基于前者的MoE模型。从其公布的测试结果可以发现Mistral 7B 以7B的参数量在所有benchmarks超越了Llama-2 13B 并且与Llama-2 34B性能相当而使用MoE策 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博