看啥推荐读物

专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Mixtral-8x7B MoE大模型微调实践，超越Llama2-65B

AINLP · 公众号 · · 2023-12-25 20:13

01前言Mixtral-8x7B在各大榜单中取得了及其优异的表现，本文主要分享我们微调Mixtral-8x7B MoE模型的初步实践。我们使用Firefly项目对其进行微调，在一张V100上，仅使用4.8万条数据对Mixtral-8x7B-v0.1基座模型微调了3000步，取得了非常惊艳的效果。我们的模型在🤗Open LLM Leaderboard上的分数为70.34分，比Mixtral-8x7B-v0.1提升1.92分，比官方的chat模型低2.28分。若对训练数据和流程进行更精细的调整，应该还有较大的提升空间。注意，Mixtral-8x7B-v0.1为预训练模型，具有非常弱的指令遵从能力，我们在此基础上进行微调，旨在验证方法的有效性。若读者希望在自己的下游任务中进行微调，可基于Mixtral-8x7B-Instruct-v0.1进行微调。我们也对比了其他主流的开源模型在🤗Open LLM Leaderboard的表现。得益于Mixtral-8x7B强大的基座能力，Firefly微调的模型把Llama2-65B、Yi-34B、Vicuna-33B和Qwen-1 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博