专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

模型平均 -- model soup

AINLP · 公众号 · · 2024-08-01 22:09

文章预览

最近苹果的DCLM和Llama-3.1技术报告都提到了model soup：《Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time》。拿model soup出来和SWA已经EMA一起看下。 1.背景一般来说，模型微调的过程是这样的： 1、用不同的超参训练多个模型，每个配置下得到一系列模型checkpoint 2、选择在验证集上最佳的checkpoint，其他的就丢弃掉了这样的常规做法方便易操作，但是有几个缺点：多个微调得到的模型如果进行合适的ensemble应该能有超过单个模型的效果，直接选择一个”最佳模型“浪费了一部分算力微调之后对于out-of-distribution data的效果可能变差，而这在验证集是看不出来的；而模型在实际使用中，很容易遇到有分布偏移的数据 2.SWA & EMA 针对单次训练的模型平均方法主要有SWA和EMA。 Stochastic Weight Averaging（SWA）算是模型微调里比较 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博