专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
今天看啥  ›  专栏  ›  AINLP

模型平均 -- model soup

AINLP  · 公众号  ·  · 2024-08-01 22:09
    

文章预览

最近苹果的DCLM和Llama-3.1技术报告都提到了model soup:《Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time》。 拿model soup出来和SWA已经EMA一起看下。 1.背景 一般来说,模型微调的过程是这样的: 1、用不同的超参训练多个模型,每个配置下得到一系列模型checkpoint 2、选择在验证集上最佳的checkpoint,其他的就丢弃掉了 这样的常规做法方便易操作,但是有几个缺点: 多个微调得到的模型如果进行合适的ensemble应该能有超过单个模型的效果,直接选择一个”最佳模型“浪费了一部分算力 微调之后对于out-of-distribution data的效果可能变差,而这在验证集是看不出来的;而模型在实际使用中,很容易遇到有分布偏移的数据 2.SWA & EMA 针对单次训练的模型平均方法主要有SWA和EMA。 Stochastic Weight Averaging(SWA)算是模型微调里比较 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览