文章预览
最近苹果的DCLM和Llama-3.1技术报告都提到了model soup:《Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time》。 拿model soup出来和SWA已经EMA一起看下。 1.背景 一般来说,模型微调的过程是这样的: 1、用不同的超参训练多个模型,每个配置下得到一系列模型checkpoint 2、选择在验证集上最佳的checkpoint,其他的就丢弃掉了 这样的常规做法方便易操作,但是有几个缺点: 多个微调得到的模型如果进行合适的ensemble应该能有超过单个模型的效果,直接选择一个”最佳模型“浪费了一部分算力 微调之后对于out-of-distribution data的效果可能变差,而这在验证集是看不出来的;而模型在实际使用中,很容易遇到有分布偏移的数据 2.SWA & EMA 针对单次训练的模型平均方法主要有SWA和EMA。 Stochastic Weight Averaging(SWA)算是模型微调里比较
………………………………