看啥推荐读物
专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

重新聚焦Attention在微调大模型中的重要性

FightingCV  · 公众号  ·  · 2023-05-30 09:00
关注“FightingCV”公众号回复“AI”即可获得超100G人工智能的教程点击进入→ FightingCV交流群论文链接:https://arxiv.org/pdf/2305.15542GitHub链接:https://github.com/bfshi/TOAST我们发现在一个下游任务上微调大模型时,目前的方法(fine-tuning,LoRA,prompt tuning等等)往往无法将模型的attention聚焦在和下游任务相关的信息上。比如下方图1(b),我们把一个pretrained ViT迁移到下游的鸟类分类任务,却发现微调后得到的attention往往非常杂乱,这有可能会对模型在下游任务上的表现有影响。图1:(a) 我们的方法通过重新聚焦模型的attention来大幅提升大模型在下游任务上的表现;(b) 目前的微调方法往往无法将模型的注意力集中到和下游任务有关的信息上(在这个例子里是前景的鸟)。在这篇文章中我们发现,通过把模型的attention重新聚焦到和下游任务相关的信息上(图1(a)) ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照