看啥推荐读物
专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【ICML2023】改善自监督Vision Transformers的视觉提示调优

专知  · 公众号  ·  · 2023-06-12 11:07
视觉提示调优(VPT)是一种有效的调整方法,用于将预训练的Vision Transformers (ViTs)适应到下游任务。它利用额外的可学习的标记,称为提示,来引导冻结的预训练的ViTs。尽管VPT已经证明了其在监督视觉变换器中的应用性,但在自我监督的视觉变换器中常常表现不佳。通过实证观察,我们推断出VPT的有效性在很大程度上取决于提示标记与之交互的ViT块。具体来说,当提示标记插入到后面的块而不是第一个块时,VPT在图像分类任务中的性能有所提高,例如MAE和MoCo v3。这些观察表明,存在一个插入提示标记的块的最优位置。不幸的是,确定每个自我监督ViT中提示的最佳块以适应多样的未来场景是一个成本高昂的过程。为了缓解这个问题,我们提出了一种简单而有效的方法,该方法学习每个ViT块的一个门,以调整其对提示标记的干预。通过我们的方法,提 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照