专栏名称: AIWalker
关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营,原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。
今天看啥  ›  专栏  ›  AIWalker

遥遥领先 | 百度提出ViT-CoMer新主干,各个任务都是性能的巅峰,COCO更刷到64.3%

AIWalker  · 公众号  ·  · 2024-03-15 21:29
关注「AIWalker」并星标从此AI不迷路来源 | AI视界引擎尽管视觉Transformer(ViT)在计算机视觉中已经取得了显著的成就,但由于缺乏内部斑块信息交互和特征尺度多样性有限,它在密集预测任务中的表现并不理想。大多数现有研究致力于设计视觉特定的Transformer来解决上述问题,这引入了额外的预训练成本。因此,我们提出了一种简单的、无需预训练的、特征增强的ViT主干网络,具有卷积多尺度特征交互功能,名为ViT-CoMer,它促进了CNN与Transformer之间的双向交互。与最先进的方法相比,ViT-CoMer具有以下优点:将空间金字塔多接收域卷积特征注入到ViT架构中,有效缓解了ViT中局部信息交互有限和单一特征表示的问题。提出了一种简单高效的CNN-Transformer双向融合交互模块,它能够在不同层次的特征之间进行多尺度融合,有利于处理密集预测任务。在各种密 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照