专栏名称: AIWalker

关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营，原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

遥遥领先 | 百度提出ViT-CoMer新主干，各个任务都是性能的巅峰，COCO更刷到64.3%

AIWalker · 公众号 · · 2024-03-15 21:29

关注「AIWalker」并星标从此AI不迷路来源 | AI视界引擎尽管视觉Transformer（ViT）在计算机视觉中已经取得了显著的成就，但由于缺乏内部斑块信息交互和特征尺度多样性有限，它在密集预测任务中的表现并不理想。大多数现有研究致力于设计视觉特定的Transformer来解决上述问题，这引入了额外的预训练成本。因此，我们提出了一种简单的、无需预训练的、特征增强的ViT主干网络，具有卷积多尺度特征交互功能，名为ViT-CoMer，它促进了CNN与Transformer之间的双向交互。与最先进的方法相比，ViT-CoMer具有以下优点：将空间金字塔多接收域卷积特征注入到ViT架构中，有效缓解了ViT中局部信息交互有限和单一特征表示的问题。提出了一种简单高效的CNN-Transformer双向融合交互模块，它能够在不同层次的特征之间进行多尺度融合，有利于处理密集预测任务。在各种密 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博