看啥推荐读物
专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

CVPR 2024 | 百度提出视觉新骨干ViT-CoMer,刷新密集预测任务SOTA

我爱计算机视觉  · 公众号  ·  · 2024-03-20 15:15
关注公众号,发现CV技术之美本文分享 CVPR 2024 论文ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions,由百度提出视觉新骨干 ViT-CoMer,刷新密集预测任务 SOTA。论文链接:https://arxiv.org/pdf/2403.07392.pdf开源地址:https://github.com/Traffic-X/ViT-CoMer,(欢迎大家试用和star)1.算法效果1.1.炸裂结果检测效果SOTA在未增加额外训练数据的情况下,ViT-CoMer-L在目标检测benchmark COCO val2017上达到了64.3% AP。此前检测的SOTA算法为Co-DETR,在未增加额外数据时Co-DETR的效果为60.7% AP,使用ViT-CoMer替换原backbone(Swin-L)的同时采用了ViT-Adapter提供的BEiTv2*作为预训练,其检测效果可达64.3% AP,相比较其他同体量算法ViT-CoMer效果更优。分割效果SOTAViT-CoMer-L在语义分割 benchmark ADE20K val上获得了62.1% mIoU,10亿参数量以下效果SOTA。基于Mask2Former分割算法,对比了ViT-CoM ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照