关注公众号,发现CV技术之美本文分享 CVPR 2024 论文ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions,由百度提出视觉新骨干 ViT-CoMer,刷新密集预测任务 SOTA。论文链接:https://arxiv.org/pdf/2403.07392.pdf开源地址:https://github.com/Traffic-X/ViT-CoMer,(欢迎大家试用和star)1.算法效果1.1.炸裂结果检测效果SOTA在未增加额外训练数据的情况下,ViT-CoMer-L在目标检测benchmark COCO val2017上达到了64.3% AP。此前检测的SOTA算法为Co-DETR,在未增加额外数据时Co-DETR的效果为60.7% AP,使用ViT-CoMer替换原backbone(Swin-L)的同时采用了ViT-Adapter提供的BEiTv2*作为预训练,其检测效果可达64.3% AP,相比较其他同体量算法ViT-CoMer效果更优。分割效果SOTAViT-CoMer-L在语义分割 benchmark ADE20K val上获得了62.1% mIoU,10亿参数量以下效果SOTA。基于Mask2Former分割算法,对比了ViT-CoM
………………………………