文章预览
作者丨AI视界引擎 来源丨AI视界引擎 编辑丨极市平台 在本论文中,作者提出了一种轻量级的检测 Transformer ,LW-DETR,它在实时目标检测方面优于YOLO系列。该架构是一个简单堆叠的ViT编码器、投影器和浅层DETR解码器。作者的方法利用了近期先进的技术,例如有效的训练技术,例如改进的损失和预训练,以及交替窗口和全局注意力以降低ViT编码器的复杂性。 作者通过聚合多级特征图改进了ViT编码器,以及在ViT编码器中的中间和最终特征图,形成更丰富的特征图,并引入窗口主导的特征图组织以提高交替注意力计算的效率。实验结果表明,在COCO和其他基准数据集上,所提出的方法优于现有的实时检测器,例如YOLO及其变体。代码和模型可在https://github.com/Atten4Vis/LW-DETR获取。 1 Introduction 实时目标检测是视觉识别中的一个重要问题,并在现实世界中有着广
………………………………