看啥推荐读物

专栏名称: 关注公号‘AI深度学习视线’

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

YOLOv4 详解版！一句话总结：速度差不多的精度碾压，精度差不多的速度碾压！

关注公号‘AI深度学习视线’ · CSDN · · 2020-07-09 18:15

关注

点击这里的链接，获取下面资料：

资源二：深度学习视频教程

1. “花书”深度学习圣经——动手学深度学习   
2. 《计算机视觉深度学习入门》共5门视频   
3. 《深度学习进阶视频课程》

精彩内容

YOLOv4来了！43.5%mAP+65FPS 精度速度最优平衡, 各种调优手段释真香！

作者团队：Alexey Bochkovskiy&中国台湾中央研究院

论文链接：

https://arxiv.org/pdf/2004.10934.pdf

代码链接：

https://github.com/AlexeyAB/darknet

这个很重要！预训练模型 + 作者训练好的模型链接：

YOLOV4 预训练模型 yolov4.conv.137 + yolov4-weights 网盘链接

1 Introduction

/可以说有许多技巧可以提高卷积神经网络（CNN）的准确性，但是某些技巧仅适合在某些模型上运行，或者仅在某些问题上运行，或者仅在小型数据集上运行；我们来码一码这篇文章里作者都用了哪些调优手段：

加权残差连接（WRC）
跨阶段部分连接（CSP）
跨小批量标准化（CmBN）
自对抗训练（SAT）
Mish激活
马赛克数据增强
CmBN
DropBlock正则化
CIoU Loss

有没有被惊到！

经过一系列的堆料，终于实现了目前最优的实验结果：43.5％的AP（在Tesla V100上，MS COCO数据集的实时速度约为65FPS）。

这篇文章的贡献如下:

开发了一个高效、强大的目标检测模型。它使每个人都可以使用1080 Ti或2080 TiGPU来训练一个超级快速和准确的目标探测器。
验证了在检测器训练过程中，最先进的Bag-of-Freebies和Bag-of-Specials 的目标检测方法的影响。
修改了最先进的方法，使其更有效，更适合于单GPU训练，包括CBN、PAN、SAM等。

总之一句话：速度差不多的精度碾压;精度差不多的速度碾压。

2 Relate Works

作者对现有目标检测算法进行了总结：

目前检测器通常可以分为以下几个部分，不管是two-stage还是one-stage都可以划分为如下结构，只不过各类目标检测算法设计改进侧重在不同位置：

作者把所有的调优手段分为了两大类“Bag of freebies（免费礼包）”和“Bag of specials（特价包）”，细品还真形象。

Bag of freebies

是指在离线训练阶段为了提升精度而广泛使用的调优手段，而这种技巧并不在推断中使用，不会增加推断时间。

数据类：

数据增强（random erase/CutOut/hide-and-seek/grid mask/MixUp/CutMix/GAN）

数据分布：two-stage的有难例挖掘，one-stage的有focal loss。

特征图类：

DropOut/DropConnect/DropBlock

Bounding Box目标函数类：

MSE/ IoU loss/l1、l2 loss/GIoU loss/DIoU loss/CIoU loss

Bag of specials

是指在推断过程中增加的些许成本但能换来较大精度提升的技巧。

增大感受野类：

SPP/ASPP/RFB

注意力类：

Squeeze-and-Excitation (SE)/Spa-tial Attention Module (SAM)

特征集成类：

SFAM/ASFF/BiFPN

激活函数类：

ReLu/LReLU/PReLU/ReLU6/Scaled ExponentialLinear Unit (SELU)/Swish/hard-Swish/Mish

后处理类：

soft NMS/DIoU NMS

3 YOLOv4 Method

3.1 架构选择

作者选择架构主要考虑几方面的平衡：输入网络分辨率/卷积层数量/参数数量/输出维度。

一个模型的分类效果好不见得其检测效果就好，想要检测效果好需要以下几点：

更大的网络输入分辨率——用于检测小目标
更深的网络层——能够覆盖更大面积的感受野
更多的参数——更好的检测同一图像内不同size的目标

假设符合上面几点要求的backboone就是预期的backbone，作者对CSPResNext50和CSPDarknet53进行了比较，如表1所示，表明CSPDarknet53神经网络是作为目标检测backbone的最优选择。

为了增大感受野，作者使用了SPP-block，使用PANet代替FPN进行参数聚合以适用于不同level的目标检测。

最终YOLOv4的架构出炉：

backbone：CSPResNext50
additional block：SPP-block
path-aggregation neck：PANet
heads：YOLOv3的heads

3.2 BoF（免费礼包）和BoS（特价包）的选择

CNN常用的通用技巧：

对于训练激活函数，由于PReLU和SELU更难训练，而ReLU6是专门为量化网络设计的，因此将上述其余激活函数从候选列表中删除。
在reqularization方法上，发表Drop-Block的人将其方法与其他方法进行了详细的比较，其regularization方法取得了很大的成果。因此，作者毫不犹豫地选择DropBlock作为regularization方法。
在归一化方法的选择上，由于关注的是只使用一个GPU的训练策略，所以没有考虑syncBN。