论文阅读:POLY-YOLO: HIGHER SPEED, MORE PRECISE DETECTION AND INSTANCE SEGMENTATION FOR YOLOV3

什么是Poly-YOLO

简言之,Poly-YOLO是YOLOv3的一个改进版本,产生的实际效果与Mask-RCNN相似,但是Poly-YOLO更快。文章作者声称Poly-YOLO相较于YOLOv3速度更快,同时mAP提升40%。Poly-YOLO的轻量级版本-Poly-YOLO lite,与YOLOv3具有相似的精度,但是模型大小仅为三分之一,而速度为两倍,因此更加适应于嵌入式设备。代码

YOLOv3中存在的问题

本文从分析YOLOv3论文中存在的两个问题,进而进行改进。

(问题1)标签重写(label rewriting)。在预处理阶段,经常出现label被另外一个label重写的情况,这样就会导致一些正样本没有标签,模型也就不会被训练去检测它们,因此会对性能产生很大影响。以YOLOv3为例,其有三个scale,分别对应检测大、中、小尺寸的物体,每个scale的feature map被划分为s*s的grid,如果两个ground truth的中心落在同一个scale中grid的一个cell,这样就会出现label rewriting的问题。实际上这是YOLOv1中出现的问题,YOLOv3中引入了anchor的概念,每个cell预测三个不同尺寸的anchor,原文应该表述为:如果两个ground truth的中心落在同一个scale中grid的一个cell,并且由同一个size的anchor负责预测,这样就会出现label writing的问题,详细可参考YOLOv3中Darknet YOLO网络层计算损失函数的过程

(问题2)锚分布(anchor distribution)。YOLOv3对三个不同的scale的feature map分别设定了三个不同尺寸的anchor,高层特征anchor较大,感受野较大,负责预测大物体,底层特征anchor较小,感受野较小,负责预测小物体。每一个ground truth根据其尺寸选择对应的scale的anchor,但是这样有一个前提假设,就是anchor大小的分布需要符合正态分布,而对于大多数都是小物体的数据集,或者大多数都是大物体的数据集,所有的预测结果都会集中在其中的某一层,另外两层就会underused,

解决思路

问题1:问题1可以通过增加feature map缩放系数s来解决,s增加意味着grid中cell数目的增加,这样的话两个ground truth落在同一个cell中的概率就会变得很小,理想情况下s=1,及每个像素点代表一个cell,但是考虑到计算量的问题,肯定不能取1,只能找一个小于1的值。

问题2:可以采用两种策略解决,第一种是为三个尺度划分感受野,利用两个阈值分隔它们,然后利用k-means根据阈值计算聚类中心,缺点是将数据驱动问题转换为问题驱动问题,只能在固定的尺度上面检测对应的目标,而不是全尺度,这样会浪费网络。第二种是创建一种新的结构,只有一个输出,但是同时融合了三个尺度的特征,这样融合后的结果同时处理所有尺寸的anchor,这样anchor的尺寸仍然是数据驱动的。

Poly-YOLO结构

原来的FPN结构被替换为hypercolumn结构,融合不同层次的特征,作者进一步改进,将hypercolumn结构改进为stairstep技术,标准的hypercolumn输入所有层的特征,将他们resize为同样大小进行融合。而stairstep首先将最小的upsample为次小的,两者进行融合为新的最小特征,重复过程,最终得到融合后的特征图。这样并没有增加计算负担,但是在精度上面却有所提高。

Illustration of the standard hypercolumn scheme (left) and the hypercolumn with stairstep (right).

Poly-YOLO于YOLOv3结构上面的对比:

Comparison of YOLOv3 and Poly-YOLO architectures

Poly-YOLO在原有的backbone上面也有所改进,将原来的Darknet53改进为SE-Darknet-53,取得了更高的精度,作者减少了backbone中filter的数目,因此Poly-YOLO相较于YOLOv3具有更好的速度,即便输出feature map是原有的四倍。

多边形边框

Poly-YOLO通过灵活定义一定数量的点来定义物体的多边形框,多边形框的点,顶点在归一化的极坐标空间中进行处理,这样使得网络不依赖于对象大小的一般形状进行训练。



论文

本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!