新框架
作者定义了本文提出的基于DIoU、CIoU损失函数如下:
论文提出了能减少两个box中心点间的距离的惩罚项, 和 分别表示 和 的中心点。 是欧氏距离, 是最小包围两个bbox的框的对角线长度,Loss完整公式定义如下:
因此DIoU中对anchor框和目标框之间的归一化距离进行了建模。直观的展示如下图所示:
DIoU loss的惩罚项能够直接最小化中心点间的距离,而GIoU loss意在减少外界包围框的面积 DIoU loss保留了IoU loss和GIoU loss的一些优点:
DIoU Loss 只是考虑了边界框的重叠面积和 与 中心点距离,然而anchor框和目标框之间的w,h比的一致性也是极其重要的。基于此,作者提出了Complete-IoU Loss。其损失函数定义如下:
上述损失函数为CIoU的损失,通过公式可以很直观的看出,CIoU比DIoU多出了 和 这两个参数。其中 是权重函数。v用来衡量anchor框和目标框之间的长宽比的相似性。
由定义可以看出来,损失函数会更加倾向于往重叠区域增多方向优化:
Non-Maximum Suppression using DIoU
在原始的NMS中,IoU指标用于抑制多余的检测框,但由于仅考虑了重叠区域,经常会造成错误的抑制,特别是在bbox包含的情况下。因此,可以使用DIoU作为NMS的标准,不仅考虑重叠区域,还考虑了中心点距离。(基于DIoU作为NMS标准,虽然多了距离这个维度去考虑问题,但和NMS面对的同样的情况是当两个不同的目标本身就靠的很近的时候还是会造成错误的抑制)
其中 是分类置信度, 为NMS阈值, 为最高置信度的框。DIoU-NMS倾向于中心点距离较远的box存在不同的对象,而且仅需改几行代码,DIoU-NMS就能够很简单地集成到目标检测算法中。
实验结果
在YOLOv3上进行实验对比,DIoU loss和CIoU的效果都很显著,mAP分别提升3.29%和5.67%,而AP75则分别提升6.40%和8.43%,而使用DIoU-NMS则能进一步提升,幅度达到5.91%和9.88%
Faster R-CNN on MS COCO
在Faster R-CNN ResNet-50-FPN上,由于Faster R-CNN本身提供的bbox质量都比较高,因此,GIoU的优化都很小,但此时DIoU和CIoU则表现了不错的优化效果。注意到,CIoU在小物体上的性能都有所下降,可能由于长宽比对小物体的检测贡献不大,因为此时中心点距离比aspect ratio更重要。
上图对GIoU和CIoU的结果进行了可视化,可以看到,在中大型物体检测上,CIoU的结果比GIoU要准确。
Discussion on DIoU-NMS
DIoU-NMS能够更好地引导bbox的消除
最后作者进行了比较实验,原NMS和DIoU-NMS分别移植到了yolov3和ssd模型,同时使用CIou loss。在阈值的范围内比较了原始NMS和DIoU-NMS [0.43,0.48]。从图9中可以看出,对于每个阈值,DIoU-NMS都优于原始NMS。此外,值得注意的是,即使是最糟糕的DIoU-NMS也是要优于最优的原始NMS。
总结
论文提出了两种新的IoU-based损失函数,DIoU loss和CIoU loss:DIoU loss最小化bbox间的中心点距离,从而使得函数快速收敛;CIoU loss则在DIoU loss的基础上加入长宽比的考量,能够进一步地快速收敛和提升性能。另外论文提出DIoU-NMS来代替原生的NMS,充分地利用IoU的特性进行优化,从实验结果来看,效果也是很好的。
计算机视觉战队正在组建深度学习技术群,欢迎大家私信申请加入!
如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。