基于深度学习的通用物体检测算法对比探索【附PPT与视频资料】

2019 年 1 月 11 日 人工智能前沿讲习班

关注文章公众号

回复"张士峰"获取PPT资料

视频资料可点击下方阅读原文在线观看

1、主题简介

目前基于深度学习的通用物体检测算法大致可以分为两类：一步法检测器和二步法检测器。一步法检测器有较高的检测速度，但检测精度不如二步法检测器。而二步法检测有较高的检测精度，但检测效率不如一步法检测器。为了使得一步法检测器获得二步法检测器的检测精度，同时保持较高的检测效率，本文作者对一步法和二步法检测器进行了一系列探索，提出了RefineDet、SRN、AlignDet等系列算法。此次分享，首先概括地介绍通用物体检测算法，接着介绍作者的一系列相关工作，最后对物体检测的发展进行讨论与展望。

作者简介

张士峰，中科院自动化所2015级直博生，导师李子青研究员，本科毕业于电子科技大学。研究方向为基于深度学习的物体检测，包括通用物体检测、人脸检测、行人检测。目前已发表论文12篇，其中第一作者论文9篇，包括IJCV、CVPR、ICCV、ECCV、IJCAI、AAAI等，在投论文11篇，在审专利4项，担任TPAMI、TNNLS、TMM、CVPR、ICCV、ECCV等国际期刊和会议的审稿人，获CCF-CV学术新锐奖、百度奖学金、国家奖学金、唐立新奖学金、必和必拓奖学金、攀登一等奖学金、三好学生、国际人脸检测竞赛季军、最佳学生论文等荣誉。

张士峰

2、具体内容

2.1 引言

目前，基于深度学习的物体检测算法大致分为两类：一步法检测器和二步法检测器。一步法检测器在原图上铺设一系列锚点框，利用一个全卷积网络，对这些锚点框进行一次分类和一次回归，得到检测结果。而二步法检测器在原图上铺设一系列锚点框，先利用一个全卷积网络对对这些锚点框进行第一次分类和第一次回归，得到候选区域，扣出每一个候选区域的特征后，再利用一个网络对候选区域进行第二次分类和第二次回归，得到最终的检测结果。相对于一步法检测器，二步法检测器多了额外的第二步，若在相同的条件下，如输入、锚点框、机器等，一步法一般胜在高效率，而二步法有个更高的精度，现在各个检测库上排名靠前的算法，基本都是二步法。代表性的二步法检测器有Faster R-CN[1]、R-FCN[2]、FPN[3]、Cascade R-CNN[4]，其中Faster R-CNN是奠基性工作，基本所有的检测算法的，都是在它的基础上改进的。一步法检测器则有YOLO[5]、SSD[6]、RetinaNet[7]、CornerNet[8]，其中SSD是一步法检测器的集大成者，后续大部分的一步法工作都是基于它的。

二步法相对于一步法，多了后面扣特征并进一步分类和回归，这一步一般比较耗时但能显著提升精度，原因是它让二步法相对于一步法有了以下4个优势：

二阶段的分类：二步法中的第一步分类时，正负样本是极不平衡的，导致分类器训练困难，这也是一步法效果不如二步法的原因之一。而第二步分类时，第一步会帮第二步滤掉很多简单负样本，使得第二步分类中时正负样本比例比较平衡，即二步法可以很大程度地缓和正负样本极不平衡的问题。
二阶段的回归：二步法中的第一步对锚点框进行校正，然后把校正后得到的候选框送给第二步做进一步的校正。
二阶段的特征：在二步法中，第一步和第二步法除了共享的特征外，都有自己独有的特征，专注于自身不同难度的任务，如第一步的特征专注于二分类和初步回归，第二步的特征处理多分类和精确回归。
特征校准：二步法中的RoIPooling操作会把候选区域对应的特征抠出来，达到了特征校准的目的，而一步法中特征是不对齐的。

为了能让一步法也具备二步法的这些优势，作者提出了RefineDet、SRN、AlignDet等一系列检测算法。

2.2 RefineDet[9]

为了让一步法检测器具备二步法检测器的优点，作者设计了一个新颖的算法RefineDet，能够让一步法具备二阶段特征、二阶段分类、二阶段回归，从而在保持一步法速度前提下，获得了二步法的精度。上图是RefineDet的检测框架，由ARM和ODM 模块组成，它俩由TCB连接。ARM专注于二分类，为后续ODM滤掉大量的简单负样本，同时进行初级的边框校正，为后续ODM提供更好的回归起点。ODM把ARM优化过的锚点框作为输入，专注于多分类和精准的边框校正。其中ODM没有使用耗时的逐区域操作，而是直接通过TCB转换ARM特征、融合高层特征，以得到感受野丰富、细节充足、内容抽象的特征，用于进一步的分类和回归，使得一步法检测器RefineDet具备了二步法的二阶段分类、二阶段回归、二阶段特征这3个优势。

2.3 SRN[10]

提出RefineDet算法后，作者用相同的思路来解决人脸检测中，回归位置不够准、召回效率不够高的问题。但发现，在处理人脸检测这一特殊任务时，并不是在所有的检测层上做二阶段分类和二阶段回归都有提升。二阶段分类用于较浅的3个检测层上有效果，而在较深的3个检测层上没提升，原因是98.5%的锚点框关联于较浅的3个层，这些层存在正负样本不平衡的问题，二阶段分类得以发挥作用，而较深的3个层只有1.5%的锚点框，正负样本比较平衡，在这些层使用二阶段分类不会有提升还会增加耗时。此外，二阶段回归用于较深的3个检测层上有效果，而在较浅的3个检测层上会影响性能。原因是较浅层关联的98.5%锚点框是用来检测小人脸的，小人脸的精准回归比较困难，如果强行让这些层利用二阶段回归去得到更准的小人脸位置，会影响更重要的分类任务，相反的，较深的3个层则不存在这种问题，适合做二阶段回归来提升大中尺度的人脸位置。

2.4 AlignDet

如图所示，(a)、(b)、(c)分别是ARM、ODM、ADM进行检测所依据的锚点框和特征位置。可以看出，RefineDet虽然有了二阶段分类、二阶段回归、二阶段特征，但不具备特征校准这一优点，即ODM所依据的锚点框被ARM校正了，但是特征的位置没有随着锚点框的变化而被校准。作者最新的工作AlignDet中，其中一个贡献点是，让ADM不仅所依据的锚点框被ARM校正，而且特征的位置也随着锚点框的变化而被校准，使得ADM根据更精准的特征进行下一步检测。

3、讨论展望

更快的速度

检测算法的精度越来越高，但速度越来越慢，在强大的GPU上都不能达到实时处理的速度，更别说在CPU或嵌入式等设备上，因此如何利用剪枝、量化、知识蒸馏等技术，针对检测模型进行特定加速，是一个比较有意义的研究方向。

更高的精度

虽然各个检测数据库性能指标已经接近饱和，但都还有一定的提升空间，如WIDERFACE和PASCAL VOC都还有10个点左右的空间，这些提升空间一般都是集中于特定的问题，如小尺度、遮挡等物体的检测，因此可以针对特定检测问题，提出专有解决方案，来提升性能。

多任务联合

检测任务被研究了好多年，已取得了巨大的进展，现今逐步开始与其他任务融合，进行端到端的多任务联合，如检测与关键点、属性、分割等多任务联合，其中最近比较火的实例分割和全景分割就是检测和分割的多任务融合。因此检测的多任务联合也是一个趋势。

视频物体检测

学术界已有大量的工作对静态图片物体检测做了深入的研究，但视频物体检测的研究相对来说还较少，而在实际应用中，大部分场景又是视频序列，因此如何利用视频序列的连续性和冗余性这两个特点，进行高效率高精度的物体检测是一个研究热点。

4、参考文献

[1] Shaoqing Ren, Kaiming He, RossB. Girshick, Jian Sun. Faster R-CNN: Towards Real-Time Object Detection withRegion Proposal Networks. NIPS 2015.

[2] Jifeng Dai, Yi Li, Kaiming He,Jian Sun. R-FCN: Object Detection via Region-based Fully ConvolutionalNetworks. NIPS 2016.

[3] Tsung-Yi Lin, Piotr Dollár,Ross B. Girshick, Kaiming He, Bharath Hariharan, Serge J. Belongie. FeaturePyramid Networks for Object Detection. CVPR 2017.

[4] Zhaowei Cai, Nuno Vasconcelos.Cascade R-CNN: Delving Into High Quality Object Detection. CVPR 2018.

[5] Joseph Redmon, Santosh KumarDivvala, Ross B. Girshick, Ali Farhadi. You Only Look Once: Unified, Real-TimeObject Detection. CVPR 2016.

[6] Wei Liu, Dragomir Anguelov,Dumitru Erhan, Christian Szegedy, Scott E. Reed, Cheng-Yang Fu, Alexander C.Berg. SSD: Single Shot MultiBox Detector. ECCV 2016.

[7] Tsung-Yi Lin, Priya Goyal, RossB. Girshick, Kaiming He, Piotr Dollár. Focal Loss for Dense Object Detection.ICCV 2017.

[8] Hei Law, Jia Deng. CornerNet:Detecting Objects as Paired Keypoints. ECCV 2018.

[9] Shifeng Zhang, Longyin Wen,Xiao Bian, Zhen Lei, Stan Z. Li. Single-Shot Refinement Neural Network forObject Detection. CVPR 2018.

[10] Cheng Chi*, Shifeng Zhang*,Junliang Xing, Zhen Lei, Stan Z. Li, Xudong Zou. Selective Refinement Networkfor High Performance Face Detection. AAAI 2019.

SFFAI讲者招募

为了满足人工智能不同领域研究者相互交流、彼此启发的需求，我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动，邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果，使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展，将对线下讨论的内容进行线上传播，使后来者少踩坑，也为讲者塑造个人影响力。

SFFAI还将构建人工智能领域的知识树（AI Knowledge Tree），通过汇总各位参与者贡献的领域知识，沉淀线下分享的前沿精华，使AI Knowledge Tree枝繁叶茂，为人工智能社区做出贡献。

这项意义非凡的社区工作正在稳步向前，衷心期待和感谢您的支持与奉献！

有意加入者请与我们联系：wangxl@mustedu.cn