目标检测是计算机视觉领域中最基础且最重要的任务之一,是行为识别与人机交互等高层视觉任务的基础.随着深度学习技术的发展,目标检测模型的准确率和效率得到了大幅提升.与传统的目标检测算法相比,深度学习利用强大的分层特征提取和学习能力使得目标检测算法性能取得了突破性进展.与此同时,大规模数据集的出现及显卡计算能力的极大提高也促成了这一领域的蓬勃发展.本文对基于深度学习的目标检测现有研究成果进行了详细综述.首先回顾传统目标检测算法及其存在的问题,其次总结深度学习下区域提案和单阶段基准检测模型.之后从特征图、上下文模型、边框优化、区域提案、类别不平衡处理、训练策略、弱监督学习和无监督学习这八个角度分类总结当前主流的目标检测模型,最后对目标检测算法中待解决的问题和未来研究方向做出展望.
目标检测是计算机视觉领域中最基础且最具挑战性的任务之一,其包含物体分类和定位[1].与此同时,目标检测作为图像理解和计算机视觉的基石,它为实例分割、图像捕获、视频跟踪等任务提供了强有力的特征分类基础,因此探索高效实时的目标检测模型是近年来研究的热点.
传统的目标检测方法包括预处理、区域提案、特征提取、特征选择、特征分类和后处理六个阶段.大多数检测模型关注于物体特征的提取和区域分类算法的选择,在PASCAL VOC数据集[2]上的检测准确率以较小步幅增长.Deformable Part‑based Model(DPM)[3] 算法三次在PASCAL VOC目标检测竞赛上获得冠军,是传统目标检测方法的巅峰之作.然而在2008年至2012年期间,目标检测模型在PASCAL VOC数据集上的检测准确率逐渐达到瓶颈.传统方法的弊端也展现出来,主要包括:(1)算法在区域提案生成阶段产生大量冗余的候选框且正负样本失衡;(2)特征提取器如HOG[4]、SIFT[5]等未能充分捕捉图像的高级语义特征和上下文内容;(3)传统检测算法分阶段进行,整体缺乏一种全局优化策略.
最近,深度学习经历了一段前所未有的发展热浪,AlexNet[6]在图像分类任务中的优异表现让人们重新燃起研究卷积神经网络的兴趣.相比于传统算法,深度学习利用自动学习数据中的特征表达和学习能力加速了目标检测的发展,在检测速度和准确率方面均有显著提升.正是由于目标检测技术的快速发展,如今其已广泛应用于智能视频监控、机器人视觉、基于内容的图像检索、自动驾驶[7,8]等领域.
本文首先介绍目标检测数据集及其评估指标,之后总结基于深度学习的目标检测基准模型,再从特征图、上下文模型、边框优化、区域提案、类别不平衡处理、训练策略、弱监督学习和无监督学习这八个方面归纳总结当前主流的目标检测模型,最后讨论目标检测技术的未来发展趋势与总结全文.