基于深度学习的视觉目标检测技术综述

视觉目标检测旨在定位和识别图像中存在的物体，属于计算机视觉领域的经典任务之一，也是许多计算机视觉任务的前提与基础，在自动驾驶、视频监控等领域具有重要的应用价值，受到研究人员的广泛关注。随着深度学习技术的飞速发展，目标检测取得了巨大的进展。首先，本文总结了深度目标检测在训练和测试过程中的基本流程。训练阶段包括数据预处理、检测网络、标签分配与损失函数计算等过程，测试阶段使用经过训练的检测器生成检测结果并对检测结果进行后处理。然后，回顾基于单目相机的视觉目标检测方法，主要包括基于锚点框的方法、无锚点框的方法和端到端预测的方法等。同时，总结了目标检测中一些常见的子模块设计方法。在基于单目相机的视觉目标检测方法之后，介绍了基于双目相机的视觉目标检测方法。在此基础上，分别对比了单目目标检测和双目目标检测的国内外研究进展情况，并展望了视觉目标检测技术发展趋势。通过总结和分析，希望能够为相关研究人员进行视觉目标检测相关研究提供参考。

视觉目标检测是计算机视觉的经典任务,旨在定位图像中存在物体的位置并识别物体的具体类别。目标检测是许多计算机视觉任务及相关应用的基础与前提,直接决定相关视觉任务及应用的性能好坏。因此,视觉目标检测技术受到了学术界、工业界等各领域、乃至世界各国政府的广泛关注。在学术界,目标检测一直是各大计算机视觉会议及期刊的研究热点之一,每年有大量的目标检测相关论文发表。根据谷歌学术显示,研究人员近 10 年来在目标检测方面发表论文 15 000 余篇。在工业界,国内外科技巨头(如谷歌、脸书、华为和百度等)、初创公司(如商汤、旷视等)纷纷在目标检测相关领域投入大量人力财力。与此同时,目标检测技术是新一代人工智能的重要共性关键技术,世界各国竞相竞争。

在过去的几十年中,目标检测经历了基于手工设计特征的方法到基于深度特征的方法等不同发展阶段。早期,目标检测方法通常采用手工设计特征加浅层分类器的技术路线,例如支持向量机(support vector machines,SVM) 和 AdaBoost 等,涌现了包括 Haar 特征(Viola 和 Jones,2004)、方向梯度直方图 (histograms of oriented gradients,HOG) 特征( Dalal 和 Triggs,2005)等一系列经典的目标检测特征描述子。 2012 年以来,深度学习技术取得了飞速的发展,并行计算资源不断迭代更新,大规模数据库及评测标准相继构建与公开。基于上述技术、算力和数据的铺垫,视觉目标检测开始在精度与效率等方面取得了显著的进展,先后涌现出区域卷积神经网络 (region-based convolutional neural network,R-CNN) (Girshick 等,2014)、SSD( single shot detector) ( Liu 等,2016)、YOLO( you only look once) (Redmon 等, 2016)、 DETR ( detection transformer ) ( Carion 等, 2020)等一系列经典的研究工作。相比于传统手工设计特征的方法,基于深度学习的方法避免了烦琐的手工设计过程,能够自动学习更具有区分力的深度特征。与此同时,基于深度学习的方法将特征提取和分类器学习统一在一个框架中,能够进行端到端的学习。

随着技术的不断发展与成熟,深度目标检测技术开始在实际应用中发挥重要作用。近些年,国内外涌现了一批以目标检测等视觉技术为核心技术的科技创业公司,如旷视科技、商汤科技等。同时,视觉目标检测是自动驾驶汽车环境感知重要的内容之一,以特斯拉为代表的一批科技公司甚至采用纯视觉目标感知的技术路线开展自动驾驶研究。尽管目标检测技术已经开始走向实际应用,但是当前目标检测的性能仍然无法到达人类视觉的性能,存在巨大改进与提升的空间。鉴于基于深度学习的目标检测技术在学术界和产业界取得了巨大成功,本文对基于深度学习的视觉目标检测技术进行了系统的总结和分析,包括国内外研究现状以及未来的发展趋势等。根据视觉目标检测采用视觉传感器的数量不同,将视觉目标检测分为两类:基于单目相机的视觉目标检测和基于双目相机的视觉目标检测。相比于单目相机,双目相机能够提供 3 维信息。因此,基于双目相机的视觉目标检测能够提供精准的目标 3 维信息,在自动驾驶等领域能够更好地满足应用需求。

首先介绍目标检测的基本流程,包括训练和测试过程。接着,系统地总结和分析单目视觉目标检测。然后,介绍双目视觉目标检测。最终,对比国内外发展现状,并对发展趋势进行展望。