视觉目标检测旨在定位和识别图像中存在的物体,属于计算机视觉领域的经典任务之一,也是许多计算机视觉任务的前提与基础,在自动驾驶、视频监控等领域具有重要的应用价值,受到研究人员的广泛关注。随着深度学习技术的飞速发展,目标检测取得了巨大的进展。首先,本文总结了深度目标检测在训练和测试过程中的基本流程。训练阶段包括数据预处理、检测网络、标签分配与损失函数计算等过程,测试阶段使用经过训练的检测器生成检测结果并对检测结果进行后处理。然后,回顾基于单目相机的视觉目标检测方法,主要包括基于锚点框的方法、无锚点框的方法和端到端预测的方法等。同时,总结了目标检测中一些常见的子模块设计方法。在基于单目相机的视觉目标检测方法之后,介绍了基于双目相机的视觉目标检测方法。在此基础上,分别对比了单目目标检测和双目目标检测的国内外研究进展情况,并展望了视觉目标检测技术发展趋势。通过总结和分析,希望能够为相关研究人员进行视觉目标检测相关研究提供参考。
视觉目标检测是计算机视觉的经典任务,旨在 定位图像中存在物体的位置并识别物体的具体类 别。 目标检测是许多计算机视觉任务及相关应用的 基础与前提,直接决定相关视觉任务及应用的性能 好坏。 因此,视觉目标检测技术受到了学术界、工业 界等各领域、乃至世界各国政府的广泛关注。 在学 术界,目标检测一直是各大计算机视觉会议及期刊 的研究热点之一,每年有大量的目标检测相关论文 发表。 根据谷歌学术显示,研究人员近 10 年来在目 标检测方面发表论文 15 000 余篇。 在工业界,国内 外科技巨头(如谷歌、脸书、华为和百度等)、初创公 司(如商汤、旷视等)纷纷在目标检测相关领域投入 大量人力财力。 与此同时,目标检测技术是新一代 人工智能的重要共性关键技术,世界各国竞相竞争。
在过去的几十年中,目标检测经历了基于手工 设计特征的方法到基于深度特征的方法等不同发展 阶段。 早期,目标检测方法通常采用手工设计特征 加浅层分类器的技术路线,例如支持向量机(support vector machines,SVM) 和 AdaBoost 等,涌现了包括 Haar 特征(Viola 和 Jones,2004)、方向梯度直方图 (histograms of oriented gradients,HOG) 特征( Dalal 和 Triggs,2005)等一系列经典的目标检测特征描述 子。 2012 年以来,深度学习技术取得了飞速的发 展,并行计算资源不断迭代更新,大规模数据库及评 测标准相继构建与公开。 基于上述技术、算力和数 据的铺垫,视觉目标检测开始在精度与效率等方面 取得了显著的进展,先后涌现出区域卷积神经网络 (region-based convolutional neural network,R-CNN) (Girshick 等,2014)、SSD( single shot detector) ( Liu 等,2016)、YOLO( you only look once) (Redmon 等, 2016)、 DETR ( detection transformer ) ( Carion 等, 2020)等一系列经典的研究工作。 相比于传统手工 设计特征的方法,基于深度学习的方法避免了烦琐 的手工设计过程,能够自动学习更具有区分力的深 度特征。 与此同时,基于深度学习的方法将特征提 取和分类器学习统一在一个框架中,能够进行端到 端的学习。
随着技术的不断发展与成熟,深度目标检测技 术开始在实际应用中发挥重要作用。 近些年,国内外涌现了一批以目标检测等视觉技术为核心技术的 科技创业公司,如旷视科技、商汤科技等。 同时,视 觉目标检测是自动驾驶汽车环境感知重要的内容之 一,以特斯拉为代表的一批科技公司甚至采用纯视 觉目标感知的技术路线开展自动驾驶研究。 尽管目 标检测技术已经开始走向实际应用,但是当前目标 检测的性能仍然无法到达人类视觉的性能,存在巨 大改进与提升的空间。 鉴于基于深度学习的目标检测技术在学术界和 产业界取得了巨大成功,本文对基于深度学习的视 觉目标检测技术进行了系统的总结和分析,包括国 内外研究现状以及未来的发展趋势等。 根据视觉目 标检测采用视觉传感器的数量不同,将视觉目标检 测分为两类:基于单目相机的视觉目标检测和基于 双目相机的视觉目标检测。 相比于单目相机,双目 相机能够提供 3 维信息。 因此,基于双目相机的视 觉目标检测能够提供精准的目标 3 维信息,在自动 驾驶等领域能够更好地满足应用需求。
首先介绍目标检测的基本流程,包括训练和测 试过程。 接着,系统地总结和分析单目视觉目标检 测。 然后,介绍双目视觉目标检测。 最终,对比国内 外发展现状,并对发展趋势进行展望。