空中平台的使用,如无人驾驶飞行器(UAVs),配备了摄像传感器,对民用安全和安保领域的广泛应用至关重要。其中,突出的应用包括监视和侦察、交通监测、搜索和救援、救灾和环境监测。然而,由于大量的视觉数据和由此产生的认知过载,仅由人类操作员分析航空图像数据往往是不可行的。在实践中,基于适当的计算机视觉算法的自动处理链被用来协助人类操作员评估航空图像数据。这种处理链的关键部分是在分析和解释场景之前,准确检测相机视野内的所有相关物体。由于相机和地面之间的距离较大,空间分辨率较低,这使得航空图像中的物体检测成为一项具有挑战性的任务,而运动模糊、遮挡或阴影又进一步阻碍了这项工作。尽管在文献中存在许多用于航空图像中物体检测的传统方法,但由于物体的尺度、方向、颜色和形状的高差异性,所使用的手工制作的特征的有限表示能力常常抑制了可靠的检测精度。
在本文的范围内,开发了一种新的基于深度学习的检测方法,其重点是在俯视记录的航空图像中检测车辆。为此,选择了Faster R-CNN作为基础检测框架,因为与其他基于深度学习的检测器相比,它的检测精度更高。针对航空图像的具体特点,特别是小物体的尺寸,系统地研究了相关的适应性,并确定了现实世界应用方面的问题,即由类似车辆的结构引起的大量错误检测和推理时间差。我们提出了两个新的组成部分,通过提高所采用的特征表示的上下文内容来提高检测精度。第一个组件旨在通过结合浅层和深层的特征来增加空间背景信息,以说明精细和粗略的结构,而后一个组件利用语义标签--图像的像素级分类--来引入更多的语义背景信息。实现了将语义标签整合到检测框架中的两种不同的变体:利用语义标签的结果来过滤掉不可能的预测,以及通过共享特征表示将语义标签网络明确地并入检测框架来诱导场景知识。这两个部分都明显减少了错误检测的数量,从而大大地提高了检测精度。为了减少计算量,从而减少推理时间,在本论文的背景下开发了两种替代策略。第一个策略是将用于特征提取的默认CNN结构替换为针对航空图像中的车辆检测而优化的轻量级CNN结构,而后一个策略包括一个新的模块,将搜索区域限制在感兴趣的区域。所提出的策略使检测框架的每个组成部分的推理时间明显减少。与作为基线的标准Faster R-CNN检测器相比,结合所提出的方法明显提高了检测性能。此外,在不同的航空图像数据集上,现有的航空图像中的车辆检测方法在数量和质量上都优于其他方法。在从具有不同属性的新的航空图像数据集上收集的大量以前未见过的数据上,进一步证明了其泛化能力。