天津大学等发布最新「无人机视觉检测和跟踪」综述论文：过去、现在和未来

【导读】无人机计算机视觉相关检测和跟踪（ Vision Meets Drones）作为近年来的研究热点之一，受到了广泛关注，这两年在各大会议上都有相关文章发表，并且也有一些竞赛。当前，无人机收集的视觉数据的自动理解变得非常困难，并且其用途广泛，天津大学的朱鹏飞博士、京东数字科技文珑银博士和纽约州立大学奥尔巴尼分校的独大为博士等新出的这篇论文对近几年基于无人机视觉检测和跟踪方法和数据集进行了全面综述，总结了当前面临的挑战，提出了未来的发展方向和改进方向。作者也提供了一个大规模的无人机捕获数据集VisDrone，其中包括四个track，即(1)图像目标检测，(2)视频目标检测，(3)单目标跟踪，(4)多目标跟踪。对每一个track进行了详细得说明，并强调VisDrone是迄今为止发布的最大的此类数据集，可以在无人机平台上对视觉分析算法进行广泛的评估和研究。

https://github.com/VisDrone/VisDrone-Dataset

【摘要】配备了摄像头的无人机，或称通用无人机，已经被快速部署到广泛的应用领域，包括农业、航空摄影、快速递送和监控。因此，对无人机收集的视觉数据的自动理解变得非常困难，这使得计算机视觉和无人机之间的联系越来越紧密。为了促进和跟踪目标检测和跟踪算法的发展，我们与欧洲计算机视觉大会(ECCV) 2018和IEEE计算机视觉国际会议(ICCV) 2019联合举办了两个挑战研讨会，吸引了全世界100多支团队。我们提供了一个大规模的无人机捕获数据集VisDrone，其中包括四个track，即(1)图像目标检测，(2)视频目标检测，(3)单目标跟踪，(4)多目标跟踪。本文首先对目标检测和跟踪数据集和基准进行了全面的回顾，并讨论了收集具有完全手动标注的大规模基于无人机的目标检测和跟踪数据集的挑战。之后，我们描述了VisDrone数据集，该数据集是从中国北方到南方的14个不同城市的各个城市/郊区捕获的。VisDrone是迄今为止发布的最大的此类数据集，它可以在无人机平台上对视觉分析算法进行广泛的评估和研究。我们详细分析了无人机大尺度目标检测与跟踪领域的现状，总结了当前面临的挑战，提出了未来的发展方向和改进方向。我们预计这一基准将极大地促进无人机平台视频分析的研发。可以从以下网站下载所有数据集和实验结果：https://github.com/VisDrone/VisDrone-Dataset。

参考链接：

https://arxiv.org/abs/2001.06303v1

引言

近年来，计算机视觉因其在交通监控、智慧城市、人机交互等领域的广泛应用而受到越来越多的关注。作为计算机视觉的两个基本问题，目标检测和跟踪一直受到广泛的关注。在导致计算机视觉技术快速发展的众多因素和努力中，值得注意的贡献应归功于众多基准和挑战的发明或组织, 如目标检测的Caltech [1], KITTI [2], ImageNet [3], 和MS COCO [4]，目标跟踪的OTB [5], VOT [6], MOTChallenge [7], UA-DETRAC [8], 和LaSOT [9]。

配备摄像头的无人机已经被快速部署到广泛的领域，包括农业、航空摄影、快速投递和监视。因此，对从这些无人机收集的视觉数据的自动理解变得非常困难，这将计算机视觉越来越紧密地带入了无人机。尽管一般的计算机视觉算法(如检测和跟踪)取得了很大的进步，但这些算法通常不是处理无人机捕获的序列或图像的最佳算法。这是由于各种各样的挑战，如较大的视点变化和规模。因此，为无人机捕获的视觉数据开发和评估新的视觉算法至关重要。然而，正如[10]和[11]所指出的，由于缺乏公开的大规模基准或数据集，对这一目标的研究受到严重限制。最近，[10]、[11]和[12]致力于构建无人机捕获的数据集，这些数据集主要用于目标检测或跟踪。由于数据收集和标注方面的困难，这些数据集的大小和涉及的场景仍然有限。对现有或新开发的算法进行彻底的评估仍然是一个开放的问题。为了进一步推进无人机平台视频分析研究，需要一个更通用、更全面的基准。

因此，作者与欧洲计算机视觉大会(ECCV) 2018和IEEE国际计算机视觉大会(ICCV) 2019联合举办了两次挑战研讨会，吸引了全世界100多个研究团队。挑战集中在目标检测和跟踪的四个track。

图像目标检测跟踪(DET)。
视频目标检测跟踪(VID)。
单目标跟踪(SOT)。
多目标跟踪(MOT)。

值得注意的是，在研讨会挑战中，本文提供了一个大型数据集，包含179个视频中263个视频片段; 10个视频中的264帧画面; 209张静态图像。数据由不同的无人机相机记录，包括位置(取自中国14个不同的城市)、环境(城市和农村地区)、物体(如行人、车辆和自行车)和密度(稀疏和拥挤的场景)。作者选择了10类在无人机应用中最受关注的目标，比如行人和汽车。作者共仔细标注了来自这些类别的超过250万个目标实例的边界框。此外，还提供了一些重要的属性，包括场景的可见性、目标类别和遮挡，以提高数据使用率。表1列出了所提供的无人机数据集与其他相关基准数据集在目标检测和跟踪方面的详细比较。

在这篇论文中，作者重点关注了2018年和2019年的VisDrone挑战，以及挑战的方法、结果和评估方案，希望这一挑战能在很大程度上促进相关领域的研究和发展。

成为VIP会员查看完整内容