当无人机与视觉相遇？天津大学等发布最新「无人机视觉检测和跟踪」综述论文：过去、现在和未来

2020 年 1 月 21 日 专知

【导读】无人机计算机视觉相关检测和跟踪（ Vision Meets Drones）作为近年来的研究热点之一，受到了广泛关注，这两年在各大会议上都有相关文章发表，并且也有一些竞赛。当前，无人机收集的视觉数据的自动理解变得非常困难，并且其用途广泛，天津大学的朱鹏飞博士、京东数字科技文珑银博士和纽约州立大学奥尔巴尼分校的独大为博士等新出的这篇论文对近几年基于无人机视觉检测和跟踪方法和数据集进行了全面综述，总结了当前面临的挑战，提出了未来的发展方向和改进方向。作者也提供了一个大规模的无人机捕获数据集VisDrone，其中包括四个track，即(1)图像目标检测，(2)视频目标检测，(3)单目标跟踪，(4)多目标跟踪。对每一个track进行了详细得说明，并强调VisDrone是迄今为止发布的最大的此类数据集，可以在无人机平台上对视觉分析算法进行广泛的评估和研究。

https://github.com/VisDrone/VisDrone-Dataset

题目：Vision Meets Drones: Past, Present and Future

作者：Pengfei Zhu, Longyin Wen, Dawei Du, Xiao Bian, Qinghua Hu, Haibin Ling

【摘要】配备了摄像头的无人机，或称通用无人机，已经被快速部署到广泛的应用领域，包括农业、航空摄影、快速递送和监控。因此，对无人机收集的视觉数据的自动理解变得非常困难，这使得计算机视觉和无人机之间的联系越来越紧密。为了促进和跟踪目标检测和跟踪算法的发展，我们与欧洲计算机视觉大会(ECCV) 2018和IEEE计算机视觉国际会议(ICCV) 2019联合举办了两个挑战研讨会，吸引了全世界100多支团队。我们提供了一个大规模的无人机捕获数据集VisDrone，其中包括四个track，即(1)图像目标检测，(2)视频目标检测，(3)单目标跟踪，(4)多目标跟踪。本文首先对目标检测和跟踪数据集和基准进行了全面的回顾，并讨论了收集具有完全手动标注的大规模基于无人机的目标检测和跟踪数据集的挑战。之后，我们描述了VisDrone数据集，该数据集是从中国北方到南方的14个不同城市的各个城市/郊区捕获的。VisDrone是迄今为止发布的最大的此类数据集，它可以在无人机平台上对视觉分析算法进行广泛的评估和研究。我们详细分析了无人机大尺度目标检测与跟踪领域的现状，总结了当前面临的挑战，提出了未来的发展方向和改进方向。我们预计这一基准将极大地促进无人机平台视频分析的研发。可以从以下网站下载所有数据集和实验结果：https://github.com/VisDrone/VisDrone-Dataset。

参考链接：

https://arxiv.org/abs/2001.06303v1

请关注专知公众号（点击上方蓝色专知关注）

后台回复“无人机视觉” 就可以获取最新论文的下载链接~

引言

近年来，计算机视觉因其在交通监控、智慧城市、人机交互等领域的广泛应用而受到越来越多的关注。作为计算机视觉的两个基本问题，目标检测和跟踪一直受到广泛的关注。在导致计算机视觉技术快速发展的众多因素和努力中，值得注意的贡献应归功于众多基准和挑战的发明或组织, 如目标检测的Caltech [1], KITTI [2], ImageNet [3], 和MS COCO [4]，目标跟踪的OTB [5], VOT [6], MOTChallenge [7], UA-DETRAC [8], 和LaSOT [9]。

配备摄像头的无人机已经被快速部署到广泛的领域，包括农业、航空摄影、快速投递和监视。因此，对从这些无人机收集的视觉数据的自动理解变得非常困难，这将计算机视觉越来越紧密地带入了无人机。尽管一般的计算机视觉算法(如检测和跟踪)取得了很大的进步，但这些算法通常不是处理无人机捕获的序列或图像的最佳算法。这是由于各种各样的挑战，如较大的视点变化和规模。因此，为无人机捕获的视觉数据开发和评估新的视觉算法至关重要。然而，正如[10]和[11]所指出的，由于缺乏公开的大规模基准或数据集，对这一目标的研究受到严重限制。最近，[10]、[11]和[12]致力于构建无人机捕获的数据集，这些数据集主要用于目标检测或跟踪。由于数据收集和标注方面的困难，这些数据集的大小和涉及的场景仍然有限。对现有或新开发的算法进行彻底的评估仍然是一个开放的问题。为了进一步推进无人机平台视频分析研究，需要一个更通用、更全面的基准。

因此，作者与欧洲计算机视觉大会(ECCV) 2018和IEEE国际计算机视觉大会(ICCV) 2019联合举办了两次挑战研讨会，吸引了全世界100多个研究团队。挑战集中在目标检测和跟踪的四个track。

-图像目标检测跟踪(DET)。
-视频目标检测跟踪(VID)。
-单目标跟踪(SOT)。
-多目标跟踪(MOT)。

值得注意的是，在研讨会挑战中，本文提供了一个大型数据集，包含179个视频中263个视频片段; 10个视频中的264帧画面; 209张静态图像。数据由不同的无人机相机记录，包括位置(取自中国14个不同的城市)、环境(城市和农村地区)、物体(如行人、车辆和自行车)和密度(稀疏和拥挤的场景)。作者选择了10类在无人机应用中最受关注的目标，比如行人和汽车。作者共仔细标注了来自这些类别的超过250万个目标实例的边界框。此外，还提供了一些重要的属性，包括场景的可见性、目标类别和遮挡，以提高数据使用率。表1列出了所提供的无人机数据集与其他相关基准数据集在目标检测和跟踪方面的详细比较。

在这篇论文中，作者重点关注了2018年和2019年的VisDrone挑战，以及挑战的方法、结果和评估方案，希望这一挑战能在很大程度上促进相关领域的研究和发展。

表1: 最先进的基准和数据集的比较。注意，分辨率表示基准和数据集中包含的视频/图像的最大分辨率。(1 k = 1000)

VISDRONE概述

VisDrone基准主要关注以下四个任务(见图1)，即(1)图像目标检测，(2)视频目标检测，(3)单目标跟踪，(4)多目标跟踪。作者构建了一个网站: www.aiskyeye.com来访问VisDrone数据集，并对这四个任务进行评估。值得注意的是，对于每个任务，训练、验证和测试子集中的图像/视频都是在不同的位置捕获的，但是共享相似的场景和属性。训练子集用于训练算法，验证子集用于验证算法的性能，测试挑战子集用于研讨会竞赛，测试开发子集用作公共评估的默认测试集。参与者可以获得用于训练和验证子集的手工标注的ground truth，但是为了避免算法的(过度)拟合，测试子集的ground-truth被保留。

图1: 提出的数据集的一些带注释的示例图像。虚线框表示目标被遮挡。不同的边框颜色指示目标的不同类别。为了更好地可视化，仅显示一些属性。

图2: 每幅图像的目标数量 vs. DET track中训练、验证、测试挑战和测试开发子集中图像的百分比。

在文章中，作者详细描述了每个track的数据集的数据统计信息和标注信息。

DET TRACK

图3:DET track中训练集、验证集、测试挑战集和测试开发集中不同对象类别不同遮挡度的目标数量。

表2:参加2018年和2019年VisDrone-DET挑战赛的队伍，按字母顺序排列。

表3: VisDrone-DET数据集上算法的比较结果。

图4:图像目标检测任务中具有挑战性的问题描述。

VID TRACK

VID TRACK的目的是在视频序列中从一组预定义的类别中定位目标实例。也就是说，给定一系列视频片段，需要算法以实值置信度为每个视频帧（如果有）中的每个目标实例生成一组边界框。

图5:在VID和MOT track的训练、验证、测试挑战和测试开发子集中，目标轨迹的长度与轨迹的百分比。

图6:在VID和MOT track的训练、验证、测试挑战和测试开发子集中，不同类别的目标轨迹数量。

表4:参与2018年和2019年VisDrone-VID挑战赛的队伍，按字母顺序排列。

表5: VisDrone-VID数据集上算法的比较结果。

SOT TRACK

对于SOT track，主要关注一般的单对象跟踪，也称为无模型跟踪[5]，[91]，[92]。特别是对于输入视频序列和第一帧中目标对象的初始边界框，SOT track要求算法在后续视频帧中定位目标边界框。这些序列中的跟踪目标包括行人、汽车、公共汽车和动物。

表6: 参加2018年和2019年VisDrone-SOT挑战赛的队伍，按字母顺序排列。

图8: （a）在2018年测试挑战赛中，VisDrone-SOT 2018（以红色标记表示）和VisDrone-SOT 2019（以蓝色标记表示）挑战中排名前10位的跟踪器的success vs. precision 得分。 VisDrone-SOT 2018和VisDrone-SOT 2019挑战中的跟踪器分别以红色和蓝色标记表示。（b）在2019年测试挑战赛中，VisDrone-SOT 209挑战赛中排名前10位的跟踪器的success vs. precision 得分。（c）测试开发集上最先进的跟踪器的success vs. precision 得分。

MOT TRACK

MOT track旨在恢复视频序列中目标的轨迹，这是计算机视觉在许多应用中的重要问题，在监控、运动分析和运动视频分析等领域有着广泛的应用。在VisDrone-2018挑战中，根据是否在单独的帧中使用之前的检测结果，将这个track划分为两个sub-track。具体来说，对于一个sub-track，需要提交一种算法来恢复视频序列中目标的轨迹，而不需要将目标检测结果作为输入。

表7:参加VisDrone-MOT 2018和2019挑战赛的队伍，按字母顺序排列。

表8:使用[77]中的评估协议对VisDrone-MOT数据集上算法的比较结果。

表9:使用CLEAR-MOT评估协议[43]对VisDrone-MOT数据集上算法的比较结果。

结论

本文引入了一种新的大规模基准，VisDrone，以促进无人机捕获图像的目标检测和跟踪研究。超过6000个工作小时收集、标注和组织了大量目标实例，来推动目标检测和跟踪算法的发展，数据集强调在真实生活环境中捕获图像和视频片段。值得注意的是，该数据集记录了中国14个不同城市的各种无人机平台，并呈现了多种现实场景。本文提供了一组丰富的标注集，包括250多万个带标注的目标实例以及一些重要属性。VisDrone基准通过项目网站www.aiskyeye.com提供给研究社区。在实际应用中，在四个track的最佳submission仍然远远不能令人满意。

原文链接：

https://arxiv.org/abs/2001.06303v1

-END-

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！