【干货】A Large-Scale Benchmark for Vision-Based UAV Tracking

2022 年 1 月 7 日 中国图象图形学学会CSIG

Nan Jiang , Kuiran Wang , Xiaoke Peng , Xuehui Yu , Qiang Wang , Junliang Xing , Guorong Li , Guodong Guo , Qixiang Ye , Jianbin Jiao , Jian Zhao and Zhenjun Han

中国科学院大学，中国科学院自动化研究所，北方电子设备研究所，百度公司

IEEE Trans. on Multimedia

撰稿人:彭潇珂，王岿然

‡通讯作者:韩振军，赵健

摘要

近几年，无人驾驶飞行器（UAV）被广泛用于商业和娱乐方面。因此，对监测无人机成为了一个重要的任务。无人机目标跟踪能够提供无人机位置和轨迹等丰富的信息。为了促进该研究内容，作者构建了一个新的数据集命名为AntiUAV包含超过300个视频对以及超过580k个手动标注的边界框。此外，针对无人机目标跟踪仅包含一种目标类型的特点，作者提出了双流语义一致性的训练策略，通过跨视频序列的语义流调制，跟踪器可以学习到更强大的类级语义信息并获得更具区分度的实例级特征。实验表明，作者提出的训练方法能够有效增强跟踪器的稳健性。本文所做的工作在针对反无人机的视觉任务研究中是具有开创性的，主要体现在以下三个方面：

1.首次在国际学术领域提出针对反无人机的视觉任务，对于重点区域低空威胁预警探测和智能感知具有重要意义和价值。

2.提出首个大规模多光谱基准数据集AntiUAV，助推相关领域前沿技术发展和应用落地。

3.针对反无人机目标跟踪这一视觉任务，提出双流语义一致性的训练策略以利用反无人机视觉任务中目标类型单一的特点，在GlobalTrack跟踪器上取得了更高的性能。

背景及简介

近年来，商用小型无人机（UAV）产业在国内外发展日益蓬勃，已经成为我国经济发展的新的增长点，开始在节日里的灯光表演、体育比赛的高清航拍、灾后救援等各个场景下频繁亮相。应用范围越来越广泛，飞行高度也越来越高，但也随之产生了一系列严重的安全管控问题，未经许可闯入公共及敏感区域、意外坠落、影响客机正常起降、碰撞高层建筑等事件不断发生。

2018年2月7日，在唐山市古冶区范各庄一片空地上，唐某等四人操纵一架无人机升空进行地形图航空测绘。无人机起飞不久就被解放军空军雷达检测发现为不明空情，致使空军出动两架战斗机查证，空中飞行员目视发现为固定翼无人机。严重扰乱空中管理秩序、耗费大量人力物力的罪魁祸首，却是“黑飞”的无人机。如果能够在惊动战机之前对入侵无人机进行精准探测，就能够采取有效反制措施最大化降低损失。因此，开展复杂环境下低慢小（无人机）目标智能感知的研究，从而对无人机进行有效的探测、监管和必要的反制，具有重要意义。然而，目前关于无人机监测方面的探索仍处于起步阶段，为促进该领域的研究，作者构建了新的基准数据集AntiUAV，并提出了双流语义一致性的训练策略以增强跟踪器的稳健性。

AntiUAV基准数据集

为了推动无人机追踪领域的发展，作者考虑将可见光RGB和红外图像中的信息进行融合，首次针对无人机进行追踪，并构建了第一个无人机多模态的数据集——Anti-UAV，如图1所示。

图 1 AntiUAV数据集

作者录制了不同无人机在空中飞行的各类视频，共收集了318对高质量、高清晰度的RGB-T视频，每对包含一个可见光视频和一个红外视频。另外，不同于已发布的标准多模态跟踪数据集，Anti-UAV多模态数据是非对准的，这也是未来利用多模态数据跟踪无人机的新方向，如图2所示。同时，Anti-UAV数据集中包括6种无人机型（主要来自DJI和Parrot），两种光照条件（白天和夜晚），两种光照模式（红外和可见光）和各类背景（建筑物、云、树木等），存储为MP4文件，帧率为25fps。

图 2 AntiUAV多模态及非对齐的展示

Anti-UAV分为训练集、验证集和测试集。训练集和验证集取自同一视频非重叠片段，而测试集完全独立。目标在测试集中的运动范围更加复杂多样。目标尺度整体波动很大，如图3所示，三个集合的尺度分布类似，均值皆小于40像素，但测试集稍微更集中一些。

图 3 无人机目标尺度分布

由于不同跟踪器的细节差异很难从整体数据集的角度反映出来，因此AntiUAV还通过提供二值属性标签，来帮助辨别不同反无人机跟踪器在各个方面优缺点。这些属性包括OV(Out-of-View)，OC(Occlusion)，FM(Fast Motion)，SV(Scale Variation)，LI(Low Illumination)，TC(Thermal Crossover)和LR(Low Resolution)。其中在测试集中OV的占比较大，另外在Anti-UAV中，FM出现的情况也比较多，这同时也是无人机跟踪任务中的一个难题。

图 4 无人机属性展示

评价指标

AntiUAV数据集使用的评价指标公式如下所示。

其中， $IOU_{t}$ 是每个跟踪包围盒与相应的地面真值在并集上的交点。 $v$ 为ground-truth能见度标志(tracker预测的 p 用来测量状态精度)。状态精度SA是一个序列中所有帧的平均值，所有视频序列mSA的平均状态精度作为最终评价结果。同时，精度和成功率也同样作为该数据集的评价指标。而针对不同任务，研究人员还可将具体的评估情况分为三种。Protocol1采用可见光视频序列和红外视频序列分别对无人机跟踪器的性能进行评价，目的是验证在训练过程不使用含无人机的数据集的情况下，跟踪器对无人机跟踪的性能。Protocol2旨在提供一种独特的无人机跟踪评估准则，支持研究人员使用可见或红外的反无人机训练视频序列来微调他们的跟踪器或从零开始训练他们。Protocol3鼓励研究人员探索如何充分利用含无人机的可见光、红外多模态数据集。

根据以上提到的评价指标，作者还利用现阶段已有跟踪器做了大量的实验。根据Protocol1评估方式，该工作使用超过40种的跟踪器在Anti-UAV的验证集和测试集进行实验。表1，表2分别为各种跟踪器在Anti-UAV测试集和验证集上的结果，实验结果表明：在Anti-UAV的测试集上，大多数情况下SiamRCNN[1]和GlobalTrack[2]比其他跟踪器表现更好。这两种跟踪器在除了FM、LR和LI属性之外，性能相当。以上三个属性中超过4.00% mSA的优势使SiamRCNN处于领先地位。至于验证集，GlobalTrack[2]在OC和LI两个属性上略微领先，而SiamRCNN[1]在其他属性上的性能都是最好的。特别是在OV, TC和LR上，SiamRCNN[1]的性能远远优于其他跟踪器。

双流语义一致性训练策略

针对该数据集中的Protocol2评估方式，作者提出了DFSC（dual-flow semantic consistency）训练策略。由于在Anti-UAV数据集中只有一类目标，即无人机。因此，即使是不同的视频串，其中的前景信息也是相关的。DFSC算法正是基于该想法，将训练不同视频串所获得的特征结合起来，使得所学习到的特征更具有鲁棒性。该训练策略整体结构如图5所示。

可以看出，基于深度学习的tracker普遍效果会更好相比于之前手工设计的特征，且最好的几个基本都是设计时基于长时（long term）的tracker。因为长时里面可能出现完全遮挡或者消失视野然后重新出现的情况，而短时（short term）里面没有。

图 5 DFSC训练策略

表 1 AntiUAV校验集性能

表 2 AntiUAV测试集性能

双流语义一致性训练策略实验结果

根据Protocol2评估方式，表3为不同训练策略下在Anti-UAV上的实验结果比较。可以看出，DFSC算法在红外和可见光上都取得了最佳的性能。与常规训练策略相比，DFSC在验证集和测试集上分别获得0.49 mSA和0.68 mSA的提升。对于可见光跟踪序列，DFSC在验证集和测试集上分别提高了0.48 mSA和0.57 mSA。与大尺度训练策略相比，常规方法和DFSC方法在验证集上有明显的提高。

表3. DFSC训练策略实验结果

当下，在无人机领域还没有高质量的基准方法来获得真实的动态场景。总体来说，这项工作建立了第一个无人机跟踪数据集，其中收集了超过300视频对并且人工标注了超过580k个目标。该工作中还提出了针对无人机跟踪的评估方法和基准跟踪算法，并相对应地完成了大量的对照实验。在未来，多模态未对齐的跟踪数据集也将是一个很有潜力的提高跟踪准确率的方法。

参考文献：

[1] Voigtlaender P, Luiten J, Torr P, et al. Siam R-CNN: Visual Tracking by Re-Detection[C]，IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020.

[2] Huang L, Zhao X, Huang K, GlobalTrack: A Simple and Strong Baseline for Long-term Tracking[J], 2019.

作者简介