摘要

研究人员通常会增加训练数据来提高神经网络的预测能力，但当数据或计算资源有限时，这种方法是不可行的。本文扩展了以前的研究，即使用长短期记忆-完全卷积网络从公开的广播式自动相关监视（ADS-B）数据中识别飞机发动机类型。这项研究设计了两个实验，改变训练数据样本和输入特征的数量，以确定对ADS-B分类模型的预测能力的影响。第一个实验从有限的特征集中改变了训练数据观察的数量，结果是83.9%的准确率（与以前只用25%的数据的实验相比，准确率在10%以内）。实验结果表明，与数据数量相比，特征选择和数据质量导致了更高的分类精度。第二次实验接受了所有ADS-B特征组合，并确定空速、气压和垂直速度对飞机发动机类型预测的影响最大。

关键词：多变量长短期记忆-完全卷积网络，广播式自动相关监视，公开信息，开源数据，分类，机器学习

1 引言

在过去的三十年里，互联网上的存储量从1993年的15.8 exabytes增加到2020年的6.8 zettabytes[1]，增幅超过40000%。虽然很难确定确切的数字，但截至2022年2月，互联网的规模估计约为21 zettabytes，并且每两年翻一番[2]。如果我们假设普通的个人电脑（PC）有一个一兆字节的硬盘，21兆字节就相当于210亿台PC，基本上世界上每个人都有三台PC。虽然这些数据中有很多是个人数据，但其中很大一部分被认为是公开可用的信息（PAI），可以被任何互联网用户或组织利用。

可用数据的增加导致了对识别趋势的研究（即数据分析），在社会的多个方面，包括商业和政府，变得越来越普遍。研究人员和大公司已经考虑了多种方法来最好地利用这种被恰当地称为 "大数据 "的巨大资源。一些已经显示出前景的领域包括物联网（IoT）分析[3-5]、trafc建模[6]、战斗和海上运动[7-11]、图像识别[12]、搜索引擎[12]和自然语言处理[12]。

对PAI和数据分析的日益关注，得到了负责做出合理防御决策的军事防御战略家的认可。通过将PAI与他们所掌握的大量传感器数据相结合，如来自情报、监视和侦察平台的数据，有可能提高这些资源的预测能力。美国空军和太空部队对数据分析的需求是显而易见的，因为多领域行动是其防御战略的组成部分。事实上，22财年的态势声明呼吁指挥和控制部门需要翻译和共享数据，以提供 "实时传播可操作的信息"，从而提供 "以比我们的竞争对手更快的速度在所有领域进行联合作战"[13]。如果没有最近的技术、人工智能和机器学习的进步，这个目标几乎是不可能的。幸运的是，新技术可以用来清除大数据中的噪音，其速度远远超过人类的速度，以快速做出对军事决策者来说很重要的推断。

为了帮助军事领导人分析他们所掌握的巨大数据，我们试图通过为大数据的一个主要用户提供增强的能力来改善军事行动：情报分析员。对情报分析员来说，一个重要的重点领域是生命模式（POL）的建模。一些研究人员试图通过机器学习来改善POL建模[14-18]。最近的研究兴趣表明，用深度学习分析地面和机载飞机传感器，以预测飞机的特性。

POL建模的一个研究方向是利用广播式自动相关监视（ADS-B）数据来对飞机进行预测[6, 8, 11, 19]。某些空域内的飞机被要求通过机载转发器广播ADS-B输出。使用ADS-B数据进行分类问题的好处是，它是公开的，在美国和欧洲飞行的飞机被要求在大多数空域等级中广播它[20, 21]。ADS-B数据从世界各地的不同地点收集，业余爱好者和研究人员在这些地点维护一个接收器来收集数据。ADS-B收集者将他们的数据提交给集中的存储库，如ADS-B交易所[22]，这些存储库将数据汇总起来供公众使用。在这些存储库中，关于广播飞机的统计和运动学信息都是可用的。

1.1 问题描述/目标

生命模式(POL)建模是一个拥有许多技术和最佳实践的研究领域[14-18]。军事和国防人员对POL建模的兴趣，不仅仅包括对人类日常活动的建模。例如，来自飞机传感器的未归属数据，如从空中交通管制（ATC）的主雷达收集的数据，可以通过一些分析对发射的飞机做出推断。ATC的主雷达收集运动信息，如位置和空速，但如果没有飞机通过其应答器提供，则无法获得飞机的识别信息。有了这些基本的飞机运动学数据，模型可以预测诸如飞机型号或发动机类型等信息，而不需要在原始数据集中直接说明。ADS-B数据的好处是，这些特征存在于数据集中，可以作为真实数据，为没有真实数据的数据集建立模型。

由于这种类型的处理可能是资源密集型的，在处理有限的计算资源时，训练一个深度学习模型可能是困难的，或者在某些情况下是不可能的。训练一个模型所需的计算资源量在很大程度上受训练数据的大小影响。出于这个原因，了解如何通过最小化用于训练模型的数据来最好地利用可用资源是很重要的。有两种方法可以最小化数据：限制特征的数量或减少训练样本的数量。在这项研究中，利用飞机运动学数据，我们研究了预测发动机类型时改变这些因素的影响。由于减少训练数据将不可避免地降低所得模型的准确度，在本文中，我们将可接受的模型定义为预测准确度在先前89.2%的基线研究成果的10%以内[23]。因此，能达到至少79.2%准确率的模型将被认为是 "可接受的"。