本报告记录了美国海军卡勒研究金（Karle’s Fellowship）研究项目的第一年，调查机器学习在增强航天器运行方面的应用。研究金的第一年主要包括研究范围的确定、文献回顾、数据收集以及算法选择和开发。近年来，美国国防部（DoD）越来越重视自主能力的发展，这在美国海军的研究和发展战略中也得到了响应。机器学习技术代表了一个近期的机会，通过增强现有技术来逐步提高自主能力。从长远来看，这是对新技术的投资机会，可能会极大地提高国防部系统能力。在更复杂的技术成为现实之前，解决自主性问题的实际方法必须侧重于消除自主性的最重要障碍。在空间系统运行的背景下，健康监测和故障管理已被政府和商业实体确定为空间系统自主性的最大障碍之一。空间系统日益增长的规模和复杂性，以及卫星群的快速采用，使传统的地面人类监测迅速变得不切实际，难以持续。这项工作主要研究在卫星遥测中使用机器学习进行自动异常检测。异常检测是自主健康监测的基本职责之一，因为对非正常状态的检测通常是运行故障检测和补救过程中的第一步。近期的自动异常检测可以通过对大量的遥测数据进行分类并只标记需要调查的数据来帮助人类操作员。从长远来看，它可能被用作综合自主健康监测系统的一部分。异常检测的机器学习领域一直是广泛研究的主题，因此，该技术已经足够成熟，可应用于当前的健康监测系统。此外，异常检测在海军的其他方面也有一些潜在的应用，包括海洋领域感知（MDA）和指挥、控制、通信、计算机、情报、监视和侦察（C4ISR）工作。研究金的第二年将着重于进行实验，建立概念验证，并将该技术整合到现有的空间系统中。

1. 引言

本报告记录了一个为期两年的卡勒研究金研究项目的第一年，该项目是关于机器学习（ML）用于增强航天器运行的主题。它旨在全面回顾迄今为止的所有研究，包括美国国防部（DoD）和海军的需求、研究范围的确定、背景领域知识、文献回顾、数据收集、算法选择和开发、实验设计以及其他发现。此外，它应作为最后一年研究和后续项目的动力和基础。

1.1 杰罗姆和伊莎贝拉-卡勒研究金计划

美国海军研究实验室（NRL）设立了Jerome和Isabella Karle杰出学者研究金计划，以纪念Jerome和Isabella Karle博士，他们在化学领域的杰出贡献为他们赢得了美国和国际上的认可，Jerome Karle博士获得的诺贝尔奖。该计划为研究人员提供了进行为期12至24个月的独立研究项目的机会，这些项目由NRL内部资助。NRL的海军空间技术中心（NCST）接受了一项卡勒研究金，从2020年7月开始，到2022年7月结束，题为 "机器学习促进增强航天器运行"。该研究金的主要重点是识别、调整和应用有前途的ML算法到航天器运行中，并创建一个概念验证，以评估ML如何改善空间系统的性能。为这个概念验证提供的规定如下。

1.一个ML算法

2.一个用于训练该算法的数据集

3.用于评估该算法的航天器模拟测试平台

4.量化任何性能变化的分析结果

ML有许多潜在的应用于空间任务，为运行和任务性能的改进提供了可能性[1]。为了使这项研究与美国海军的需求保持一致，并为概念验证保持一个可操作的范围，该项目开始调查海军在空间领域的需求和目标。随后是对一般航天器运行和现有技术差距的审查，以确定ML有希望的应用领域。剩下的介绍性内容和背景概述了研究范围和方向的细化。

1.2 美国海军对增强空间系统自主性的需求

美国海军在空间领域进行许多活动，包括海洋领域感知（MDA）、定位导航和定时（PNT），以及指挥、控制、通信、计算机、情报、监视和侦察（C4ISR）[2]。这些活动为关键决策信息的收集、分析和分布提供了基础设施。这些系统的重要性体现在国防部的投资战略中。例如，2018年国防战略（NDS）和海军研究与发展框架都将具有弹性和持久性的C4ISR作为投资重点[2，3]。随着提供这些能力的系统在规模和复杂性上继续增加，以应对日益增长的作战需求，有必要整合更多的自主功能，以保持系统性能的最大可能水平。国防部已经认识到这一需求，因此，2018年国家发展战略和其他一些战略文件明确列出了自主能力的进步是一项关键的技术投资[2-5]。因此，美国海军有必要继续发展自主技术，以使关键系统能够随着部队的需要而扩展。

在美国海军空间系统中发展自主能力将有助于提高可操作信息的数量、质量和及时性。自主性可以应用于空间系统的多个方面，包括航天器运行和任务性能。从纯粹的运行角度来看，更大的自主性允许空间系统在不压倒人类操作员的情况下扩大规模。例如，当决策的时间尺度或信息处理的规模排除了人工控制时，自主性就变得有必要[6]。随着分布式多卫星任务变得越来越普遍，这种情况也变得越来越普遍。此外，自主性提供了以更低的成本获得更高的系统性能的机会，因为它的运行更加稳健和高效[7]。从任务的角度来看，自主性的提高可以采取改进数据收集、处理、分析和传输的形式，提高任务的效率和效果。运行和任务执行的改进都会减少对环形系统的压力，在某些情况下可能完全不需要人，使操作人员能够承担更高级别的任务[5，8]。

尽管从长远来看，海军应继续投资于各种自主能力，但近期的努力必须集中在消除自主性的最重要障碍上。多个权威机构已经确定航天器故障管理（FM）是最大的空间系统自主性障碍之一，包括国防科学委员会（DSB）和美国国家航空和航天局（NASA）[4, 9-11]。一般来说，FM是自主系统的一项有利技术，因为它允许系统在非正常情况下继续运行[12]。对于海军来说，自主FM，以及更广泛的健康监测，提供了几个好处，包括增加弹性和可靠性。有能力预测、预防、隔离和恢复故障的系统在本质上更有可能在关键时期保持运行。此外，自主健康监测可以帮助缓解评估空间系统健康状态的困难，因为空间系统正变得越来越大和复杂。

1.3 研究问题

美国海军显然需要对自主空间系统能力进行持续投资。由于这个原因，目前的工作范围涉及到确定ML如何可能被应用于空间系统的自主性。特别考虑到航天器FM系统，因为它们作为自主性使能器所带来的重大挑战和机会。这项研究试图获得以下问题的答案:

1.ML在自主空间系统运行中最有希望的应用是什么？

2.如何将ML纳入航天器FM系统？

3.哪些FM任务适合于ML？

2. 背景情况

为了激励和提供后续章节的背景，本章包括关于自主性和自动化、ML基础、空间系统运行和航天器FM的信息。每一节都旨在为每个相关主题提供足够的背景信息，以便在本报告的大背景下理解其作用。

2.1 自动化、自主性和人工智能

自动化、自主性和人工智能（AI）是三个不同的概念，由于其概念上的相似性，常常被混为一谈。当创建一个至少部分不受人类控制的系统时，必须注意考虑应该采用这些概念中的哪一个。例如，一个必须是严格的可重复性和确定性的过程是比自主性或人工智能更适合自动化的候选者。相反，一个必须能够适应不可预见的情况并做出决定的系统必须采用某种程度的自主性。这些概念也可以被利用来一起工作；例如，一个自主系统可以依靠自动化组件来执行重复的功能，而基于人工智能的组件来协助决策任务。重要的是要强调，一个特定的系统可以采用这些概念中的一个或多个，同时仍然利用某种形式的人在回路中的控制。为了提供一个清晰的划分，本报告采用了[6]的以下定义。

自动化是自动控制的设备、过程或系统的运行，它取代了人类的劳动。尽管自动化过程可能很复杂，但它们是严格的确定性的，系统采取的所有行动都是通过预先确定的决策标准选择的。换句话说，自动化过程通过遵循明确的指令运作，不能在这些指令之外运作。

自主性是指一个系统在独立于外部控制运作时实现目标的能力。自主系统的两个关键特征是自我指导和自给自足。请注意，运行边界--对系统可以和不可以做什么的限制--可以而且应该由系统设计者来实现。此外，具体的自主能力可以存在于一个在人类控制下运行的更大系统中。关于这个话题的更深入的处理，请看[4]。

人工智能是计算机系统执行通常需要人类智能的任务的能力。一个使用人工智能的系统可以用它来帮助一些不同层次的自主决策，并且可以在明确的运行范围内与人类操作员一起工作。虽然人工智能是具有某种程度自主性的系统的一个常见组成部分，但重要的是要注意，自主系统不一定需要人工智能组件。

2.2 机器学习的基本概念

机器学习可以被定义为人工智能的一个子集，在这个子集中，计算机算法在反复接触数据的情况下，会自动改进给定任务。利用大型人工神经网络的现代深度学习技术是最普遍的ML方法之一。图1显示了人工智能、ML和深度学习之间的关系。本报告使用机器学习一词是指当今采用对目标任务效果最好的算法；这被称为 "弱人工智能"，或执行单一任务的人工智能，其范围很窄。这方面的常见应用包括分类和回归任务。相比之下，人工通用智能、"强人工智能 "和相关术语广泛指的是人类拥有的认知智能类型。尽管这一领域的研究正在进行，但这种类型的人工智能不太可能在短期内适用，因此将不再进一步讨论。

图1-人工智能领域的常见欧拉图[13］

虽然ML模型在架构上可能有很大的不同，但大多数采用相同的基本实现模式。一般来说，一个ML模型将一些输入数据映射到一个相应的输出。训练数据在模型优化过程中被用来确定最佳模型参数。因此，用于训练ML模型的数据必须尽可能全面地代表问题。数据中的任何偏见、缺失的模式或其他问题的代表错误都会导致模型给出有偏见的预测，或者只是表现不佳。此外，用于优化和评估模型的指标必须被仔细选择，以便它们能够准确地描述模型的性能。无论一个给定的算法是单独工作还是作为一个更大的综合系统的一部分，这都是正确的。无论学习范式如何，这也是真实的。

本报告将学习范式广泛定义为调整ML模型参数的方式。图2显示了三种主要范式：监督学习、无监督学习和强化学习。这些基本范式可以作为其他衍生范式（如半监督学习）的构成要素。监督学习是研究得最多的，也是实践中最常使用的。在这个范式中，每个训练数据样本都是有标签的：它包括模型的输入数据以及相应的地面真相，或目标输出。通过调整模型参数来优化模型，使一些任意的损失函数的值最小化，该函数将模型输出与地面实况进行比较。相比之下，无监督学习算法在输入数据中搜索模式和结构，而不需要利用来自标记的地面真实数据的明确反馈。最后，强化学习使用反馈系统来训练智能Agent在其环境中采取的行动，这些行动使根据Agent的预期性能定制的奖励方案最大化[14]。

图2-三种基本的机器学习范式[15]。

2.3 空间系统的解剖和运行

发射后，由无人驾驶航天器组成的卫星系统通常由三个主要运行部分组成：空间部分、地面部分和用户部分。典型的空间系统部分和它们在系统中的作用显示在图3中。本节的重点是空间和地面部分，因为它们是用户部分的基础结构，而用户部分又为终端用户提供卫星系统的产品。

2.3.1 空间部分

空间部分包括卫星系统中的所有航天器；这可能包括一个单一的航天器或一个由许多航天器组成的星座。卫星在其具体结构上可能有很大的不同，但典型的卫星可以分解成两个主要部分：总线和有效载荷。虽然有效载荷服务于特定的任务，但任何航天器总线的主要目标是通过提供必要的基础设施来支持有效载荷，从而促进在空部分任务。虽然具体子系统的存在和重要性可能因任务而异，但本讨论包括地球轨道卫星的典型子系统，如图4所示。

为了简洁起见，这些子系统将不会被详细讨论。然而，重要的是要注意，每一个都在航天器的基础设施中发挥着特定的作用。因此，通常从这些子系统中的每一个收集遥测数据，以评估航天器的健康状态，通常在多个层次上，如组件、子系统和系统层面。一个航天器记录的遥测通道的数量可能从几十个到几千个不等。通常，收集的遥测数据的类型和数量是由主题专家决定的，他们决定什么级别的信息对支持一个特定的任务是必要的。

图3-典型的空间系统部分[16]。在运行上（即发射后），三个相关部分是地面、空间和用户部分。

图4-一个卫星通常由一个总线和有效载荷组成，前者为任务提供基础设施，后者执行任务。图中是典型的总线子系统。

2.3.2 地面部分

地面段的主要责任是与空间段对接，并在整个系统的其他部分分发各种类型的数据。一个典型的地面部分由几个元素组成，包括任务控制中心或任务运行中心、地面站、地面网络和远程基础设施。图5给出了典型的地面部分组件的概述。地面部分与空间和发射部分接口，并在发射后从发射控制中心接管对任务的控制。表1[17]中给出了各部分的主要功能。地面部分的主要运行作用是促进与空间部分的通信，允许数据与航天器上行连接和下行连接。任何没有在航天器上实现的空间段功能必须由地面段通过指挥和控制通信进行监测和执行。传输到地面的数据类型包括任务数据、遥测或内务数据，以及跟踪数据。通常情况下，传输到航天器的数据是指挥和控制数据。遥测和跟踪数据被任务操作员用来执行各种内务活动，如轨道计算和维护、任务规划和航天器健康评估[17]。

表1-地面段功能

2.4 航天器故障管理

航天器故障管理仍然是一门成熟的学科。尽管FM实践与航天飞行本身一样久远，但FM仍然普遍是在临时的、逐个任务的基础上实施的。然而，在过去十年中，航天工业的多个成员已经认识到标准化的需要，并已开始将FM组织成一个正式的系统工程学科[18]。因此，在FM活动的正式化以及最佳做法和从以前的任务中吸取的教训的汇总方面，已经取得了重大进展。这一努力的一部分包括对FM术语的定义。关于FM实践，本报告采用了NASA故障管理手册[19]中的定义。一些重要的定义在此重复。

异常 - 预期功能的意外表现。

失败 - 预期功能的不可接受的表现。

故障 - 一个物理或逻辑的原因，它解释了一个故障。

故障诊断 - 确定故障的可能位置和/或原因。

故障管理 - 包括实践的工程学科，使运行系统能够遏制、预防、检测、隔离、诊断、响应和恢复可能干扰额定任务运行的条件。

标称 - 一个预期的、可接受的状态或行为。

非标称 - 超出可能的预期状态或行为界限的状态或行为。有三种非正常状态：异常、退化和失败。

预测 - 对未来状态或行为的预测。

图5-地面部分组件及其与空间和发射部分的接口的简化概述[20]。

2.4.1 基本要求和责任

与其他学科一样，对一个特定的FM系统的具体要求来自基本的任务目标。必须特别考虑到任务的目标、重要性和风险容忍度，这有助于确定任务的风险态势。要求以类似于其他学科的方式从任务层面流向系统、子系统和组件层面。一旦建立了整体的FM要求，工程团队的工作就是确定如何满足这些要求，同时遵守任务的资源限制。自下而上和自上而下的分析都要进行，以获得对系统最完整的看法。常见的分析包括故障模式和影响分析（FMEA）、成功树分析、故障树分析和事件排序。与其他空间系统任务类似，任何不存在于航天器上的FM功能必须在地面实现。一个具体的FM功能可能被分配给空间段、地面段或两者的混合[21]。

NASA的FM手册将FM策略细分为两种方法：预防和容忍[19]。预防策略是为了完全避免故障，而容忍策略则是为了在出现故障的情况下使任务能够继续。预防可以进一步分为设计时预防和运行时预防。设计时的预防是指将故障发生的可能性最小化的工程实践。运行时预防的工作方式是首先对运行系统进行预测，然后采取预防措施，避免任何预期的故障。容忍策略可分为掩蔽、恢复和目标改变方法。掩蔽方法试图通过防止故障在系统功能中进一步传播来最小化故障的影响。掩蔽的例子包括冗余和纠错，它们允许故障发生，但通过在故障传播之前对其进行修正，将其 "隐藏 "在系统的其他部分。恢复方法寻求诊断故障的根本原因和位置，并随后采取行动恢复系统的正常运行。这个过程通常被称为故障检测、隔离（定位）和恢复/响应（FDIR）。最后，目标改变方法通过修改任务目标来应对故障，以适应故障造成的系统能力的任何变化。

图6-根据NASA的FM手册[19]，五个主要的FM策略的组织结构

一般来说，一个任务的FM系统的具体能力取决于来自任务目标、复杂性和整体可靠性期望的要求。在实践中，一个特定的任务在建立FM系统和战略时，通常会采用图6所示的一些方法的组合。对于关键任务，可能会采用大部分或所有列出的战略，以最大限度地提高任务成功的可能性。

2.4.2 目前的运行方法

一旦系统开始运行，有一些基本任务是FM系统必须执行的。图7给出了运行中的FM过程的概述。虽然没有画出来，但预测也是该过程中的一个常见步骤。空间和地面部分之间的功能分配取决于几个因素，包括任务的关键性、预算、资源和运行限制。然而，无论系统配置如何，同样的基本任务都适用。传统上，FM任务一直偏向于地面部分，因为它提供了更多的分析能力[22]。虽然现代航天器运行通常在地面和空间部分都使用一些功能，但唯一的机载FM功能仍然是那些由于时间或通信限制而实际上不能在地面上执行的功能：当必须采取时间关键的行动以确保航天器的安全时，机载系统必须能够独立于外部援助采取适当的行动。此外，由于感知到的风险，历史上一直存在着对广泛使用航天器飞行软件的文化偏见[4，23]。

图7-运行中的FM过程概述（图中没有预示）[19] 。

遥测监测和分析是进行预知和FDIR等运行调控工作的主要方法。遥测被用来预测、诊断和隔离故障，以及帮助确定适当的响应行动。在预期的或实际的非正常情况下，响应行动采取指令序列的形式，目的是保持或恢复正常的运行状态。如果对特定故障的响应已经预先确定，这些指令序列可能会自动生成，或者在发生新的或未知的故障时，它们可能由工程师手动构建。监测通常在地面上通过下行链路遥测数据进行，也可以通过一些硬件和软件的组合在机上进行。集成在硬件中的机载FM的一些例子包括看门狗定时器和内置测试，以及各种特定的子系统措施，如电气系统中的过压/欠压监视器。在软件中，最常见的机载FM故障响应是安全模式程序，它暂停所有非必要的功能，直到任务工程师能够指挥航天器恢复到名义状态[21]。

超限（OOL）方法也许是最简单和最常见的遥测监控方法[23]。这种方法依靠的是假设和期望，每个遥测通道都有明确定义的额定和非额定范围。这些范围通常是由具有主题专业知识的航天器工程师确定或在他们的协助下确定的。此外，OOL方法通常采用分层系统，其中建立了多个限制，每一个连续的限制标志着过渡到一个更严重的非正常状态。分层的OOL系统由于其易于实施、使用和解释而一直非常受欢迎。限值本身是由专家确定的，该系统易于实施，而且结果可以直接解释。此外，通过使用遥测趋势分析，建立的极限可以用来帮助预后。极限检查是地面和太空中最常见的遥测监测方法，并经常作为更先进方法的基础[24]。

目前大多数包含某种程度的自动化FM系统都依赖于监测-反应范式中的基于规则的方法[12]。基于规则的方法的基本前提是直截了当的：对于每个规则，一个或多个条件被持续监测，如果所有条件都满足，则执行预定的响应。规则可以是简单的，也可以是复杂的，就条件的数量和它们的复杂性而言都是如此。同样，响应可以是简单的，也可以是由扩展的指令序列组成的。一个有效的响应也可能是在系统无法解决的非正常情况下提醒人类操作员。当故障条件和适当的响应是已知的，基于规则的系统提供了强大的自动化。然而，它们通常不适合处理未知的故障，除非包括推理部分，如形式专家系统[25]。

2.4.3 挑战和机遇

传统的FM方法有许多缺点，FM界已经强调了这些缺点。这既包括运行的基本概念，也包括具体方法。在文化上，由于缺乏标准化和对FM作为一项正式工程任务的认可，使得几乎不可能将任务与任务之间的做法落实到位。此外，很少有有效的工具或资源的再利用[18]。从系统工程的角度来看，FM是一项具有挑战性的任务，因为它不可能事先模拟或预测一个复杂系统的每个可能的故障模式。无论多么彻底，像FMEA这样的分析都不能预测所有可能的故障。这种大的故障空间 "使全面的测试变得不可行"，对可靠的核查和验证（V&V）构成重大挑战[26]。虽然分析和测试仍然是任何FM方法的关键步骤，但人们已经认识到，从V&V的角度来看，它们不能被认为是完全详尽的。

还有运行上的挑战，特别是对于高可靠性的任务。值得注意的是，目前的监测-响应范式有几个缺点。地面部分在执行FM的能力方面受到固有的限制，因为它不能实际接触到航天器。此外，并非所有由航天器收集的遥测数据都能被下连和监测，使地面FDIR工作复杂化。随着星座变得越来越普遍，这种现象已经开始变得复杂。安全模式，最常见的自动FM功能，在操作人员诊断和恢复航天器时，可能会导致长时间的任务停机。失败的航天器恢复尝试可能导致 "恢复循环"，其中诱发了其他故障并必须加以解决[22]。大多数极限检查系统是相当僵硬的，随着时间的推移，航天器功能的自然退化，极限必须被手动改变。基于规则的系统可以提供复杂的自动化，但通常是基于传统的FM分析，因此在故障空间方面受到同样的限制。此外，随着规则的数量和复杂性的增加，基于规则的系统在验证和确认方面变得越来越复杂[12]。

对有效的航天器FM的现有挑战导致了FM实践界的若干反应。工程方面的改进涉及到需求开发和分配、成本驱动因素、风险评估以及整个产品开发生命周期的V&V。在运行上，感兴趣的主要话题是创建可扩展的FM实践，以满足空间任务日益增长的需求[27]。与航天器运行的其他方面一样，随着航天器数量和复杂性的增加，人在环的做法正变得越来越不可持续。在NRL，这导致了海王星地面系统软件中自动化功能的发展[28]。更广泛地说，它促使人们对基于模型的系统工程（MBSE）和综合系统健康管理（ISHM）等领域的兴趣增加[29] 。

3 方法

航天器FM是一门广泛的学科，它的一些组成任务并不适合自主或ML。从根本上说，除非能从数量上证明ML组件不构成降低系统性能的风险，否则ML增强的系统永远找不到实际用途，而这对航天器的运行来说将证明是特别真实的。在短期内，某些FM任务对于目前的技术来说可能过于复杂。对于某些任务，增加ML可能永远不会比简单的方法提供合法的好处，事实上应该有意避免。这可以在FDIR过程的恢复部分中得到证明；如果对一个特定的故障或故障模式的响应策略是已知的，那么自动化就是唯一必要的工具。在这种情况下，用非决定性的ML代替决定性的自动化可能会给系统带来更多的风险，而不是消除风险。在这种情况下，更适合ML的任务可能是在发生未知故障时提出恢复指令。因此，最有希望的ML应用是那些从未将系统带入更坏状态的应用，在某种可量化的确定性措施内。

将ML应用于系统健康监测的努力正在多个领域进行，包括结构和工业健康监测以及网络和物联网系统的重要研究[30, 31]。将ML应用于航天器FM和健康监测也是一个活跃的研究领域，可以追溯到几十年前[32]。一些自主FM的最初尝试是基于规则的ML专家系统[11, 25]。历史上，遥测中的异常检测一直是ML在航天器健康监测中最常见的应用之一[7, 24, 33, 34]。已经使用了各种异常检测技术，包括聚类和基于距离的方法、神经网络、支持向量机和谱技术等等[23]。最近，现代深度学习技术已经成为一个流行的研究领域[30, 35]。一般来说，绝大部分的研究只集中在运行FM周期的预测和检测部分，因为它们是最直接的应用。然而，将这些方法整合到一个完整的FM系统中存在着大量的机会。

异常检测是自主健康监测的一个基础构件，因为非正常状态检测往往是预知和FDIR过程的第一步。一个自动遥测异常检测系统为当今的空间系统运行以及未来的空间自主健康监测提供了好处。在这两种情况下，最大的好处将通过整合到一个运行系统中来实现。在近期，自动异常检测提供了机会，在故障发生之前提醒操作者注意异常行为。此外，一个自动化系统可以将大量的遥测数据提炼成少数需要人工调查的事件，极大地提高了效率[7]。近期的系统可以被集成到地面站以及高度优先任务的航天器上。作为综合自主FM系统的一部分，对异常行为的检测可以传递给更高层次的推理器，该推理器可以根据环境执行下一个FM任务。

一般的异常检测问题可以大致分为纯粹的数据驱动和综合模型方法。数据驱动的方法依赖于模型的输入数据来提供解决问题所需的所有信息。即使没有明确纳入领域知识，成功的异常检测系统仍然是以这种方式创建的。此外，当创建其他类型的模型不可能或不现实时，数据驱动的方法可能是唯一可行的方法。然而，试图通过纯粹的数据驱动方法来描述一个复杂系统的名义行为，存在着固有的缺点。这对于航天器来说尤其如此，因为其遥测值取决于各种各样的内部和外部因素，如航天器运行模式、指令序列、环境条件和物理现象。在实践中，即使是极高容量的模型也不可能捕捉到所有的这种背景。因此，文献中的许多方法为每个单独的遥测通道构建一个新的模型[23]。这在系统层面上是不切实际的，因为系统可能需要几十个通道来监测。

与其他领域一样，可以利用领域知识来创建一个更有针对性的任务来解决。在航天器异常检测的背景下，名义性能的概念通常在系统设计期间通过建模和仿真来获取。正如这些工具被用来帮助告知极限检查和基于规则的方法，它们也可以被用来进一步告知ML方法。综合模型方法试图通过应用领域知识来提高算法的能力。这可以通过各种方式实现，但在空间系统的背景下，最常见的方法通常是通过物理或程序模型，这些模型描述了系统的预期行为。作为一个激励性的例子，考虑图8中的信号分解；通过对信号的趋势和周期部分建模，有可能以残差的形式提取任何未建模的影响。通过这种方式，残差提供了对偏离预期行为的直接测量。因此，将异常检测技术应用于残差而不是整个信号是一个更有针对性的问题，因为它直接描述了与模拟的名义行为的偏差。一般来说，"黑匣"（即纯粹的数据驱动）ML方法必须学习更复杂的函数映射，因为它们未能明确地纳入关于系统的任何种类的领域知识。通过使用一个给定系统的非ML模型来说明容易表征的名义行为，有可能构建一个可能更容易解决的ML问题。

3.1 实际考虑

由于目前的研究是在概念验证的技术准备水平（TRL）上进行的，所以对概念化系统的许多实际实施考虑还没有深入探讨。尺寸、重量、功率和成本（SWaP-C）方面的问题在本研究中没有得到解决，计算方面的限制也没有得到解决，如计算成本、复杂性或内存。虽然这些限制对于地面FM系统来说可能不那么严重，但对于在空间实施任何ML系统来说，它们是关键的考虑因素。所需的硬件往往是大型的、大规模的和功率密集型的，而且算法消耗大量的计算资源。此外，ML硬件在空间环境中的行为还没有得到很好的理解，在广泛使用之前需要进一步研究[37]。航天器是资源受限的系统，在苛刻的环境中运行；因此，一旦建立了概念证明，就必须对系统的实施实用性以及资源使用和系统性能之间的妥协进行评估。该评估将有助于确定一个可用于太空的产品所面临的工程挑战。

图8-单变量信号的时间序列分解[36]。

3.2 数据收集、汇总和准备

虽然有大量的开源异常检测数据集，但遥测数据集相对较少。为了在特定领域的数据上建立模型，数据收集工作包括开放源码数据、NRL提供的数据以及与政府和行业的联系。这产生了多个遥测数据集，其大小、复杂性、格式和异常类型各不相同。政府和行业的数据收集工作正在进行中。根据最佳做法，所有的测试数据都保留给最终评估，不以任何方式用于或查看培训目的。无论用于训练的学习范式是什么，所有的测试数据必须包含地面真实信息，以便对结果进行定量评估。

3.2.1 开源数据

开源数据搜索的最有希望的结果是NASA的一个异常检测库。作为调查ML在遥测异常检测中使用的项目的一部分，NASA喷气推进实验室（JPL）的一个研究小组已经发布了一个数据集，其中包含来自土壤水分主动被动（SMAP）和火星科学实验室（MSL）任务的总共82个遥测通道[23]。这些数据包含了点状异常和背景异常。每个遥测通道都包含每个时间步骤的遥测值以及指令信息。图9显示了来自SMAP航天器的训练遥测通道的例子。训练数据中没有提供地面真相标签，这意味着监督学习方法不能用来直接预测异常情况。测试数据被贴上了地面真相信息的标签，提供了该通道遥测值中存在的任何异常的指数。除了数据本身，开发的算法也同时发布，可以作为基线性能基准。应该指出的是，通道A-3被任意选择作为一个纯粹的开发性数据集；也就是说，训练和测试集都被用来协助开发模型、测试线束和实验。从这个数据集中选择了一个通道，因为它以前被清理、规范化和格式化，作为NASA研究的副产品，供模型摄取。因为这个通道的测试数据已经被多次使用，所以这个通道不能用于评估。相反，将对其余的通道进行评估。

图 9-SMAP A-3 遥测通道训练数据

3.2.2 NRL提供的数据

WindSat有效载荷是 "第一个完全极化的空间微波辐射计"[38]。2003年作为科里奥利任务的一部分发射，该有效载荷提供天基海洋风速和风向测量。虽然该任务不再活跃，但该卫星已经远远超过了最初的三年任务寿命，仍在运行。该航天器目前由NRL的Blossom Point Tracking Facility（BPTF）运行，该设施记录并将科里奥利遥测数据储存在一个记录数据库中。WindSat遥测数据库包含了多年的运行遥测数据的记录。这为在真实世界的数据集上评估算法提供了极好的机会，与大多数异常检测问题一样，该数据集包含作为极端少数类的异常现象。在评估过程中，可以使用已知的故障记录作为基础事实，但不会用于训练任何算法。对这个数据集的最终评估可以由BPTF的运营工程师证实。除了WindSat之外，NRL还在进行其他一些数据收集工作。作为各种开发项目的一部分，NCST已经开发了能够生成遥测数据的工具。这些工具可以用来模拟航天器的运行并注入合成故障数据；重要的是，这提供了快速创建具有可变类型和数量的故障和异常情况的大规模数据集的机会。此外，这些工具可以直接用于生成相应的地面真实数据。

3.3 机器学习异常检测方法

[39]提供的异常检测的一般定义是检测 "不符合预期正常行为 "的模式。这是一个不断发展的广泛领域，在很大程度上是由物联网大数据挖掘工作推动的。异常检测的机器学习方法已经成为一个非常受欢迎的研究课题，因为它们被应用于金融欺诈检测、网络入侵检测、医疗诊断和工业健康监测等任务[40]。所有这些领域的共同点是需要自动数据处理技术来协助检测不断增加的数据量中的非正常模式。在某些情况下，异常检测也可以被称为离群点检测或新奇点检测，尽管这些术语的语义略有不同[41]。其他相关问题包括概念漂移和变化检测，它们泛指检测数据中出现的或变化的行为。概念漂移和变化检测都给异常检测带来了挑战。概念漂移的可能性要求有效的算法不断地更新其名义行为的概念，而数据中的变化可能代表着异常或仅仅是一个新的名义模式的开始[42]。

图10-不同类型数据中的异常现象[43］

文献通常规定了三种基本的异常类型：点、集体和背景。点状异常是最简单的，指的是相对于其他数据而言，单一的数据点是异常的。集体异常指的是一组数据点，这些数据点在一起是异常的，但可能不是孤立的。背景异常是指那些在不了解某些空间或时间背景的情况下无法识别的异常。如果某种形式的背景被用来识别，那么点状和集体状的异常现象也可以被归类为背景性异常现象[39]。图10说明了一些异常现象的例子。左上图和右上图都显示了点状异常，左下图和右下图都显示了集体异常。请注意，这两个集体异常现象也可以被认为是上下文异常现象，因为它们在周围数据的背景下是异常的。

异常检测面临许多挑战，特别是对于具有大型多变量数据空间的应用。创建一个包含系统所有可能的标称和非标称行为的模型是很困难的，尤其是在使用包含噪声并经常随时间变化的真实世界数据时。在ML模型的背景下，由于标记的名义和非名义数据的可用性有限，采购训练数据集往往是困难的或令人望而却步[39]。这些挑战导致了各领域的各种方法。本文详细介绍了作为文献回顾的一部分被检查的异常检测算法的类型。具体的算法不会被详细讨论；相反，算法的类别将被讨论，以达到激励的目的，并突出潜在的优势和劣势。由于本研究的范围限制以及该领域的快速发展，本评论不应视为详尽无遗。关于异常检测技术和挑战的更全面的处理，见[39-41, 44, 45]。

3.3.1 监督方法

异常检测的监督方法与其他ML任务的工作方式基本相同。如果标记的数据是可用的，包含名义的和异常的样本，一个任意的模型可以被建立和训练来对新的输入样本进行预测。一般来说，大多数异常检测问题都存在着严重的类不平衡，其中名义数据远远超过非名义数据。由于这个原因，完全监督的方法是不常见的，因为典型的类不平衡禁止收集全面的训练数据集。在某些情况下，有可能合成一个包含名义和非名义样本的数据集，尽管一般来说很难合成一个能准确代表所有可能的名义和非名义行为的数据集[39]。部分监督学习在支持主动或交互式学习方案中可能是有用的，该方案利用人类在环路中的反馈来帮助以半监督的方式训练系统[46]。参见[47, 48]对主动和互动学习的深入评论。

3.3.2 半监督方法

半监督学习的经典解释是监督和非监督学习的结合，其中有限的标记数据和大量的未标记数据被用来创建一个模型，该模型比其纯粹的监督或非监督的等价物具有更好的预测能力[49]。在ML异常检测的背景下，半监督学习通常是指以监督的方式对单一类别--名义或非名义--进行模型训练，然后使用该模型来区分训练类别和相反类别的做法[40, 50]。这通常是通过在名义数据上训练模型来进行的，因为名义数据的可用性更高，而且很难创建一个包含所有可能的异常行为的异常数据集。

3.3.3 自我监督的方法

在自监督学习中，创建一个模型来解决一个 "前台"任务，该任务可以被表述为使用未标记数据的监督学习问题。通过这种方式，训练有素的模型学习了数据本身的表征，然后可以在 "下游"任务中使用[49]。在异常检测的背景下，"前台"任务通常是学习名义行为的表示，然后可以用来执行区分名义和非名义样本的下游任务。这经常被用于创建单类（即名义或非名义）分类器。

预测

基于预测的异常检测技术是一种自我监督的学习形式，根据输入数据的性质，也可能是半监督的。预测任务使用一个预测模型来预测未来的数据点。通过表征模型和现实之间的误差--通常称为残差--可以使用下游技术，通过比较名义残差和样本的残差来识别异常的样本。如果模型没有明确地在纯名义数据上进行训练，通常会假设非名义类足够罕见，不会影响模型学习名义行为的能力[39]。图11显示了一个基于回归的异常检测的例子。前提任务是根据建模的名义系统行为生成 "预期 "曲线，下游任务是对名义残差进行定性，以确定何种程度的差异是异常的[51] 。基于回归的异常检测最适合于残差对标称和非标称样本表现出明显不同特征的问题。直观地说，该方法不适合于不能可靠地建模的系统，如高度随机或其他不可预测的系统的情况。

图11-基于预测的异常检测：预测和实际行为之间的巨大差异表明存在异常[51] 。

重构

重构模型试图通过强迫模型从潜在的表征中重建输入数据来学习一种表征[52]。最常见的版本是不完全重构，其中模型必须从一个压缩的、低维度的潜在表征中重建输入。这与过度完整模型相反，后者的空间比输入大。在异常检测的背景下，重建技术通常使用不完全模型。这是基于这样的观察：为了从有限的潜表征中形成最好的重构，模型必须只学习数据最相关的属性，忽略不相关或错误的信息。通过这种方式，它学习了一个名义行为的表征。当应用于异常检测时，该方法基于这样的假设：如果训练学习行为的名义表征，该模型在名义数据上的重建误差较低，而在非名义数据上的误差较高。然后，以类似于其他半监督方法的方式，一些下游技术可以被用来识别异常情况。现代重构模型最常以神经网络的形式实现，在文献中被称为自动编码器，因为它们可以被视为一般编码器-解码器网络结构的一个特例。图12显示了一个不完全自动编码器的一般表示方法。文献中对复制器网络进行了广泛的研究，并且通常是各种复杂的异常检测技术的基础，如对抗性自动编码器和生成对抗网络（GANs）[53, 54]。

图12-一个不完全的自动编码器，其中xˆ是输入x的重构[55] 。

3.3.4 无监督的方法

统计学

虽然许多统计异常检测技术严格来说不属于ML领域，但它们在异常检测任务中的普遍性值得一提。在多步骤的异常检测管道中，它们经常被用作最后的处理步骤之一。统计测试可用于确定异常分数本身，也可用于确定对这些分数的信心估计。统计学异常检测依赖于这样的假设：名义数据和非名义数据分别存在于随机模型的高概率和低概率区域。方法的类型可以分为参数技术和非参数技术，前者对数据的分布做了假设，后者对基础分布不做假设。一个流行的参数方法是假设数据的高斯分布，这样就可以使用各种技术--如图13中的Z-score--来获得数据样本的异常得分。由于经验上的成功，即使正态性假设在现实中不成立，也常常会做出这种假设。统计技术最大的优势和劣势是假设数据符合一个任意分布。如果假设成立，那么结果在统计学上是合理的，而且容易解释；但是，如果不成立，该技术可能产生无效或错误的结果。关于统计学异常检测和正式的统计学离群点检测的评论，见[39，56]。

图13-Z-score可以用来寻找高斯分布数据中的离群点[57] 。

聚类和基于邻域的检测

尽管它们是不同类别的技术，但用于异常检测的聚类和邻域方法都是基于这样一个前提：异常数据可以通过某种距离指标来识别，从而将其与名义数据区分开来。聚类方法假定名义数据和非名义数据空间可以被分成若干个定义明确的聚类。邻域方法通过计算它们与本地邻域的相对距离或密度来检测异常情况。虽然学习本身通常是以无监督的方式进行的，但整个方法通常可以被认为是半监督的，因为隐含的假设是实际上所有的训练数据都是名义的。另外，一些方法还试图为异常情况形成明确的聚类。由于这些方法的借口任务通常是对预先存在的无监督技术的直接应用，因此存在大量的基于聚类、邻域和密度的异常检测算法。有关概述，见[39]。

基于隔离的检测

许多异常检测方法首先对名义行为进行剖析，然后使用该剖析来区分名义和非名义样本，而基于隔离的异常检测方法采取了一种根本不同的方法，明确地试图将异常现象从数据的其余部分中分离出来。直观地讲，这种方法可以通过观察来解释，即异常点应该比名义数据点更容易从其他数据中分离出来。最初的基于ML隔离的异常检测器是隔离森林（IF或iForest）算法，它是相关方法的激励基础，如扩展隔离森林（EIF）和半空间树（HS-Tree）[58-60]。IF算法的工作原理是建立一个随机决策树的集合。每棵树对数据进行随机分割，直到每个数据点都被隔离（即与其他数据分离）。平均路径长度--隔离数据点所需的分割数量，在所有树中的平均值--被用作确定异常得分的基础。根据经验，异常点的路径长度明显较短。EIF算法消除了原始IF算法中存在的固有偏见。半空间树（HS-Trees）采取与IF类似的分区方法，可以应用于流式数据。图14显示了隔离森林的代表。

图14-隔离森林使用隔离路径长度作为异常检测的基础 [61] 。

3.3.5 其他方法

已经提出了各种其他的异常检测技术。信息理论技术是基于这样的假设：通过测量异常现象对数据集的信息复杂性的贡献，可以识别异常现象。谱技术试图通过将数据投射到一个不同维度的子空间来寻找异常，在这个子空间中，异常现象更容易被发现。一些版本的复制器和对抗性模型在数据压缩阶段隐含地进行这种类型的数据投影。最近对该领域的贡献包括将深度强化学习应用于主动半监督的异常检测方法[62]。

3.3.6 组合方法

应该指出的是，各种算法可以作为集合方法或多步骤算法的组成部分。例如，经典的集合方法可以应用于异常检测，将一些不同模型的预测结合起来，努力创造一个比其任何成分都要好的综合预测。此外，一些技术适合创建一个算法的管道，其中一个特定步骤的输出被用作另一个步骤的输入。例如，一个ML模型可用于执行表征学习，如特征提取或降维，模型的输出可用于进一步处理或确定异常分数的后续步骤。这是一种常见的处理技术，适用于处理复杂的高维数据的方法和利用ML作为整个检测管道的预处理步骤的方法。

3.3.7 对航天器的考虑

航天器遥测异常检测问题的性质对可能使用的算法施加了某些限制。遥测是典型的时间序列数据，意味着在确定异常时，时间背景很重要。直观地说，在某个时间点上正常的遥测值在另一个时间点上可能是异常的。因此，没有纳入时间信息的算法可能处于不利地位。一些方法将时间信息作为所用模型的副产品，如基于长短期记忆（LSTM）的方法。其他方法试图通过在整个序列中应用滑动窗口来扩展非时间性的算法。此外，遥测数据通常是高维和多变量的。例如，一个热控系统可能由其他多个子系统的若干遥测通道组成。为了形成一个全面的系统视图，需要某种程度的系统层次和抽象化。因此，仅限于单变量数据的算法在其适用性上比多变量的算法更有限。

学习范式也是一个主要考虑因素，特别是对于航天器遥测。对于大多数异常检测问题，名义行为的例子远远超过非名义的例子。这对航天器来说尤其如此。因为航天器的故障和异常通常是相当罕见的，所以使用监督学习来直接训练一个模型通常是不可靠的。到目前为止，以半监督或无监督的方式操作的方法，在没有大量标记数据的任务中，经验显示出更好的性能。虽然半监督和自我监督的方法更为普遍，但它们通常不能通过使用关于特定检测是否正确的明确反馈来逐渐提高检测能力。从长远来看，主动学习和其他相关范式可能允许这些方法通过少量的专家标记的例子来逐步改进。

3.4 评价原则

对一个综合系统的评价要求能够量化系统的整体性能以及每个组成元素的单独贡献。这对FM系统来说是一项困难的任务，这在很大程度上是由于在该领域已经存在的V&V挑战。一般来说，预测一个复杂系统的所有可能的故障模式是不可行的，因此，所有的分析和测试本质上是不详尽的[26]。在遥测监测和异常检测这一较窄的范围内，有可能通过与已经在实践中使用的其他基线遥测监测方法进行比较来简化评估问题。在最简单的情况下，一个基线方法可以直接与一个或多个ML方法进行比较。然而，如果ML组件被整合到一个更大的系统中，就有必要证明它对整个系统的具体贡献。

3.4.1 异常检测算法的评估

对于每个输入样本，异常检测算法的最终输出通常有两种形式：一种是衡量样本的异常程度的异常分数，另一种是将样本归入名义类或非名义类的二进制标签。一般来说，分数被认为是一种更灵活和信息量更大的方法，因为它们允许异常水平的连续光谱，而不是两个离散的状态。分数也可以在任何时候通过应用一个阈值转换为二进制标签。然而，在实践中，直接比较使用不同评分方法的算法变得很困难，因为分数本身往往是从根本上不同的概念和假设得出的。此外，选择一个将分数转换为标签的阈值可能具有挑战性，而且往往依赖于关于数据的特定领域假设[39]。这些挑战使得建立明确的评价标准并明确说明可能影响结果的任何假设变得至关重要。

为了确保完整和客观的评估，需要谨慎地选择指标。异常检测问题所固有的典型的类不平衡意味着许多传统的衡量标准，如准确度、F-Measure、平均精度（AVPR）和接收运行特征曲线下面积（AUROC）可能会人为地夸大性能[63]。这方面的一个例子是二进制准确度；一个二进制分类器如果天真地将给定数据集中的每一个样本都归入名义类，那么由于类的不平衡度很高，它的得分可能会相对较高[64]。使用二元的真-假-正-负（TFPN）指标--真阳性（TP）、真阴性（TN）、假阳性（FP）和假阴性（FN）--作为评价的基础是很常见的，因为它们可以用来计算众多的其他衍生指标。混淆矩阵是使用TFPN指标来描述整体性能的一种常见方式，既直观又数字。异常检测混淆矩阵的布局示例如图15所示。给定评估数据集中的每个样本都被分配到四个象限中的一个，每个象限的总数被用来确定性能。文献中的普遍共识是，虽然一些数值如Matthews相关系数比其他数值更客观，但没有一个从TFPN指标中得出的单一数量能够完整和客观地描述。在比较可能具有不同统计质量的数据集的结果时，必须要有额外的考虑。一般来说，只有在可以明确量化并在分析中指出其偏差的情况下，才可以使用具有已知偏差的指标。关于两类分类指标及其相关优缺点的深入讨论，见[63-66]。

时间序列数据中的异常检测因数据样本之间的时间依赖性而进一步复杂化。值得注意的是，经典的混淆矩阵并不考虑时间维度，所以虽然它可以提供一个全局的性能视图，但它没有提供对一个给定算法在时间上的局部表现的洞察力[67]。这是一个固有的缺点，因为时间序列数据通常是高度非平稳的，因此，一个模型的性能可能因时间背景的不同而有很大的差异。此外，跨越多个时间点的上下文和集体异常的存在导致了对每个TFPN指标来说什么是 "击中 "的模糊性。文献中提出了许多方法；例如，与集体异常窗口部分重叠的预测检测可能被评为真阳性、假阴性或两者的某种组合[23]。一般来说，应根据检测问题的优先级创建特定应用的TFPN指标定义[65, 67]。

3.5 软件产品

目前正在开发一些有助于ML和异常检测研究的软件包。选择Python作为主要的开发语言是由于它的开源许可、易于开发、灵活性以及预先存在的对ML和数据科学的支持和基础设施。虽然它是为支持这项研究而开发的，但我们已经做出了一切合理的努力来创建高度模块化的软件，并支持记录完备的应用编程接口（API），以便它可以很容易地扩展到其他类似或相关的问题。

图15-异常检测混淆矩阵

3.5.1 通用软件工具

为了支持这项研究，已经创建了几个工具，这些工具可能在异常检测或ML领域之外广泛适用。在开发过程中发现的这些工具已经被转移到单独的存储库中，在那里它们可以被开发、测试，并作为独立的产品在NRL社区或作为开源软件发布。已经建立了一个Python工具库，其中存放了各种常见的便利和实用功能。对于更大规模的工具，已经建立了专门的存储库。目前，两个主要的工具是一个集合生成器和一个统计分析库。

合并构建器

合并ML方法通过合并多个单独模型的预测结果形成一个复合模型。这样做的目的是为了产生优于任何组成模型的综合预测。作为该代码库一部分开发的集合生成器与API无关，可以结合任意数量和类型的模型的预测，允许跨库组合。对于大型模型或数据集，支持批量处理。它还支持模型停用功能，这样就可以很容易地确定任何给定模型对整个组合的贡献。虽然大多数常见的预测组合方案都是预先实现的，并且是现成的，但如果有必要，也可以实现自定义的组合策略。

统计学工具

探索性数据分析是许多ML项目中常见的初始步骤。为了帮助EDA过程的自动化，创建了几个工具，包括数据集统计的计算和绘图，以及统计报告的生成。报告工具还可以比较多组数据的统计数据；这可以用来检测单一数据流中的概念漂移，或比较不同数据集的特征。在异常检测方面，许多算法假设数据的高斯分布，以证明关于特定数据集中异常的性质和数量的统计结论是正确的。为了测试这个假设的有效性，开发了一个工具，对数据样本进行Kolmogorov-Smirnov测试，以确定正态性假设是否有效。因为该检验可以支持任何连续分布，所以该工具被扩展到Scipy软件包中的所有连续分布[68]。该工具可以用来快速拟合100多个候选统计分布，以确定哪些分布（如果有的话）是对数据的合理拟合。

3.5.2 异常检测代码库

主要的软件开发工作包括创建一个异常检测代码库，作为大量异常检测算法以及实验和评估工具的主机。在可能的情况下，利用算法的开源实现来减少开发时间。否则，算法将根据需要手动实施。某些类型的模型，如神经网络，可以进行广泛的定制和架构调整；对于这些模型，我们创建了模型构建工具，以便快速创建和测试模型。目前，代码库支持50多个异常检测模型，包括来自PyOD[69]和PySAD[70]库的开源模型、单独发布的开源算法和自定义模型。定制实现的模型包括传统的和基于LSTM架构的变异自动编码器。模型和算法将继续根据需要被添加到资源库中。

诸如TensorFlow、Keras和Scikit-Learn等软件包都拥有一套广泛的指标，通过使用API-agnostic接口[71-73]，可以在异常检测代码库中互换使用。对于简单的评估，可以使用无状态度量。对于较大的数据集，代码库支持可以分批更新的有状态指标。自定义指标可以从这些指标中衍生出来，或者根据评估的需要来实现。除了指标之外，还创建了一个评估和排名工具，能够自动比较任意数量的算法在给定问题上的性能。该评估过程类似于AutoML，并受其启发，AutoML能够自动调整一些模型，使其在训练数据上达到最佳性能，随后在测试数据上对其进行评估[74]。

在Plotly库的基础上，还开发了一套绘图工具，与其他代码库同步进行[75]。绘图模块为开发、演示和部署提供了许多功能。首先，它通过提供数据可视化帮助探索性数据分析（EDA）以及算法开发和调试。第二，它允许对检测结果进行展示和分析。第三，它的目的是允许在应用环境中进行实时数据和算法监测。一个正在进行的努力是创建一个近乎实时的仪表板，显示流数据以及任何异常的检测。这个仪表板可用于基于人的反馈的学习、运行监控和技术演示。

4. 结论

图16-突出SMAP A-3通道测试异常的异常绘图仪

自主能力的发展仍然是国防部和美国海军的一个投资重点。健康监测和FM是阻碍海军空间系统更有弹性、更可靠、更自主的一些最重要的挑战，而自动异常检测代表了实现这一目标的一个步骤。第一年的研究确定，ML方法提供了一个快速改善现有航天器异常检测工作的机会，并有可能被应用于系统健康监测的其他领域。第二年的研究将着重于通过继续开发异常检测代码库和完成对遥测数据的各种算法进行评估的实验来证明这一概念。此外，综合模型方法将被进一步研究，并与数据驱动的方法进行比较。健康监测代表了ML在美国海军空间系统运行中最有希望的应用之一。这种类型的技术已经足够成熟，可以扩展到现有的系统，并能使近期海军的地面基础设施和未来海军的机载卫星系统受益。

附录A

异常检测的其他应用

第一年的研究暴露了异常检测在航天器运行中的一些应用，这些应用超出了航天器FM的范围。尽管到目前为止还没有深入探讨，但海军可以从多个领域的自动异常检测中受益；其中一个应用是检测名义和非名义行为，作为海军C4ISR工作的一部分。随着数据处理需求的不断扩大，自动化方法的应用变得越来越重要。在短期内，自动异常检测可以作为C4ISR数据处理管道的一个初步步骤，通过将大量的数据提炼成只需要进一步调查的数据来协助人类操作员。这可能适用于通信、态势感知工作和环境监测中的利益信号检测。所有这些应用将有助于缩短收集原始数据和提供可运行信息之间的延迟。

图A1-全球AIS数据

作为一个激励性的例子，考虑到异常检测算法可以通过模拟正常的船舶行为和标记异常行为来协助基于ML的MDA工作，以便进一步分析。鉴于美国海军必须对数以百万计的船只进行核算，存在着异常检测的巨大机会，以大幅减少必须由人类检查的数据量。图A1显示了全球自动识别系统（AIS）数据的一个例子，它可以作为训练模型的基础。在短期内，诸如来自NRL的Sea-Link高级分析（S2A）系统的船舶轨迹数据可以用来模拟正常的船舶行为，并帮助减少人类操作员的处理负荷。从长远来看，这些模型可以与人类一起工作，并通过学习模式识别提供先进的决策洞察力。

成为VIP会员查看完整内容