中文版《机器学习在电子战发射器识别和资源管理中的应用》

电子战（EW）操作人员在日益密集和敏捷的威胁环境中执行单平台和分布式平台的传感和干扰任务时，面临着众多的挑战。在交战时限内，往往必须根据现有的部分信息迅速采取行动。最近，世界观察到了人工智能的蓬勃发展，这是一套数据驱动的横向技术，已经颠覆了自主性和大数据是关键因素的多个领域。尽管它不是所有EW任务的解决方案，但人工智能显示出有希望提供潜在的解决方案，通过超出人类操作员能力的知情决策来提高EW效率和有效性。约翰霍普金斯大学应用物理实验室（APL）精确打击任务区已经投资于发射器识别和自主资源分配等具体EW任务的研究和开发。本文介绍了这些项目的有希望的结果，并描述了在这些领域建议的未来工作，以及可能从人工智能研究中受益的其他EW应用。

1 引言

电子战（EW）作战威胁空间是一个在有争议的频谱环境中运行的多个射频（RF）传感和发射平台之间的非合作性互动。这个作战空间给执行任务的操作人员带来了许多挑战，如感知电磁（EM）频谱、有效管理频谱资源、在多个EW平台之间共享关键信息，同时干扰威胁发射器。这些挑战促使人们需要能力越来越强的射频系统，以机器的速度处理大量的信息并采取行动，通常几乎不需要人工干预。下一代软软件定义的射频威胁发射器，使用越来越复杂的敏捷波形，推动了未来电子支持（ES）和电子攻击（EA）活动方式的转变。干扰平台的整体有效性受制于其有效探测、描述、干扰和通信威胁波形的能力，同时智能地管理战斗空间内的可用射频资源。

在过去几年中，人工智能领域受到了极大的关注，在物体识别、自然语言处理和自动语音识别等领域取得了多项重大突破。机器学习（ML）技术在其他问题领域的成功应用，引起了EW赞助商、运营商和研究人员的兴趣，他们希望确定ML方法如何解决EW的差距。本文重点介绍了通过APL的精确打击任务区（PSMA）独立研究和开发（IRAD）项目取得的几个有希望的成果，这些项目专门针对发射器识别和自主资源分配的EW任务。它还包括其他建议的研究课题，以使自动化EW方法成熟，并可过渡到未来的军事平台。此外，本文还强调了几个特定领域的挑战，并提出了未来的研究课题，在这一重点领域中，使用ML技术可能会显示出前景。

1.1 背景

图1展示了一种场景，它试图通过使用协作式EW来实现信息主导并对对手产生压倒性的EW效应。开发ML应用以提高单平台背景下的EW效率和有效性，是实现协作、自主和适应性EW能力的一个重要基石。在这篇文章中，我们主要描述了从两个IRAD项目中获得的结果和知识，这些项目将ML应用于传感和发射器识别，以研究自动调制识别（AMR）和自主资源分配。这项基础性工作证明了这些方法的优点，并建立了一条通往多平台、协作式EW能力的发展道路。本文介绍的方法和结果与平台无关，尽管迄今为止考虑的主要平台是机载的，但可能也有引人注目的地面或海基应用。

图1. 在APL的PSMA中，有两个感兴趣的协作EW主题。美国将建立频谱优势，并通过使用协作式EW来对对手提供压倒性的EW效果。为了实现这一目标，必须克服两个挑战：分布式传感，ML AMR将识别感兴趣的特定信号（左）；以及分布式资源管理，传感和干扰资源将在战斗空间中自动管理（右）。

2 机器学习适用于EW技术和操作的挑战

图1大致说明了战术EW操作中的两个具有挑战性的主题领域，ML提供了有希望的解决方案。本节简要介绍了与分布式传感和分布式资源管理相关的挑战。

2.1 敏捷威胁发射器的交战

敌方传感器和通信系统的敏捷性给EW系统带来了挑战，它们能迅速适应并在整个电磁频谱上运行。传统的EW系统必须首先确定一个威胁雷达，以确定适当的预编程EA技术。随着雷达从固定的模拟系统发展到具有未知行为和敏捷波形的可编程数字变体，这种方法的有效性就会下降。未来的雷达可能会带来更大的挑战，因为它们将能够感知环境，同时适应传输和信号处理，以最大限度地提高性能和减轻干扰影响。同样，通信系统能够适应频率、调制和编码以及协议，以便在各种退化的信道条件下运行，目标是最大限度地提高数据吞吐量，同时最大限度地减少帧错误和比特错误率。此外，由于硬件、软件和自适应信号处理的进步，现代传感器系统以更敏捷和更不确定的方式工作的能力得到了大幅提升。打击这些潜在的威胁需要灵活的EW交战方案，根据当前观察到的运行参数和威胁的模式，在特定的快照下调整EA技术。通常情况下，这种交战需要在威胁发射者的时间刻度上以机器的速度调整反措施--换句话说，比人类操作员的速度快得多（以毫秒或微秒为单位，而不是秒）。美国国防部高级研究计划局（DARPA）的两个项目专注于这一问题空间：自适应电子战的行为学习（BLADE）项目已经成功地将ML技术应用于敏捷的通信信号，而自适应雷达对抗措施（ARC）项目已经成功地将ML应用于威胁雷达信号。鉴于该领域的基础性工作已经建立，本文不进一步讨论ML对威胁发射器的应用。

2.2 宽带传感

EW系统的关键挑战之一是实时提供精确的电磁频谱态势感知，以描述所观察到的信号的行为，并确定什么是友好、威胁和中立。敌方的传感和通信系统正在扩大其对电磁波谱的使用，要求ES传感器同时观察多个千兆赫兹的频谱。传统的ES系统在同时监测大面积的电磁频谱方面能力有限，通常会求助于扫描一组窄带频道。在信号收集之后，大量的信号捕获数据必须在战术时间尺度上进行处理，以便在这些测量变得陈旧之前确定发射体的特征并告知EA的反应。如果考虑到遇到多个高密度射频发射器在不同的射频功率水平下工作，观察到部分信号，以及在高度的机载和非机载射频干扰的情况下进行感应，这些挑战就进一步加剧了。

除了在基于传感器的应用中很有价值外（如模拟处理），ML方法也有可能在缓解ES数据处理瓶颈中发挥作用。只有当这种传感与能够应对相应的大信息速率的信号处理器结合在一起时，才能实现宽带传感的好处。即使计算昂贵的操作与完整的输入流解耦，如果检测没有被有效过滤，密集的信号环境仍然会使下游资源超载。ML技术可以在处理链的早期丢弃低优先级的检测，减少整个系统的负荷，为处理关键任务的检测节省计算资源。换句话说，ML可以通过在处理链的早期和较少的步骤中捕捉关键模式来发挥作用。这一优势适用于本文介绍的AMR工作的一个特定的下一步应用。AMR工作仅侧重于调制识别，为潜在的富有成效的ML调查参数留下了机会，如通过带宽、中心频率、脉冲重复间隔、到达角或这些参数的组合来确定信号特征。

2.3 资源管理

必须根据具体任务和威胁环境平衡使用EW平台的传感和干扰资源，以有效地打击射频通信和雷达目标。一个EW任务可能包括与一系列的威胁交战，从需要有限的传感支持的已知的、不太敏捷的威胁到需要精确的传感和交战时间表来跟踪和击败的复杂的、适应性强的威胁。来自单一平台的传统EW传感和干扰资源是按时间尺度管理和安排的，可以在任务前分配或在任务中由操作人员调整。然而，必须被感知和打击的可适应的对手目标的数量正在增加，超出了传统的人在环形方法的可行性。在威胁发射器的时间尺度上保持有效性需要自主优化方法，以机器速度平衡和分配EW资源。未来的分布式、协作式EW任务包括多个平台一起工作，并适应实现特定的EW任务目标，这将需要分布式资源管理。

如果我们从贝叶斯的角度出发，这个看似难以解决的问题可以得到简化。在每个时间点上，操作者必须考虑对手正在做什么的多种竞争性假设。然后，操作者必须从一组可能的假设中考虑什么是最佳行动方案。这些假设可以被列举出来，并根据收集到的累积证据为每个假设分配代表强度的实际数值。贝叶斯概率理论允许我们将证据单位表示为实数，可用于加强或摒弃竞争性假设。这种方法使我们能够自动权衡不同假设的合理性，并根据证据最支持的假设做出决定。我们相信，ML有可能为EW任务前计划的资源管理和EW行动中的近实时决策提供重大的能力提升。

3 基于AMR的发射器识别

发射器识别过程允许ES和监视接收器区分来自威胁和友好或中立的发射。因此，ES系统必须处理一套广泛的接收波形，从商业波段常用的波形到军事特定的雷达和通信信号。ES系统依靠脉冲处理器，使用固定的描述符来检测、过滤，并从接收到的射频调制脉冲中提取发射器信息。调制格式是ES系统在勘察频谱时用于描述有源发射器的一种描述符。

EW系统必须完成的许多挑战性任务之一是有效地确定检测到的信号的调制格式。这个话题更广泛地被称为AMR。传统的脉冲处理器将调制格式视为一个单一的特征，可与其他用于识别活动发射体的波形特征相配合。许多脉冲处理器会将脉冲描述符群与板载库进行匹配，以识别正在观察的发射器。成功应用这种传统的匹配方法的前提是，信号先前已经被观察过，其特征也是已知的。

AMR的第二个挑战是在遇到新观察到的调制类型或发射器模式时识别和解释它们。事实证明，新的发射物对于依赖预定义的已知发射物特征库的系统来说是一种挑战。在软件定义的威胁成为现实之前，捕捉和描述新的发射物的过程一直是一个历史上可解决的问题。然而，现代适应性威胁促使人们需要能够以机器的速度快速识别和描述新的检测的传感技术。图2说明了AMR在一个名义上的战术EW场景中的应用。

图2. 将AMR应用于一个名义上的战术EW场景。这里显示的是如何利用在线AMR来描述各种威胁的一个例子。左上图表示原始探测的时间-频率分布。左下图表示确定的雷达脉冲组合，其中每个不同的颜色用于代表具有特定特征的脉冲。

3.1 用于AMR的特征学习背后的动机

虽然有几种深度学习方法已经应用于AMR，但在2018和2019财年，基于特征的电子攻击训练超表面反应（FEATHR）IRAD项目探讨了AMR背景下的深度特征表示模型。这项工作强调了这些模型比其他类型的深度神经网络（DNN）模型直接训练分类的几个明显优势。

将深度学习应用于AMR的大部分现有工作都集中在使用神经网络模型从一组固定的标记实例中学习分类调制分配的方法。各种研究表明，这种方法是执行AMR的一种可行方式。然而，仅仅为了分类的目的而训练一个模型，本质上是将模型的预测限定在训练数据中的标记类集上。这种限制导致了训练后的模型无法超越训练期间的标签集进行泛化。扩展神经网络分类器的类集需要一个漫长的过程，即收集新的例子，给例子贴上标签，然后用扩展的类集重新训练模型。

当用分类目标训练DNN时，一个模型通常会使用全连接输出层，加上一个归一化指数，以产生一个跨越正在学习的类集的信心分数。因此，学到的任何特征都不会被直接观察到，因为它们是网络架构的内部。然而，如果学习目标是直接学习特征，情况就不一定是这样了。在这个问题的背景下，特征可以被认为是数据中的独特模式，是特定信号调制的特征。这就把我们带到了一组被称为特征学习的技术上。虽然与特征提取类似，但特征学习并不假定直接获得特征的预定义规则或变换；相反，所需的特征是通过客观任务的训练而学习的。

为了解决在一组预定义的标签之外识别和分类开放的调制集的需要，我们研究了一种特征学习的方法来执行AMR，其中首先学习区分调制类型差异的特征，而不是调制类型本身。该模型的目标是学习一种转换，将实例映射到多维特征空间中的一个位置。

3.2 三重损失

第一篇关于三重损失的论文显示了如何对个体进行分类。由于同一个体会因各种因素（如灯光、服装、视角）而看起来不同，研究人员意识到需要一种方法来对许多个体进行非线性条件下的分类。通过使用神经网络定义一个高维输出空间的轴，他们发现个体可以在这个空间中被聚在一起。术语 "嵌入 "经常被用来描述在这个输出空间中对应于一个位置的N维向量。

使用三重损失（一种特征学习方法）训练的模型产生了一种转换，允许数据被映射到一个学习的特征空间。在这个空间中，根据训练过程中提出的调制类之间的学习关系，对实例进行汇总。这使我们能够随后分析这些特征，对已知的调制进行分类，并对新观察到的不在我们现有标签集中的例子进行分类。我们实施了一个两步法，首先使用用三重损失训练的残余DNN模型学习特征表示转换。一旦模型被训练出来，我们就以调制分类和异常调制识别为学习目标，探索两种方法来描述这个特征表示。

三重损失是一个有监督的训练目标，旨在与连体网络一起使用。连体网络可以被认为是单个人工神经网络模型的多个镜像实例，其中每个实例在整个训练过程中以相同的方式初始化和联合更新。每个输出被视为输入实例在一个共同的N维欧几里得空间（也称为嵌入空间）中的映射。对于使用三连体损失的训练配置，创建了一个有三个实例的连体网络模型，如图3所示。

图3. 使用连体网络训练配置的三重损失配置的例子。连体网络可以被认为是单个人工神经网络模型的多个镜像实例，在整个训练过程中，每个实例都以相同的方式被初始化和联合更新。每个输出被视为输入实例在一个共同的N维欧几里得空间（也称为嵌入空间）中的位置的映射。

3.3 使用学习到的特征进行异常检测

一旦学会了一组调制特征，它们就可以被用于执行分类或异常检测等任务。图5显示了一个对每个调制类型的学习特征拟合多变量高斯模型的过程。异常情况是通过为每个高斯模型固定一个对数似然阈值来确定的。这个阈值作为关联新例子的决策边界。没有关联的例子也会被捕获并归类为异常。这由图5中的底部分支表示。图6显示了在训练好的特征空间内映射的波形的三维投影。

如果我们考虑一种以上的异常检测类型，就需要一个无监督的聚类步骤来识别被分类为异常的检测中各种可能的异常类型。

图5. 异常类识别过程的流程图。这个过程将一个多变量高斯模型适合于每个调制类型的学习特征。通过为每个高斯模型固定一个对数似然阈值来确定异常情况。这个阈值作为关联新例子的决策边界。没有关联的例子也被捕获并归类为异常，由底部分支表示。

图6. 映射在训练过的特征空间内的波形的3-D投影。左图：映射到训练过的特征空间的波形投影，每种颜色代表一种不同的调制方式。这个空间中的位置对应于所学特征的不同组合。具有相似/匹配的学习特征集的波形被放在彼此附近，形成一个集群。右图：只包含与训练阶段产生的任何调制集群无关的点的投影。运行OPTICS后，绿色的点被识别为噪声，而蓝色和红色的点被赋予新的 "未识别的调制 "标签。

3.4 射频调制数据集

在下面描述的实验中，我们使用了由DeepSig发布的开源RadioML2018数据集。该数据集由24种合成的通信调制类型的大约250万个例子组成。每个例子都表示为1,024个长度的同相和正交（IQ）矢量，使用浮点进行时间采样。这些数据包括在收集的数据中经常观察到的多种环境失真。例子上标有调制标签以及跨度为-20到30dB的离散信噪比。这些数据中的调制集合以两种方式使用：作为监督训练的例子和类别，以及作为无监督异常检测的保留。监督训练使用IQ向量与其适当的调制标签配对，而保留的调制则不给调制标签。我们首先使用22种调制类型的子集学习特征表示，并展示了一种无监督的方法，使用两个调制类别--频率调制（FM）和16正交振幅调制（16QAM）--作为保留类别来识别新类别。

3.5 有监督的培训课程

我们将数据集分为两类：（1）由22个已知类别组成的监督类，细分为80%的训练区和20%的评估区；（2）有两个保留类的类别（FM和16QAM在训练中被扣留）。我们的DNN模型是在22个已知的调制上训练的（即不包括这两个保留类）。按照上述程序，我们将多变量高斯分布适合于训练分区的每个调制特征嵌入。所有已知调制的联合分布被用来定义一个阈值距离。这个阈值被用作一个多维高斯边界，用于将新的样本与现有的一个类别相关联，或者用于标记未识别的样本。落在这个定义的多维边界内的样本（在公式3中用θ表示）与现有的调制类别之一相关。否则，样本将被赋予未识别的标签。请注意，这一步并不假设任何关于未识别点的先验信息；相反，它只是将离群或异常的例子排除在已知调制类别的分类之外。

我们现在的目标是在我们的异常例子中识别出我们的保留调控的新群组。要做到这一点，我们针对上一步确定的异常例子集运行OPTICS，为落在有足够密度的区域的例子创建标签。

图7中的混淆矩阵显示了这个过程对信噪比为10dB的例子的准确性。真正的保留类（FM和16QAM）被显示为灰色的列。这里我们显示了新的群组1和新的群组2，作为识别的类别，显示了与保留类中的例子集的强烈相关性。未识别的类别包含落在我们的分布阈值之外的例子，被OPTICS归类为噪声样本。新群组3是由其他调制类中被错误分类的未识别样本的密集区域产生的错误检测。

3.6 下一步工作

我们认为特征学习是一种可推广的方法，用于建立丰富的射频调制特征表示，使新观察到的射频信号的识别和分类。在射频领域的许多边缘应用中，一旦部署了神经网络模型，对其进行再训练往往是不现实的。使用一致的学习过的特征表示与较简单的分类模型相结合，可以动态识别射频调制，而不需要重新训练单一模型的高处理要求。用一个简单的分类模型对特征表示进行后处理所需的计算能力远远低于重新训练所需的计算能力。此外，可以采用无监督技术来搜索新的波形，使用现有的学习过的特征表征，这些特征表征在区分其他调制方面显示出重要性。我们有兴趣扩大这项工作的几个要素。

首先，我们预计有几个因素可以提高这项技术的性能。三联体损失的原始实现是用比我们在这项工作中使用的更大的类数来训练的。更高的类数允许网络学习更丰富的特征表示，以捕捉样本之间更精细的差异。在我们的实验中，我们使用了一个由24种独特的调制类型组成的数据集。然而，我们预计用更多的独特调制进行训练将通过增加训练期间使用的三联体的种类来提高性能。

其次，在考虑信号类型的广度时，要注意不同类型的特征在区分信号类型时是很重要的。例如，区分16QAM调制和正交相移键控的特征集将不同于区分线性频率调制脉冲和非线性频率调制脉冲的特征集。正因为如此，考虑信号之间相互关系的分层模式是有意义的。其他正在进行的APL工作已经证明了在用DNN执行AMR时使用层次结构的成功。一个潜在的后续研究工作可能是探索如何将特征学习与信号的层次结构相结合，以提高对广泛的信号类型的分类性能。一个潜在的解决方案可能涉及到在每个决策点使用单独的学习特征集构建一个非二元分类树。这种方法可以允许使用更小/更简单的模型，因为每个特征集将不再需要捕获全部的信号类型。

第三，这种方法假设实例被捕获为检测，表示为在时间和频率上隔离的IQ向量。探索其他各种波形表示可能是有用的，如复杂的时间-频率数据或稀疏的检测样本。此外，将学习到的特定调制特征与其他背景数据（如方向、波的偏振或地理位置）结合起来，对于形成具有高置信度的特定发射器身份是必要的。最后，图7中产生的错误检测的来源和特征是一个需要进一步调查的领域。

图7. 混淆矩阵说明了在信噪比为10dB的情况下，AMR过程的准确性。真正的保留类（FM和16QAM）显示在灰色的列中。新群组1和新群组2是已识别的类别，显示出与保持类中的例子集有很强的相关性。未识别的类别包含分布阈值之外的例子，被OPTICS归类为噪声样本。新群组3是由其他调制类的错误分类的未识别样本的密集区域产生的错误检测。

4 资源自主分配

如前所述，发射器特征的自动解决方案提供了一个有用的手段，将观察到的射频数据映射到特定的观察到的对手威胁发射器中。然而，这本身并不足以提供一个强大的EW响应。上一节介绍的AMR结果通常假定有孤立的探测和完整的信号捕获，以告知AMR决策过程。EW平台通常遇到的真实情况要复杂得多。通常，一个EW平台必须干扰更多的可能的威胁发射器，其频率超过了它能同时覆盖的频率，而且占空比不允许对威胁环境进行充分的接收采样。因此，必须对EW系统可用的有限资源进行适当的分配，使威胁发射器的准确快照及其相应的行为与干扰反应相平衡。我们把如何最好地分配我们可用的EW资产的问题称为资源分配问题，并在图8中以作战背景加以说明。

尽管在实践中我们可能希望分配许多资产以优化系统性能，但在这里我们考虑的是具有两种不同行动类型的资源分配问题：感知和干扰。感知是指检测和识别环境中存在的波形类型的行动；干扰是指干扰对手的波形的行动。一般来说，目标是最大限度地提高干扰者的开机时间，最小化有用的传感时间（即干扰者关机时间）。这两个问题是相互关联的，因为对环境的感知可以指导干扰者技术的调整和集中，以提高整体的干扰效果，但要牺牲干扰者的关闭时间。

在2020和2021财年，PSMA资助了智能学习电子攻击大师（IL'EA Maestro）IRAD项目，以开发一种解决资源分配问题的方法。IL'EA Maestro的长期愿景是使未来部署可扩展的、分布式的、多平台的方法来实现自主资源分配。尽管人们可以使用无数潜在的方法来设计这样一个系统，但IL'EA Maestro团队已经确定使用基于模型的随机优化加上近似贝叶斯推理是一个特别有前途的方法。与标准的现成强化学习算法相比，这种方法允许系统设计者将重要的领域知识（对手能力的已知限制、基于事先感知对手威胁的观察行为等）纳入智能体的设计。而对于标准的强化学习算法，如果在模拟器上有足够的训练时间，我们希望智能体能够自己确定对手的弱点，而在系统中建立这样的知识，可以减少学习负担。净效应是系统性能的提高，因为需要更少的数据来学习对手的有用模型，因此需要更少的整体感应时间。在本节的其余部分，我们描述了资源分配问题并探讨了IL'EA Maestro项目的早期结果。

图8. 在战术EW环境下自主资源分配的说明。仅为说明起见，ES任务被显示出来，形状代表红色威胁发射器的发射。如果ES任务是在没有智能的情况下安排的，传感间隔不能优化对脉冲的传感（左上图），显示为错过许多脉冲的虚线框。如果任务被智能地安排，它们可能会更有效地执行（左下图），其中ES间隔被动态地安排以捕获更多的脉冲。

4.1 资源分配问题

解决自主资源分配的一种方法是通过贝叶斯概率理论（见，例如，Koller和Friedman）。我们首先根据先验信息初始化一套广泛的可能的对抗行为，例如，预期的对抗频率范围和时间模式。然后，我们分配资源，在不同的时间段从频谱的不同部分收集信号，以建立一套证据，可以支持一个特定的战略，或不遵循的信念。在每次尝试采集信号（即扫描）后，我们更新我们关于哪些行为是可能的信念，以反映添加到我们知识库中的新证据。

为了更好地构建本节的发展，现在让我们正式描述所考虑的资源分配问题的一个一般实例。我们考虑对感兴趣的射频频谱子集进行划分。我们认为分区的每个元素都是一个特定的频率通道，其中总共有c个通道。我们将时间轴划分为离散的元素，每个元素的持续时间为Δt。如果我们用C表示通道的集合，用T表示所考虑的时间集合，我们就会发现，所考虑的感兴趣的信号在C×T的乘积空间上作为时间的函数演化。图9显示了一个潜在的发射器在离散的时间和频率空间中表示，其中C={1，2，...，9}，T={1，2，...，20}，着色的网格空间表示从脉冲波形内单独接收的突发。请注意，红色信号的频率是敏捷的-它在第四和第五个脉冲之间从通道4跳到通道7。

我们用S表示环境中感兴趣的信号集。我们假设在遇到每个脉冲时，有能力将每个收到的脉冲识别为特定的感兴趣的信号。重要的是，我们不假设关于信号的模式行为（例如，脉冲长度、跳频序列、占空比）的全部先验信息。我们假设：（1）每个信号可以出现的通道集是连续的（即，它出现在一个设定的最小和一个设定的最大频率之间）；（2）感兴趣的信号是周期性的；（3）信号不是相互干扰的（即，两个信号不能同时占据同一个频率通道）。严格地说，这些假设简化了我们当前原型所需的分析。放宽这些假设以适应更大的可能信号集是可能的，尽管这样做的代价是需要更多的数据来学习有用的信号特征。哪一组假设在实践中是最好的，将根据情况决定。

我们考虑一种情况，即考虑中的平台同时具有感知和干扰能力。我们假设每个能够执行传感或干扰行动的收发器只能在连续的信道范围内这样做，如果有多个收发器，它们可以独立分配，但要明白如果不适当地协调，它们会造成自我干扰。

图9. 一个潜在的发射器在一个离散的时间和频率空间中表示。着色的网格空间代表了从脉冲波形中单独接收的突发信号。红色的信号从通道4跳到通道7。

4.2 贝叶斯智能体

贝叶斯智能体是开发必须以有意义的方式与世界互动的智能学习系统的基本方法。它可以被认为是设计强化学习智能体的一种非传统的、抽象的方式，它对世界的本质和如何推理世界有强烈的假设。这种假设可以而且应该与人类主题专家一起设计。这些假设包括：（1）智能体认为世界的可能性的假设集；（2）关于这些可能性的相对可能性的先验信念分布；（3）结合从环境观察中获得的数据来更新关于智能体的基本假设的信念的方法；（4）评估未来行动的潜在序列的相对价值的方法；以及（5）选择一个特定行动以应用于环境的方法。我们可以将第1-5项分解为一组行为块，如图10所示。

我们可以把第1-3项视为构成智能体的学习者（图中的对象A），第4项构成智能体的评估者（图10中的对象B），第5项构成智能体的执行者（图中的对象C）。图10中的对象C）。我们看到，智能体通过执行器和学习者与现实世界（环境；图中的对象D）对接，前者对环境采取了行动，后者则从环境中吸收了观察结果。

这种方法的一个优点是，对学习者、评估者和执行者的适当选择可以显著提高智能体学习与环境有效互动的速度。值得注意的是，假设的特定选择可以限制智能体的通用性，即假设所允许的可行控制策略集可能严格小于所有可行控制策略集。如果我们这样选择，我们可以设计学习者、评估者和执行者来模仿标准的通用强化学习算法，如Q-learning、深度Q-learning、策略梯度，等等。然而，通过以特定的目的构建它们，我们可以用比使用现成的方法更少的训练时间达到良好的性能。因此，智能体的设计者自己可以控制失去多少通用性的问题。

在讨论为这里考虑的资源分配任务开发贝叶斯智能体所涉及的任何特定技术细节之前，让我们首先讨论一些抽象的原则，这些原则是设计一个有利于高水平操作的贝叶斯智能体所需要的：近似贝叶斯信念传播、信念驱动的行动评估和行动选择。

4.3 对现状的评价

现在我们可以详细说明我们的解决方案的现状，所做的一些基本设计决定，以及它目前的性能。对一组假设的选择是非常直接的：给定关于环境中存在多少信号及其相应时期的预先假设，可以产生一个有限的可能信号集。这就是我们的假说集。

随着数据从环境中收集，它们被用来更新智能体关于假设的信念。随着使用扫描资源从环境中收集证据，与某些假设相关的概率将增加，表明它们更可能是真的。在我们的解决方案中，我们对世界做了某些公理上的假设，我们试图以现实主义为基础。这样做的目的是为了将假设集的范围限制在只有操作上合理的情况。

更新信仰分布的方法比较抽象。如果智能体在特定的时间t进行了扫描，并且在时间t观察到了特定的信号q，那么智能体就会排除任何说明信号q在时间t不存在的假设。这个过程会积累更多的信息，直到最后只剩下对环境来说是真的特定假设。同样地，每当在一个特定的通道上观察到一个信号时，我们就会更新智能体的信念。这样的观察可以用来支持关于哪些信号出现在特定通道上的任何假设。至少，这使智能体相信，在不久的将来，该信号更有可能留在特定的通道上。然而，一些观察可以更显著地改变智能体的信念--例如，通过告知智能体，一个特定的信号可以存在于一个迄今为止没有观察到的频道上。评估智能体行动的价值的方法也同样涉及。

抽象地讲，资源分配智能体的目标是了解环境中正在发生什么，以及如何最好地干扰对手的行动。为此，在智能体的当前信念状态的基础上设计了一个随机优化问题。如果智能体对环境在某一特定时刻将如何行动比较确定，那么目标就会高度优先考虑干扰对手的信号。如果智能体对目前或不久的将来要发生的事情没有强烈的信念，则优先考虑以扫描的形式收集信息。如果规定得好，这样的优化问题会诱发一种行为，迅速发现、描述和干扰高价值的对抗性信号。同时，它逐渐了解到低价值信号的行为，以及如何在不牺牲高价值信号性能的情况下最好地阻止它们。

为了进一步研究这个问题，让我们看一个资源分配问题的例子和我们目前的方法在这方面的表现。我们考虑一个有24个频率通道和8个不同对手发射器的环境。每个信号的周期长度、脉冲长度和脉冲间长度是随机产生的。信号被随机地分散在频率-时间空间中，只要(1)发射者能在所需的频率上操作，(2)该频率是可用的（即没有被其他对抗性发射者使用），信号就可以跳到不同的频率。信号被分配的效用值为正整数，范围从1到4（随机选择）。每当有信号被干扰时，智能体就会产生效用，获得的金额就是信号的价值。

图11总结了三种资源分配算法的统计性能：（1）在收集足够的发射器模式数据后，干扰对抗性发射器以累积最佳预期奖励的策略（蓝色），（2）在各通道中均匀随机干扰（橙色），以及（3）假设完全了解发射器模式的干扰性能（灰色）。请注意，每一种算法都是根据其干扰适当信号的能力来评分的，而存在的信号有无数的评分权重。信号被分配的权重大致与它们被认为的重要性成正比，因此更高的分数与更频繁地干扰重要的对手能力（即那些与更高效用值相关的能力）相关。

图11. 资源管理策略之间的干扰性能比较。在收集了足够的发射器模式数据后，干扰对抗性发射器以累积最佳预期奖励的策略显示为蓝色，跨信道的均匀随机干扰显示为橙色，假设对发射器模式完全了解的干扰性能显示为灰色。相应颜色的虚线给出了模拟的抽样平均性能。

共进行了一千次抽样运行。图11给出了每种策略的得分直方图，其中相应颜色的虚线给出了模拟的采样平均性能。均匀随机干扰在三种策略中表现最差，智能资源分配方法表现次之，完美干扰策略表现最好。请注意，完美策略在实践中是不可能实现的，因为它是非因果的，需要关于未来的完美信息，而实施的智能体在运行时无法获得这些信息。

然而，我们感兴趣的可能不仅仅是智能体的原始干扰能力。因此，我们在图12中比较了智能资源智能体与统一搜索策略的学习性能。这里，蓝色直方图（及其相关的平均值）描述了智能体在每个历时（即时间离散间隔）采取行动以尽可能减少其对操作环境的不确定性的性能，而橙色直方图（及其相关的平均值）描述了在每个历时均匀随机扫描的智能体的性能。智能体学习对抗性信号的频率范围和时间模式的速度比处理通过在所有时间均匀随机扫描获得的信息的智能体要快。

4.4 下一步

在这个阶段，值得注意的是，在解决资源分配问题方面，已经开发的内容与运营系统所需的内容之间存在明显差距。最容易注意到的是，在目前的问题陈述中，至少有一些（如果不是全部）简化的假设需要被改变，以适应现实世界的系统。尽管这样的工作正在进行，并且具有技术上的意义，但它超出了本文的范围。

目前的智能体只考虑控制一个收发器。在实践中，每个平台可能会配备几个不同的传感器和发射器。尽管在考虑这种概括时，智能体的具体实施细节将不可避免地发生变化，但基本架构将保持不变。变化将限于评价器。

目前我们为资源管理问题开发的解决方案是一个智能体，旨在根据关于其对手波形的贝叶斯假设采取行动。随着智能体对其环境知识的积累，它可以更新其信念分布，导致更好的可能干扰行动。该智能体与传统的强化学习智能体不同，因为它强烈地结合了主题专家知识，并利用基于模型的随机优化方法来采取行动。基于模型的随机优化方法允许设计者在智能体上设置特定的约束和界限，以防止它采取从设计者角度看是没有结果的行动。我们的结果表明，这种方法显示了在单智能体环境中使用的前景。

我们相信，随着更多的研究，这种方法可以扩展到由协作性EW平台组成的多智能体环境。主要关注的是分布式平台的通信和处理延迟。由于波形以光速传播，在EW平台的战斗群中优化这种方法仍然是一个挑战。目前，我们只明确考虑了单个收发器的控制，但我们希望基本的方法可以扩展到多个收发器的情况，而不需要进行严格的算法重新设计。

图12. 资源管理策略之间的学习性能比较。蓝色直方图（及其相关的平均值）描述了一个智能体在每个历时中采取行动以尽可能减少其对操作环境的不确定性的性能，而橙色直方图（及其相关的平均值）描述了一个智能体在每个历时中均匀地随机扫描的性能。

5 将ML应用于EW的挑战

尽管应用ML的潜在好处是令人信服的，但要在战术EW平台内实现设想中的具有ML功能的自主行为，还存在许多障碍。ML技术可以作为一个强大的工具，用于开发能够做出强大的、数据驱动的预测的模型。然而，当开发一个能够进行数据驱动推断的模型时，首先要有一个代表手头问题的数据源，这一点至关重要。必须有一个能充分捕捉感兴趣的射频环境的训练数据集来训练ML算法。让我们考虑两种类型的射频数据源，以及它们在构建适合在EW中实现ML应用的射频数据集方面的作用。

5.1 射频采集

产生射频数据集的一个明显的方法是直接从相关环境中记录感兴趣的信号。这可能是一个挑战，取决于要解决的问题的背景。软件定义的无线电已经使捕捉大量的信号变得更加容易。然而，要从收集的信号中捕捉到形成强大数据集所需的信号类型的广度仍然是一个挑战。此外，信号收集总是包含对特定环境和接收设备的偏见。如果想要一个干净的信号集，现实世界中的数据杂质，如信道衰减、多径和干扰，可能会成为问题。在其他条件下，收集的数据在验证模型的环境因素方面可以产生优势，而这些因素可能不健全。在使用现有的采集数据方面的另一个挑战是，大多数数据不包含监督学习工作所需的足够注释。这通常意味着在使用采集的数据之前，需要额外的数据混合/手动标注。

5.2 射频模拟

产生射频数据的另一种方法是模拟。这种方法的一个明显的优点是，任何特征化的信号都可以通过参数的变化来产生，而这些参数的变化超出了可行的收集。然而，生成的射频数据将只与模拟框架中的效果和损伤一样真实。此外，在模拟过程中，几乎不需要额外的努力来捕获任何所需的元数据。这意味着用于训练有监督的ML算法的标记数据通常可以更容易地添加到模拟数据集中。相反，考虑到适当的射频效应会使合成足够真实的信号数据成为一种挑战。必须对观测效应进行建模的保真度在很大程度上取决于数据将被应用的问题。还需要一个严格的验证方法，如用标记的射频集合进行交叉验证，以确保所使用的合成数据能适当地代表它们所模拟的真实射频信号。

5.3 其他考虑因素

一旦克服了上述与ML训练数据相关的挑战，在将ML应用于EW问题之前还应该考虑其他的挑战。首先，许多可能用于未来整合ML算法的战术主机平台可能受到尺寸、重量和功率的限制。额外的尺寸、重量和功率通常会减少任务时间或功能。这意味着在具有丰富的图形处理单元资源的企业服务器设施中应用典型的ML算法训练方法在战术平台上是不可行的。同样，连接平台和这些设施的高带宽数据链接可能无法支持ML应用。此外，需要有可靠的离线训练与有限的再训练和/或在线学习的方法，以便将ML引入战术EW平台。EW界长期以来一直依靠硬件在环和范围内的测试和评估来确定EW技术的有效性。需要改进测试和评估基础设施，以描述ML算法的非确定性行为，并在开发、赞助者和操作者群体中建立信任和信心。

6 结论

PSMA IRAD对发射器识别和资源管理的投资为未来智能和自主EW平台奠定了基础。对AMR和自主资源分配的研究结果已经产生了有希望的结果，展示了平台使用数据驱动技术和快速有效地解决敏捷威胁的能力。尽管这些基础性的努力证明了ML解决方案在解决EW差距方面的可行性，但我们建议进行大量的后续研究工作，以使这些解决方案成熟。

一个这样的未来研究方向涉及将问题背景从特定的调制或信号类型扩展到特定的发射器ID。这带来了几个必须首先解决的挑战。确定发射器特定ID的问题可能会推动对其他背景信息的需求，以便有效地处理。其他相关的非射频因素，如地理位置、日/月/年的时间，或其他特定任务的先验因素，可能会影响到如何解释捕获的射频发射，从而确定优先次序。

尽管测试/开发框架能够反映真实世界的情景（如DARPA的频谱合作挑战所使用的环境模型），但需要与这些高保真频谱环境模型整合，以开发和测试下一次迭代的ML-enabled RF系统。PSMA在这方面的其他几项努力寻求加速未来协作EW系统的开发和演示。正在进行的小规模宽带、低延迟环境（SaBLE）工作的重点是开发一个硬件在环射频环境仿真基础设施。协作和自适应系统EW模拟工作提出了一个事件驱动的模拟框架，设计了模块化的平台互动模型来模拟复杂的交战。通过动态地改变保真度水平，模拟解决了在信号层面上对协作性EW交战进行建模时遇到的时间分辨率挑战。

最终，任何实地的、自动化的EW缺口解决方案都将以操作者可以理解的方式与人类操作者协同行动，并向指挥链的其他成员解释。设计一个界面，允许手动调整不同信号的优先级，以及手动调整用于观察和干扰的努力的平衡，在技术层面上是很简单的。它可以通过允许用户手动输入不同的目标函数到智能体的在线优化中来完成。然而，创建这样一个操作者可以认知管理的界面是具有挑战性的。解决这项任务的路径有很多；然而，所有这些都需要大量的设计工作和与相关专家（如人类因素工程师、候选操作员）的协商。

最后，将自动化解决方案纳入EW任务需要一定程度的任务规划。自主资源分配的贝叶斯机构方法也可以扩展到任务规划中，以实现EW平台和EW技术的最佳安置和使用。将自主资源分配部分描述的工作应用于任务规划，需要考虑到目标、环境和对手的准确模型。通常情况下，所关注的情景是基于在有争议的环境中的竞争性对手目标，从而使防御者获得优势。一个任务规划应用程序应该在制定假设时纳入操作者的先前信息。如果这样做是正确的，算法所考虑的假设将与任务目标更加相关。然而，操作者也需要将不确定性纳入先验信息，这将导致非零概率跨越一组假设，这些假设是可能的，但根据操作者的知识认为不太可信。

在这篇文章中，我们描述了APL的两个活跃的研究领域，它们正在将ML技术应用于EW领域的特定挑战。我们进一步概述了EW的差距和建议的研究课题，我们预计ML将在未来的EM作战环境中发挥作用。这些技术的成功采用将可能推动未来EW系统的开发、测试和维护方式的改变。

成为VIP会员查看完整内容