人工智能与雷达资源管理：综合背景与文献综述

多功能雷达的设计目的是在有限的资源（时间、频率和能量）预算内执行不同的功能，如监视、跟踪、火控等。雷达系统中的雷达资源管理（RRM）模块对相关任务的优先级、参数选择和调度做出决策。然而，最佳的 RRM 算法通常计算复杂，操作雷达需要采用启发式方法。另一方面，基于人工智能（AI）的算法已被证明能以可控的计算复杂度产生接近最优的雷达资源分配结果。本调查研究旨在通过对基于人工智能的 RRM 技术进行全面的文献综述，使研究人员和从业人员更好地了解人工智能在 RRM 相关问题中的应用。我们首先介绍了 RRM 的背景概念，然后简要回顾了用于 RRM 的符号 AI 技术。主要关注最先进的机器学习技术在 RRM 中的应用。我们强调最近的研究成果及其在实时资源分配优化的实际 RRM 场景中的潜力。本研究最后根据所做的调查，讨论了有待解决的研究问题和未来的研究方向。

无线电探测和测距（俗称雷达）的工作原理是向潜在目标发射电磁波，目标散射入射电磁波，接收终端接收散射信号，然后对接收到的能量进行信号处理，以提取有关目标的有意义信息。雷达最初是在第二次世界大战期间为军事应用而设计的，现在已被广泛应用于军事（如多目标跟踪）、安全相关（如穿墙探测和跟踪）或民用（如生物医学和汽车雷达）领域。雷达有三种基本功能，即：(i) 搜索、(ii) 跟踪和 (iii) 成像。在搜索操作中，雷达系统试图通过在预设的仰角和/或方位角范围内扫描来探测和获取感兴趣的目标。为了跟踪移动目标，雷达会多次探测目标，获取目标在射程、方位角/仰角范围内的状态观测数据。在探测和跟踪目标后，可启动成像模式，从目标的大小、形状、方位角、仰角和速度等方面获取有关目标的信息[1]。

多功能雷达（MFR）[2]是雷达系统中相对较新的发展，能够同时执行多种雷达功能，如监视、多目标跟踪、波形生成和电子波束转向[3, 4]。然而，所有雷达，甚至所有系统的资源都是有限的；就雷达而言，关键资源是时间、能量、频率和计算。当需要同时执行多项任务时，这些资源必须以某种结构化的方式分配给各项任务。因此，雷达资源管理（RRM）[5] 需要在 MFR [6] 内进行任务优先级排序、参数选择和资源分配。当雷达任务超载时，有效的资源管理尤为重要，也就是说，要正确执行所有分配的任务，需要的资源要多于可用资源。因此，RRM 背后的基本前提围绕着 MFR 任务之间的优化和折衷。优化的目标是找到一种尽可能高效地分配资源的方法。在需要折衷的情况下，某些任务被认为更为重要，因此会在其他任务之前分配资源[7]。事实上，为了执行其他关键任务，一些优先级较低的任务可能会被放弃。

在 RRM 的第一阶段，任务参数（如优先级、停留时间和重访间隔）是在严格的资源限制条件下，通过启发式方法 [8] 或联合优化技术 [9] 确定的。优先级分配在情况层进行，而参数优化则根据资源管理的联合实验室主任数据融合模型[10]在对象层进行[4]。在第二阶段，在测量层面进行任务调度，以确定任务执行的确切时间和顺序，从而在雷达时间轴上容纳尽可能多的任务，而不会造成重大延误。

任务调度可使用基于队列或基于帧的调度器[11]。基于队列的调度器根据某些标准从有序列表中执行任务，如最早开始时间（EST）和最早截止时间优先调度器[6]。另一方面，基于帧的调度器则使用各种启发式算法[12]或基于机器学习（ML）的算法[13]来逐帧估计要执行的最佳任务。RRM 调度算法可分为自适应算法和非自适应算法。自适应算法对任务进行优先级排序和调度，以优化雷达在动态变化环境中的性能雷达；而非自适应算法则预先确定任务优先级，任务调度采用一些预设的启发式规则，不做任何优化[6]。

由于现代雷达必须执行越来越复杂的任务，最近的研究重点是开发认知雷达，即从环境和过去的行动中学习以提高性能的计算系统[14]。重要的是，认知雷达在学习了过去的性能和环境感知后，将以高效的计算方式做出接近最优的决策。参考文献[14]中的最初建议是概念性的，而后来的研究则将这一概念进一步扩展到了认知雷达。[14]中的最初建议是概念性的，而最近 ML 技术的使用呈指数级增长，使得认知雷达的实现成为可能。

人工智能（AI）已应用于许多不同领域，如无线通信[15-18]、语音信号处理、计算机视觉和自然语言处理[19]等。人工智能算法涉及多个领域，如逻辑编程、推荐系统和 ML [20] 等。人工智能大致可分为符号人工智能（Symbolic-AI）和多重智能（ML），前者是通过规则引擎、专家系统和知识图谱等人工干预进行符号推理，后者则是通过数据学习、识别模式，并在尽量减少人工干预的情况下做出决策[21]。近年来，美国国防部高级研究计划局启动了许多与雷达中的 ML 应用有关的项目，如射频 ML 系统项目[22]、自适应电子战行为学习项目[23]和自适应雷达对抗项目[24]。基于雷达的 ML 应用包括发射器识别和分类 [25，26]、图像处理 [27，28]、图像去噪 [29，30]、目标自动重建 [31，32]、目标检测 [33，34]、抗干扰 [35]、最佳波形设计 [36] 和阵列天线选择 [37]。此类应用中使用的一些基于 ML 的算法包括传统的 ML 技术，如决策树（DT）、支持向量机（SVM）、K-means 算法和随机森林（RF）。一些值得注意的深度学习（DL）技术包括卷积神经网络（CNN）、自动编码器（AE）、深度信念网络、递归神经网络（RNN）和生成对抗网络（GAN）。

贡献和组织

雷达研究界认识到 ML 技术在不同领域的广泛适用性，因此除了传统的符号人工智能技术外，还开始将基于 ML 的算法应用到 RRM 任务中。由于这些工作相对较新，因此尚未对这一领域的文献进行全面系统的调查。我们在本文中的工作填补了这一空白，对现有的 RRM 中的 ML 应用文献进行了广泛概述，同时还强调了雷达研究界需要关注的一些关键领域。一些相关的调查论文（摘要见表 1）讨论了联合雷达和通信 (JRC) 中的 RRM [42]、雷达信号处理中的 ML 应用 [43]，以及 RRM 算法概述 [44]。对人工智能研究的调查，尤其是对用于 RRM 的 ML 的调查，仍是一个未知领域，本文将对此进行探讨。简而言之，本文的贡献如下：

利用 RRM 模型提供了 RRM 的基本知识和一些基本概念。此外，我们简要讨论了网络雷达和认知雷达的 RRM 以及量化 RRM 领域性能的重要指标（第 2 节）。

我们简要回顾了符号-人工智能领域一些著名的 RRM 作品，这些作品是最近基于 ML 的 RRM 的基准结果（第 3 节）。

将对应用于雷达 RRM 问题的 ML 进行全面回顾。讨论将包括对 RRM 任务的分析，其中包括任务调度、时间资源管理、目标跟踪、目标分类、频谱分配和服务质量 (QoS) 资源管理。
将解释研究人员如何将 ML 技术用于这些任务，以及使用这些技术的相关利弊（第 4 节）。
此外，为了完整起见，我们还将回顾近期有关人工智能的部分文献，特别是人工智能在雷达非 RRM 相关任务中的应用。其中一些用例包括无人机探测、雷达监控、波形合成与识别以及医学成像（第 5 节）。
最后，我们强调了基于 ML 的雷达所面临的挑战，并讨论了潜在的研究方向。特别是，我们提出了强化学习（RL）的理由，以及它将如何在基于 RRM 的用例中发挥作用（第 6 节）。

基础主题涵盖了符号人工智能领域更多的传统基准工作，而文章的后半部分则回顾了过去 4-5 年间与基于 ML 的 RRM 应用相关的最新成果，这些成果来自 IEEE Xplore 和 IET 等公共数据库。我们特别关注了 IEEE 国际雷达会议、IEEE 雷达会议、Asilomar、IEEE 航空航天和电子系统论文集、IEEE 航空航天和电子系统杂志以及 IET 雷达声纳和导航论文集中的论文。我们希望我们的论文能帮助雷达领域的研究人员和专业人士找出研究差距，并在这一重要领域开展有意义的工作。

雷达资源管理的符号AI

本节简要回顾了一些基于人工智能方法的雷达资源管理算法，这些算法具有问题、逻辑和搜索的高级符号表示。基于符号-人工智能的雷达资源管理方法分为六类：(i) 模糊逻辑算法；(ii) 信息论方法；(iii) 动态编程（DP）；(iv) 基于服务质量的资源分配模型（Q-RAM）；(v) 波形辅助算法；(vi) 自适应更新率算法。

3.1 模糊逻辑算法

模糊逻辑控制器计算效率高，因此非常适合在雷达任务调度器中执行优先级任务。模糊逻辑处理单元包括三个步骤： (i) 模糊化，(ii) 模糊规则，(iii) 去模糊化。由于雷达调度器中可能存在相互冲突的任务，模糊逻辑可通过分配模糊值作为目标优先级因素来解决冲突。在共享资源中，模糊逻辑允许任务具有一定程度的灵活性，以实现高效的资源分配。许多研究工作都提出在雷达任务优先级和调度中使用基于模糊逻辑的方法。例如，参考文献[45, 46]提出了一种包含五个模糊变量（航迹质量、敌情、武器系统、威胁和位置）的决策树结构，用于确定雷达任务的优先级。[45, 46]提出了雷达任务优先排序的决策树结构。另一篇论文[51]提出了一种动态模糊逻辑方法，用于雷达系统模拟测试平台中的波形选择和能量管理。

3.2 信息论方法

由克劳德-香农[52]创立的信息论研究对整个科学，特别是通信、信号处理和控制产生了巨大影响。信息论方法在传感器管理中的主要优势在于，它将系统设计分为两个独立的任务：信息收集和风险/回报优化，从而简化了系统设计 [53]。参考文献[54]认为，信息理论方法可用于传感器管理。[54]中提出，信息论方法能以直接的方式为多种性能标准提供增益，因此适合应用于多功能 RRM。参考文献[55]中的工作引入了信息论测量方法。参考文献[55]介绍了与 RRM 相关的信息论措施，这些措施已被证明适用于控制轨道更新的调度。

信息论中的一个关键指标是熵，它可以衡量系统的无序性，或者是从稳定状态过渡到混乱状态的迹象。这一指标可用于调度 [56] 或资源分配 [57]。在雷达系统中，参考文献[58]首次提出了用于 RRM 的熵概念。[58]. 作者将不确定性因素用于有时间和资源限制的雷达系统。特别是，应用任务是使用单个多功能相控阵雷达确定目标位置并更新轨迹。所提出的方法使用了一个制定的熵度量来平衡分配给每个任务的资源。在实际系统中，需要使用自适应滤波器来更准确地确定熵值，从而获得更可靠的性能。

3.3 动态规划

动态规划是多阶段优化问题中一种常用的资源分配方案。该规划首先将优化问题分割成若干子问题。然后，建立最优递归关系，并决定采用正向或逆向方法解决问题。在进行必要的计算后，就能找到每个阶段的最优策略，进而得出总体最优策略。在 RRM 中，DP 算法可同时解决任务优先级和调度问题。在参考文献[59]中，作者部署了一个任务优先级算法。[59]中，作者采用了一种 DP 算法来最小化相控阵雷达的目标跟踪误差。参考文献[60]采用了隐马尔可夫模型的多臂强盗问题，以优化波束调度。[60]中采用了隐马尔可夫模型的多臂强盗问题，以优化电子扫描阵列跟踪系统中的波束调度。另一篇论文[61]提出了一种基于 DP 的解决方案，用于更新相控阵雷达系统中搜索任务的调度。尽管文献中已将 DP 广泛用于雷达配置和参数维度的优化，但其计算复杂度较高，难以实际应用。

3.4 基于服务质量的资源分配模型算法

Q-RAM 是一种分析方法，用于在资源受限的环境中同时满足多个 QoS 指标。利用该模型，可将可用资源在多个任务之间进行合理分配，从而最大化所选的净效用函数。这种方法还允许在系统内的多个目标之间进行权衡。在 RRM 环境中，Q-RAM 的优化是为了保持可接受的服务质量水平，其模型是成本函数。其数学公式是在资源限制条件下，最大限度地提高基于服务质量的系统效用函数。参考文献[62]介绍了 RRM 的 Q-RAM 框架。[62]，该框架由可调度包络、Q-RAM 单元和基于模板的调度器组成。Q-RAM 单元作为资源分配单元，采用快速凸优化技术为雷达任务分配参数，同时考虑任务重要性和当前利用水平等因素。雷达 QoS 优化基于 Q-RAM 的早期工作[63]，最初用于自适应 QoS 中间件，用于基于 QoS 的资源分配和可调度性分析[64]。参考文献[65]提出了一种基于预约的任务调度机制，可保证性能。[65] 中提出了一种基于预约的任务调度机制，可保证实时雷达的性能要求。另一项相关工作是[66]，它提出了一种基于模板的调度算法，可在离线情况下构建一组模板，同时考虑时序和功耗约束。参考文献[67]则提出了一种动态 Q-RR 算法。[67]中，针对雷达跟踪应用提出了一种动态 Q-RAM 方案，其中纳入了影响任务 QoS 的物理和环境因素。参考文献[68]中介绍的 Q-RAM 方法表明，基于时间的限制如何影响任务的 QoS。[68]展示了如何将基于时间的约束条件建模为利用率，以便使用资源管理技术。此外，在雷达跟踪应用等高度可配置的任务中，优化时间被证明是可以缩短的。

3.5 波形辅助算法

雷达波形可从照明环境中提取所需的时间、频率、空间、偏振和调制信息。它可以是连续波，也可以是脉冲波。就雷达内的任务调度和任务优先级功能而言，智能波形选择可提高资源管理效率。不同的波形可优化雷达中的监视、探测、跟踪和分类操作 [6]。

参考文献[69]介绍了一种概率数据关联方案，用于选择最佳波形。[69] 中介绍了一种概率数据关联方案，用于选择最优波形参数，使每个时间步的平均总均方跟踪误差最小。同样，参考文献[70]还介绍了另一种波形辅助交互多重模型（IMM），其目的是选择最优的波形参数，使每个时间步的平均总均方跟踪误差最小。[70]，其目标是根据目标动态模型的预期信息最大化，选择能降低任意相关目标不确定性的波形。文献[71]提出了波束和波形调度跟踪器，研究了实用方法。[71]研究了实现 RRM 监视和跟踪统一的实用方法。该方法引入了在雷达视场中明智地放置一个永久性的智能体，因此被命名为 "偏执跟踪器"。其他波形辅助探测、跟踪和分类方法包括[72-74]。参考文献[72]提出了一种自适应波形调度方法，用于在有限视界随机 DP 的背景下探测新目标。[72] 中提出了一种在有限视界随机 DP 背景下探测新目标的自适应波形调度方法，这种方法能以最小的雷达资源使用量最大限度地减少探测新目标所需的时间。Scala 等人[73] 提出了一种最小化跟踪误差的算法。参考文献[74]中报告说，雷达波形在探测新目标时会产生误差。[74]中指出，雷达波形可以通过最大化 Kullback-Leibler 信息数来区分目标，该信息数是观测到的目标与备选目标之间差异的度量。研究表明，由此选择的信号波形可显著提高探测性能。

3.6 自适应更新率算法

自适应选择采样时间间隔可提高相控阵雷达的跟踪性能[75]。这是因为高更新率适用于机动目标，而低更新率多用于非机动运动。因此，单一的更新率效率低下，可能不足以跟踪执行复杂机动的目标。许多研究人员提出了自适应速率更新技术，如参考文献[76]。[76]，其中波束调度、定位和检测阈值根据计算负荷进行了优化。参考文献[77]提出了一种 IMM 模型，具有双重目的：一是通过优化计算负荷来优化光束调度、定位和检测阈值；二是通过优化计算负荷来优化光束调度、定位和检测阈值。[77]中介绍了一种 IMM 模型，其双重目标是估计和预测目标状态以及估计动态过程噪声的水平。总体目标是减少单元时间内的轨道更新次数。另一项研究对轨迹更新进行了优化调度，以尽量减少雷达能耗[78]。能量最小化被模拟为一个非线性优化控制问题，并通过优化产生了一对轨迹更新间隔和信噪比（SNR）值的最佳序列。

符号人工智能具有出色的推理能力，但很难向其灌输学习能力，而这正是人类智能的关键部分。由于符号人工智能依赖于显性表征，而不考虑隐性知识，因此它很难发挥作用，尤其是在理解非结构化数据时（在雷达环境中，就 RRM 而言）。为此，人工智能领域引入了专注于机器自学的 ML1 范式。此后，ML 在许多领域都取得了巨大成功。最近，雷达研究界越来越倾向于将不同的 ML 技术用于 RRM 任务。下一节，我们将回顾基于 ML 的 RRM 的相关文献。

雷达资源管理的机器学习

在本节中，我们将介绍这项工作的核心贡献--对近期利用机器学习技术执行雷达资源管理任务的一些工作进行回顾。

大多数 RRM 任务都包括一定程度的优化，以选择当前或规划未来行动，尤其是对于认知雷达系统而言。然而，相关的计算成本可能会根据 RRM 任务的复杂程度而过度增加。例如，在有限的时间内同时执行多项任务的多目标飞行器中，最佳任务选择和调度是一个 NP 难问题，当考虑到多条时间线时，复杂度会呈指数级增长。已有多种启发式方法应用于该问题。虽然启发式方法大大减少了计算时间，但启发式方法的性能与全局最优解之间存在明显差距。可以利用机器学习来弥补这一性能差距，同时保持较低的复杂度。通过使用离线学习、深度神经网络（DNN）、在线学习和 RL，机器学习有能力在实时实施中降低计算成本。此外，一些 ML 模型还可以与启发式方法一起训练和使用，从而在相同的低复杂度水平下产生接近最佳的性能。

我们将在附录中介绍一些最著名的 ML 算法，如图 2 所示。这些算法已广泛应用于通信领域，包括 RRM 和信号处理。传统的 ML 算法大致分为以下几种： (i) 监督算法；(ii) 无监督算法；(iii) RL 算法。监督学习算法通过标记的训练数据来训练一个函数，学习从输入到输出的映射。另一方面，无监督学习算法处理基于无标签数据的聚类和关联规则挖掘问题。在 RL 中，马尔可夫决策过程（Markov decision processes，MDPs）等范例将利用和探索相结合，在环境中采取行动，以最大限度地提高累积奖励。除上述三类算法外，一些 ML 算法还能从无标签数据中结合少量标签数据进行学习，这被称为半监督学习（semi-supervised learning）。

深度学习是 ML 的另一种范式，据说其结构和功能以人脑为基础，因此在科学计算领域大受欢迎。深度学习使用人工神经网络对大量数据进行复杂计算。深度学习可以是监督式、非监督式或强化式，主要取决于神经网络（NN）的使用方式。如图 2 所示，用于深度监督学习的不同 NN 架构在深度 RL（DRL）中作为函数近似器特别有用。对于不熟悉 ML 范例背景和使用的读者，可以参考最近的 ML 算法教程和概述 [79，80]。

本节的讨论将根据 RRM 任务和功能进行划分。具体而言，我们将讨论最近基于人工智能的 RRM 文献，涉及以下 RRM 任务领域：(i) 目标识别和跟踪，(ii) 频谱分配，(iii) 波形合成和选择，(iv) 时间资源管理，(v) 任务调度和参数选择，以及 (vi) Q-RAM。

4.1 目标识别和跟踪

我们发现最近有许多关于目标检测、目标跟踪、杂波估计和杂波抑制的工作都采用了基于 ML 的技术。由于高效的 RRM 对进行实时识别和跟踪至关重要，因此我们在本节中讨论了这一功能。众所周知，利用雷达之间的跟踪和数据共享的协调 RRM 比独立 RRM 任务的性能更好，而且占用的轨迹和帧时间更少 [81]。在参考文献[82]中，贝叶斯多路复用（Bayesian multi-multi-RRM）技术被认为是最有效的方法。[82]中，使用高斯混合概率假设密度滤波器和长短期记忆网络（LSTM）转换函数进行贝叶斯多目标过滤。这项工作的目标是防止过滤器高估目标数量。该网络架构基于高斯多变量密度估计，被称为多维 LSTM（MD-LSTM）网络。该架构由 3 个模块组成： LSTM、密集层和输出层。经过训练的 MD-LSTM 模型将用于动态概率假设密度估计。在性能验证方面，将提议模型的状态估计与基准近恒速模型进行了比较。在另一项实验中，利用不同的检测概率评估了漏检的影响。即使在误报或漏检的情况下，该模型也能防止滤波器过高估计目标[82]。这些性能仅代表了一种简单的模拟场景，因此有必要利用真实数据为更复杂的场景探索最先进的 ML 技术。

另一项最新研究涉及用于认知雷达目标跟踪的深度 Q 学习（DQL）[83]。假设环境要求雷达与通信共存，并使用马尔可夫决策过程建模。单点目标被假定遵循某种直线恒速轨迹。马尔可夫决策过程的状态包括目标位置、目标速度和干扰模式。作者通过有限次数的训练运行建立了过渡概率矩阵和奖励矩阵。在完成训练运行后，对基准 MDP 进行贝尔曼方程建模，同时根据特定动作的奖励对神经网络进行训练。深度 Q 网络（DQN）的权重会进行更新，以选择被认为能带来最高奖励的最优行动。经过训练的 DQN 将当前状态作为输入，并估算每个潜在行动的 Q 值，然后选择 Q 值最高的行动。结果表明，当 DQN 在两者都未训练过的频段内运行时，以及当计算复杂度增加而 MDP 变得低效时，DQN 的性能优于 MDP。

参考文献参考文献[84]在雷达目标跟踪应用中采用了极端梯度提升（XGB）监督学习，其效果优于著名的贝叶斯滤波方法。由于贝叶斯跟踪器需要准确的先验信息来进行估计，因此在未知环境中性能不佳。监督学习模型以极坐标为基础，并根据雷达测量结果进行训练。损失函数用于预测最优树结构和估计相应的叶值。设计的 XGB 过滤器（XGBF）的性能与粒子滤波（PF）的结果进行了比较。结果表明，就估计均方根误差（RMSE）而言，XGBF 优于 PF，并且在 10,000 个、20,000 个和 40,000 个样本中表现出相似的性能。本文主要关注的是单目标过滤问题；将杂波和多目标测量相关性问题纳入其中将是一个挑战，尤其是在由于无法获得真实数据而需要生成训练数据的情况下，本工作就是如此。

在目标识别和检测领域。Bauw 等人利用半监督异常检测方法（SAD）解决了检测异常雷达目标的难题[85]。利用 ML 识别高分辨率测距剖面目标最近在雷达研究界受到了广泛关注。作者提出了一种 SAD 方法，它是对早期提出的深度支持向量数据描述模型[86]的扩展。无监督异常检测，即使有训练污染，也能产生可靠的结果，但船舶检测场景除外，因为船舶的形状和大小差异很大。半监督异常检测有可能用较少的标注数据点来改善检测结果；这是一个重要的优点，因为标注图像数据是一个耗时且成本高昂的过程。另一方面，参考文献[87]中的研究成果也能提高检测结果。另一方面，参考文献[87]中的工作使用了一种展开鲁棒 PCA（RPCA）方法，用于雷达中的目标识别和干扰缓解。文中讨论的用例专门针对安装在自动驾驶车辆上的雷达。这项工作的主要创新点是在展开式 RPCA 的递归结构中引入残余超完全自动编码器块，从而能够估计环境中干扰的振幅和相位。汽车雷达推理缓解数据集 [88] 被用来训练所提出的模型。无论是在接收器工作特征下面积（ROC）方面，还是在根据标签信号计算的测距轮廓振幅与预测信号之间的平均绝对误差方面，所提出的模型都优于选定的基准。

由于匹配滤波器和似然比检验在没有先验信息的情况下不可行，因此也有人提出了基于 DL 的无线电信号检测技术。例如，在参考文献[89]中，双向 LL 检测器被用于检测无线电信号。[89] 中提出了基于 LSTM 的双向去噪编码器，用于检测环境中是否存在雷达信号。LSTM 的双向版本包含前向和后向传递，这使得非因果信息（即前向和后向相关性）的推导成为可能，从而提高了性能[90]。基于 RNN 的去噪自动编码器在低误报概率和更高的 ROC 下面积方面优于能量检测器和时频域检测器等业界基准检测器。

从背景干扰中分辨目标的能力在海事应用中变得更加重要，因为只有在掌握先验环境信息的情况下，才能准确估计海面杂波。卷积神经网络和自动编码器 (AE) 在基于图像的数据集方面表现出极高的分类准确性。为了研究它们在海面杂波检测中的适用性，参考文献[91]的作者使用了一个混合模型，其中包含了一个自动编码器。参考文献 [91] 使用包括 CNN 和 LSTM 的混合模型，以较低的计算复杂度估计 K 加噪声分布的参数。CNN-LSTM 采用 CNN 层进行特征提取，LSTM 层支持序列预测。在均方误差 (MSE) 和计算复杂度方面，一维 CNN-LSTM 估计器优于 z log(z) 算法。参考文献[92]中的研究工作也侧重于减轻对图像的影响。[92]中的工作也侧重于缓解海杂波回波造成的问题，这些问题会影响小型目标检测时的性能。由于目标检测方案使用的振幅分布需要特定参数的知识，这些参数估计不准确会导致检测结果不佳。作者在参考文献中使用了在线字典学习，用于学习信号的稀疏表示，收敛速度比字典学习更快。

使用大量测距/多普勒图上的目标信号干扰比和小型船只的信号回波对性能进行了评估。所提出的基于 DL 的海杂波抑制技术在外来杂波区域的性能略优于其他算法。还有一些关于人工智能和 ML 在雷达监视系统中应用的调查论文值得一提。在参考文献[93]中，作者对雷达监视系统中的大数据进行了预测。[93]中，作者将大数据轨迹作为改进雷达监视系统的有效方法。他们特别关注异常检测的方法和用例，描述了数据源、数据预处理框架和工具、数据平滑以及基于 ML 的技术中滑动窗口的作用。两种架构：讨论了用于实时监控的 Lambda 和 Kappa。热图在船舶风险评估中的应用案例表明，热图非常有助于对情况进行可视化评估。同样，通过使用分层基于密度的噪声应用空间聚类[94]对感兴趣的区域进行聚类，可以相对容易地提取物体和港口之间的关系。Wrabel 等人[95] 综述了利用雷达传感器进行目标监视的人工智能技术。这项工作的重点是 (1) 杂波识别，(2) 目标分类和 (3) 目标跟踪。杂波识别采用了多种人工智能方法，包括贝叶斯分类器、集合方法、k-近邻（kNN）、SVM 和神经网络模型。除这些技术外，还使用 RNN、CNN 和决策树模型进行了目标分类。同样，还对目标跟踪方面的工作进行了审查，其中比较流行的技术有集合技术、神经网络、SVM 和 RNN。

4.2 频谱分配

我们发现最近有两篇论文都在雷达频谱分配领域使用了 RL 技术。在参考文献[96]中，作者将 RL 作为一种分散的频谱分配方法，用于避免汽车故障。[96]中，作者将 RL 作为一种分散的频谱分配方法，以避免汽车雷达之间的相互干扰。由于 RL 算法可以在未知环境中学习决策策略，因此适用于雷达传感器对环境信息掌握有限的情况。LSTM 网络通过时间汇总观察结果，这样，模型就能学会利用当前和过去的观察结果选择最佳子频段。这项工作假设整个频段被划分为不重叠的子频段，且雷达设备的数量大于子频段的数量。

基于 RL 的频谱分配工作原理如下。首先，处理上一步的信号并构建当前观测值。然后，发射器 Q 网络通过汇总历史观测数据选择一个子频段。接收器终端产生的奖励将指导发射器 Q 网络选择更好的子频段选择策略。与随机策略和近视策略等基准分散频谱分配方法相比，对所提出的算法进行了评估。结果表明，在不同流量密度场景下，该算法在成功率方面表现出色。不过，Q-网络是在模拟环境中用相对简单的场景模型进行训练和测试的，以显示所提方法的可行性。现实世界的环境可能很复杂，因此有必要进行建模，以更好地代表实际场景。

我们已经将 Q-learning 确立为资源管理问题的有力候选方案，因为它具有无需任何环境模型即可找到最佳行动价值函数的内在能力。在参考文献[97]中，作者建立了一个基于资源管理问题的模型。[97]中，作者将雷达-通信带宽分配问题建模为一个 MDP，然后应用策略迭代来确定最优策略。为了减轻雷达和通信网络之间的干扰，基于 MDP 和 Q 学习的模型学习了干扰的时频谱占用模式。模拟在三种干扰环境下进行： (i) 持续干扰；(ii) 高传输概率的间歇干扰；(iii) 低传输概率的间歇干扰。雷达不仅能学习频率上的干扰模式，还能在目标靠近雷达的情况下以信号干扰加噪声比（SINR）换取带宽的增加。这项工作只研究了五个子带；更多的子带会使状态空间的大小呈指数增长，导致更复杂的训练需要更长的时间。基于策略的 DRL 技术的目标是学习一组远远小于状态空间的参数，可以解决这个问题，扩展工作[98]已经证明了这一点。

参考文献[98]中的工作应用了非线性 DRL 技术。[98]中的工作通过 DRL 应用非线性值函数近似来解决认知脉冲雷达与通信系统之间的动态非合作共存问题。基于 DRL 的方法允许雷达改变其线性频率调制器的带宽和中心频率，从而提高了目标探测能力和频谱效率。作者特别使用了 DQL 算法，并将其扩展到双深递归 Q 网络 (DDRQN)，结果表明 DDRQN 进一步提高了 DQL 方法的稳定性和策略迭代。这项工作是对早期使用 MDP 进行雷达波形选择的方法的扩展[97]。与参考文献[97]中的模型不同的是，该模型采用了默认的波形。[97] 中的模型在状态转换模型未指定的情况下采取默认行动，而本文提出的模型则利用估计的函数值来执行更明智的行动。通过在软件定义无线电上进行的实验，对拟议算法与策略迭代算法和感知-规避（SAA）算法的性能进行了比较。与基准方案相比，已公布的结果表明在新场景中收敛更快，学习效果更好。

4.3 波形合成与选择

波形优化是具有自适应发射机和接收机的认知雷达的主要特征之一。从预定义波形库或编码本（CB）中选择波形，可同时完成特定或多个雷达任务。波形优化的核心在于利用任何形式的分集（如空间分集、波束模式、频率分集、编码分集和极化）所带来的多因子效应。

优化波形选择可采用基于 NN 的框架，如参考文献 [99] 所述。[在该文中，作者分析了雷达的蚀变、盲速、杂波、传播和干扰因素。使用非线性 NN 模型估算了最佳波形参数。

参考文献[100]中的讨论提供了对雷达波形参数的总体概述。[100]对神经网络和 ML 在认知雷达开发中的应用进行了总体概述，目的是降低实时实施的计算成本。该文讨论了一个用例场景，即利用 RL 生成带有 26 dB 功率谱密度 (PSD) 缺口的波形。问题是如何在雷达带宽内放置凹口，从而最大限度地减少来自干扰器和其他通信设备的干扰。我们的想法是选择一组相位，通过选择波形在所创建信号的 PSD 范围内形成一个凹口。相位选择的非线性优化问题采用深度确定性策略梯度（DDPG）算法解决。从本质上讲，深度确定性策略梯度是一种行动者批判模型，用于生成训练输入，并根据 NN 输出的质量进行奖励。行动者产生一组阶段，供模拟环境评估。环境执行离散傅立叶变换，并计算所制定的目标函数值。该值即为该行动的奖励，并反馈给批判性 NN。批判 NN 的设计是这样的：它将状态和行动作为不同层的输入，并输出 Q 值，该值反向传播到行动输入层，以获得行动的误差。DDPG RL 算法通过一个简单的环境模拟器减轻了对标记数据集的需求。生成的 26 dB PSD 缺口可能不足以满足实际部署的需要，但可以通过微调模型参数来增加缺口。重要的是，这种 RL 方法消除了对大量标注数据的需求，而这些数据在雷达部署前是无法用于模型训练的。

雷达波形优化的另一个重要方面是合成具有理想模糊函数（AF）形状和恒定模量特性的新型雷达波形。由于雷达编码系列中可用的编码序列数量有限，因此在操作 MFR 或基于多输入多输出的通信系统时会出现问题。如第 2 节所述，基于 GAN 的方法目前已被广泛用于生成真实的合成数据，从而改善 DL 应用中的训练结果。在参考文献[101]中，基于 GAN 的神经网络被广泛使用。[101]中，基于 GAN 的 NN 结构用于从已有波形的训练集中生成逼真的波形。其中，针对复值输入数据开发了一种 Wasserstein GAN [102] 结构。该模型在 Frank 和 Oppermann 编码上进行训练，合成出与现有编码具有高自相关性、相同 AF 和低交叉相关性的新波形。合成波形的 AF 图与训练数据集的波形高度相似。GAN 生成的波形与训练数据集的交叉相关性几乎可以忽略不计，这清楚地表明 GAN 可以生成逼真而独特的雷达波形。合成的波形还被限制为具有恒定模量，以便有效地使用放大器。

由于雷达信号表现出时间相关性，因此与基准最小预期均方跟踪误差相比，在部分状态信息上应用基于记忆的学习算法来学习波形选择策略，可提高雷达性能[103]。参考文献[104]中的工作建立了一个波形选择模型，并将其应用于雷达系统中。文献[104]利用上下文树建立了雷达环境模型，并进一步利用该模型在与信号相关的目标信道中选择波形。作者提出了一种基于 Lempel- Ziv 的波形选择算法，该算法是有限阶马尔可夫目标信道的成本最优解。通用学习算法根据当前的上下文信息，对观察到特定状态的过渡概率进行估计。上下文树通过向后遍历之前观察到的结果进行更新。在每一步中，通过利用已知的奖励信息或探索新的行动来选择行动。目标函数侧重于目标检测的准确性以及互信息的最大化。与基准方案相比，通用学习方法能产生更高的平均 SINR 和更低的 RMSE。由于通用学习算法非常复杂，作者考虑了大小有限的波形目录和状态空间离散化，以保持其可操作性；这可能会影响其在更实际场景中的性能。

另一个波形合成方案[105]专门针对反干扰雷达，研究了基于 RL 的联合自适应跳频和脉宽分配反干扰方案，因为当前的反干扰策略（使用跳频和脉宽分配）往往难以适应复杂和不可预测的环境。与所描述的其他 RL 作品一样，目标函数被模拟为 MDP。在部分信息环境情况下，利用 Q-Learning 学习优化的雷达抗干扰策略。奖励函数值是雷达抗干扰函数的量化版本，包含两个 RRM 任务，即跳频和脉宽分配。基于 Q 学习的联合优化算法与基准随机跳频策略进行了比较，后者在每个实例中从频带中随机选择一个频率[106]。在不同的跳频成本和传输脉冲数的情况下，基于 Q 学习的策略获得了更高的平均回报。

4.4 时间资源管理/任务调度和参数选择

在有限的时间预算内调度多个任务是多任务飞行器中最关键的 RRM 任务之一。时间是有限的资源，因此需要根据优先级谨慎地分配给不同的任务。这种优化问题的目标是尽量减少丢弃和延迟任务的数量，是一个 NP 难问题[7]。众所周知，分支与边界（B&B）方案可为该问题提供最优解[107]；然而，B&B 算法的计算复杂度会随着待调度任务数量的增加而呈指数级增长。

Shaghaghi 等人在其关于 RRM 中 ML 的开创性工作中研究了多通道雷达 RRM 领域中的参数选择、优先级和调度问题[108]。为了克服复杂性问题，在这项工作中，作者利用离线运行 B&B 算法获得的数据训练了一个由 DNN 组成的价值网络。从本质上讲，训练好的 DNN 可以估算搜索树节点的值，从而通过剔除远离最优解的节点来加快 B&B 进程。基于 DNN 的解决方案在收敛到接近最优解的同时，大大减轻了计算负担。为了使算法对估计误差更加稳健，引入了一个缩放因子，选择足够高的缩放因子意味着从搜索树中剔除的节点更少。在这种情况下，调度性能与 B&B 方法非常接近，但节点访问的计算负担略有增加。

为了进一步减少计算时间，同时提供接近最优的结果，作者在参考文献[109]中实施了蒙特卡洛树搜索（MCTS）。[109]中，除了 B&B 的优势规则外，还使用 DNN 作为策略网络，将搜索重点放在树形结构中更有前景的分支上。MCTS 与 DNN 的结合使用了流行的 AlphaGo 和 AlphaZero 方法 [110，111]。在每个树节点上，通过对 B&B 方法获得的理想解决方案进行监督学习而训练出的策略网络会创建一个优先级分布。虽然该方法与参考文献[108]有些相似，但有一些明显的不同。[108]有些相似，但也有一些明显的区别。例如，参考文献[108]中的算法需要固定数量的策略网络。例如，参考文献 [108] 中的算法需要固定数量的任务，而在本文中，输入状态侧重于下一个要安排的任务。这样就能实现任意数量的活动输入任务。与采用值函数的文献[108]不同，本文采用的是以 7 层 DNN 为模型的策略网络。仿真结果表明，随着蒙特卡罗滚动次数的增加，平均成本接近最佳 B&B 性能。与基准方案相比，该方案实现了接近最优的性能，而且计算复杂度比 B&B 方法低几个数量级。

虽然参考文献[108, 109]中的工作 [108、109] 中的工作虽然能产生接近最优的结果，同时减少了计算负担，但两者都需要通过离线执行 BnB 生成训练数据，这同样需要大量的计算时间。此外，不同的问题规模和/或任务分布需要不同的训练数据。最重要的是，这两种方法都无法让雷达适应动态环境。

为此，同一作者开发了一种基于 MCTS 方法的近似算法，利用雷达与环境交互的数据训练认知调度程序[112]。RL 模型用于在多种约束条件下训练策略网络，如非同质信道、阻塞信道和周期性任务。策略网络的目的是减少 MCTS 搜索的宽度。每个 RRM 任务都有相关的开始时间、完成时间期限和下降成本。假设任务在不同信道上的执行方式不同。Q 函数值提供了在给定节点上采取特定行动时所获得的预期效用的估计值。通过运行 MCTS 获得的统计数据用于训练网络参数，然后对参数进行调整，以尽量减少交叉熵损失。策略网络有七层深度，前四层为卷积层，后三层为全连接层。所提出的 MCTS + 策略网络模型的平均成本和任务丢弃率均低于基准算法。

在 Shaghaghi 等人的监督学习方法[109]和参考文献[111]中的 RL 工作的基础上，Gaafar 等人提出了任务调度问题的修正 MCTS 解决方案，以找到有效的低复杂度解决方案[113]。[112]的基础上，Gaafar 等人针对任务调度问题提出了一种改进的 MCTS 解决方案，以找到一种有效的低复杂度解决方案[113]。改进后的 MCTS 进一步得到了基于 RL 的模型的补充，该模型可以利用基于奖励的机制进行学习，而无需大量的训练数据集。对经典 MCTS 算法的第一项修改是，不允许重访已访问过所有与其分支相关的解的状态。其次，任务排序基于开始时间，因此选择较早任务的概率较高

效用函数由三个相互冲突的因素组成： (i) 支持基于较早开始时间的任务选择；(ii) 支持基于已知低成本的任务选择；(iii) 探索访问次数较少的任务。在基于 RL 的方法中，通过训练 DNN 来学习所有任务概率向量的最佳值。MCTS 会产生具有更好解决方案的行动，但 DNN 会利用训练数据引导 MCTS 采取更好的搜索策略。参考文献 [113] 中的 DNN 引导 MCTS 系统如图 3 所示。[113] 的 MCTS 系统如图 3 所示。使用 5 层 DNN 作为 DNN 结构，结果显示平均验证成本降低了，放弃任务的比例降低了，平均成本接近最优。

不过，该算法在训练和调度单个问题时在线时间较长。此外，这项工作没有考虑对环境重大变化的适应性，因为在算法的训练和测试阶段，任务特征的概率分布被认为是固定的。最终，如果任务分配和环境发生突然变化，算法需要更长时间的自我训练。该方法对两个阶段任务特征概率分布之间可能存在的差异的稳健性尚不清楚。

最近的另一项研究[114]将重点放在 MFR 中的自适应重访间隔选择（RIS）上，将其视为一个时间管理问题，并将其表述为具有未知状态转换概率和奖励分布的 MDP。提出的奖励函数是在保持轨迹损失概率作为优化约束条件的同时，最大限度地降低跟踪负荷|转移学习（TL）。采用 Q-learning 算法和 epsilon-greedy 策略来解决这个问题。最小化时间预算和跟踪损失的目标体现在智能体的即时奖励和累计奖励中。建议算法的性能与基于预测误差协方差矩阵 (PECM) 的基准解决方案进行了比较 [115]。比较使用的是跟踪损失和位置预测误差的平均值和峰值。在这两项指标上，所提出的基于 RL 的方案都明显优于基准方案，从而巩固了基于 RL 的算法在与 RIS 相关的时间管理 RRM 任务中的实用性。不过，结果表明，学习速度会随着状态空间大小的增加而降低，这对于基于表格的 RL 方法来说是一个主要问题。此外，Q-learning 在非稳态环境中也很难发挥作用，而这正是认知雷达 RRM 的具体情况。

最近的另一项研究利用 Q-learning 在 MFR 中进行动态任务调度[116]。首先，为执行任务的 MFR 网络创建一个 MDP，并以掉落任务比率作为评估标准。然后，为 Q-learning 算法设计状态-行动空间。在进行行动选择时，要同时考虑新状态会产生的当前和未来回报。与先到先执行的基准方法相比，基于 Q-learning 算法的方案明显降低了放弃任务的比例。但是，该方法没有考虑延迟成本，而延迟成本是雷达任务调度问题中的一个重要指标。

最近的一项研究 [117]，开发了一种深度 Q 网络智能体，并使用两种不同的奖励方案对其进行了测试，结果表明，仅在任务重叠队列的情况下，其性能优于 EST。对于另一种有非重叠任务队列的情况，EST 的性能则优于 DQN 智能体。此外，DQN 只显示了四项任务的结果，考虑到实际情况，这是一个很小的数字。

我们从数据库中找到了几篇最近的论文，这些论文利用了基于 RRM 的任务调度和参数选择的 ML 技术。第一项研究是参考文献[37]。[37]中，作者采用 CNN 对相控阵雷达天线系统中的到达方向（DoA）进行估计。该问题被模拟为多类分类，其中每一类指定一个不同的子阵列。在不预先知道目标位置的情况下，从接收到的阵列信号的协方差样本中提取特征图来训练 CNN。创建训练数据时，要使用能产生最低最小 MSE 边界的子阵列。在这项工作中，CNN 模型被选择为有九层深度，它不依赖天线几何形状来优化天线子阵列的选择。基于 CNN 的结构比早期基于 SVM 的模型[118]的分类效果好 32%，DoA 估计精度也高 72%。

我们的调查清楚地表明，基于 RL 的算法在 RRM 的调度优化问题中很受欢迎，因为它具有以下优点 (i) 它不像监督学习那样需要外部训练数据来学习，(ii) 它能减少计算时间，同时产生接近最优的结果，(iii) 它具有适应动态环境的潜力。

4.5 基于QoS的资源分配模型

参考文献[119]正式介绍了基于 QoS 的资源分配模型。参考文献[119]正式介绍了基于 QoS 的资源分配模型，其在基于符号 AI 的 RRM 中的应用已在第 3.4 节中讨论过。Q-RAM 的目标是在满足资源限制的前提下，最大限度地提高一组雷达任务在波形、停留时间和跟踪滤波器等操作参数上的效用。对于动态环境，Q-RAM 的计算效率很低，因为它必须在资源分配帧中重复重新计算运行参数，这对算法的反应时间也造成了限制。为此，参考文献[7, 120]提出了连续双拍卖参数选择算法。参考文献 [7, 120]提出了连续双拍卖参数选择算法，该算法可将前一时间步的解决方案调整到当前时间步，而无需重新计算全部资源分配，从而减少了动态 RRM 问题的计算量。

在最近有关 RRM 的文献中，有一篇论文采用了基于 QoS 的资源分配模型 ML，用于雷达系统的智能决策[121]。这项工作使用了 DRL 模型，其中一个 NN 智能体预测了一连串理想的任务配置，而不需要资源效用空间中的所有配置。具体来说，智能体学习输出与输入配置相比资源效用差商最大的任务配置。每个行动的奖励都是该特定行动实现的上述效用-资源-商数的直接函数。智能体采用单工优势行为批判网络建模 [122]。经过 RL 训练的智能体在选择任务配置时相当成功，因为给定的资源能产生很高的效用。特别是，在 120,000 个训练步骤中，Q-RAM 性能达到了 97%-99%。

这种基于 RL 的技术的真正优势在于降低了计算复杂度。用数学术语来说，其改进幅度为对数 c，其中 c 是每个任务可能配置的数量。参考文献[121]中报告的性能似乎并不理想。121]的性能似乎并不比参考文献[7]更好。[不过，它显示了基于 RL 的 RRM 在超载情况下的潜力，而且不需要极高的计算复杂度。在现实应用中，每个任务的配置数量可能会变得很高，在这种情况下，可以通过 Wolpertinger 算法[123]来训练 RL 智能体。此外，基于 RL 智能体的方法可以很容易地集成到现有的 Q-RAM 实现中，并实现认知雷达系统所需的 "自学习 "能力。

成为VIP会员查看完整内容