《军事高价值资产自主防御与护航的深度强化学习方法》最新148页

本文探讨了机器学习在自主无人战斗飞行器（AUCAV）控制中的应用。特别是，本研究将深度强化学习方法应用于防御性空战场景，在该场景中，AUCAV 机群保护军事高价值资产 (HVA)，该资产要么是静止的（如在空军基地防御场景中），要么是快速移动的（如在涉及护送货运飞机或指挥控制飞机的场景中）。通过采用马尔可夫决策过程、近似动态规划算法和用于价值函数近似的深度神经网络，一系列空战管理场景、原始模拟环境和一系列设计的计算实验为高质量决策策略的近似提供了支持。三项连续的研究探索了新型模型和相应的方法论，以提高数学模型的准确性，提高计算效率，或更准确地评估复杂问题的解决方案质量，在这些问题中，最优解决方案的计算难以实现。对政策有效性和特定政策行为的深入分析为战术、技术和程序的完善提供了信息，并使能力评估更加准确和量化，从而为所有相关系统的需求开发和采购计划提供支持。

图 1. 假想的 GABMP 场景，描绘了穿越敌对领土的固定 HVA 任务路径

第二章至第四章由三项连续研究组成，将防御性空战管理数学模型作为一个连续决策问题加以制定和扩展。每一章都探讨了一种新颖的方法论，以提高数学模型的准确性，提高数据效率，或更准确地评估复杂问题的解决方案质量，因为在复杂问题中，最优解决方案的计算难以进行。

第二章介绍了广义空战管理问题（GABMP）。由 AUCAV 组成的舰队护送 HVA 穿过敌方领土，而敌方的攻击模式会根据友军和敌军的相对位置在来源和强度上发生变化。鉴于大多数现实问题并不存在于静态环境中，针对非静态问题的强化学习是一个广泛研究的课题。要解决这些问题，需要在特征工程方面投入大量精力，为学习算法提供足够有用的状态空间信息，以揭示复杂的系统动态。本章提出了上下文分解马尔可夫决策过程（CDMDP），它是静态子问题的集合，旨在利用值函数的线性组合来逼近非静态问题的动态。一组设计好的计算实验证明了 CDMDP 方法的有效性，表明复杂的非稳态学习问题可以通过一小组静态子问题得到有效的近似，而且 CDMDP 解决方案与基线方法相比，无需额外的特征工程就能显著提高解决方案的质量。如果研究人员怀疑复杂且持续变化的环境可以用少量静态上下文来近似，那么 CDMDP 框架可能会节省大量计算资源，并产生更易于可视化和实施的决策策略。

第三章为强化学习问题中的经验重放记忆缓冲区介绍了一种新颖的基于相似性的接纳控制方法。通过只用足够不相似的经验更新缓冲区，可以提高学习算法的效率和速度，尤其是在连续状态空间的情况下。该方法采用了广义空战管理问题的扩展版本，纳入了导航航点和基于轨迹的杀伤概率模型，以增强真实感。此外，还设计了一系列计算实验，研究基于神经网络的近似策略迭代算法的结构。对比分析表明，使用包含前 50% 最独特经验的内存缓冲区，学习算法收敛到稳健决策策略的速度比单独使用优先级经验回放快 10%。这些发现凸显了所提出的方法在复杂、连续的状态空间中提高强化学习效率的潜力。

第四章研究了信息松弛技术在 GABMP 进一步扩展版本中用于近似求解质量上限的应用。信息松弛指的是放宽顺序决策问题中的非预期性约束，这些约束要求决策者仅根据当前可用的信息采取行动。信息松弛采用了时间事件视野，为决策者提供了对问题环境中未来随机不确定性结果的可调整访问。以往的研究都是针对在确定性松弛条件下更容易求解的问题进行信息松弛研究，而本方法论则将该方法应用于连续空间中的连续时间问题，即使在确定性条件下也需要求解近似技术。对事件视界和其他问题特征进行多维敏感性分析，有助于量化战术改变或能力修改对决策政策有效性的潜在改进。这种量化方法应用于现实世界的能力差距评估，客观地增强了传统的主观分析，从而为决策提供指导，并为采购计划制定更有效的要求。第五章总结了前述各项研究的结果。

此外，第五章还指出了每项研究的假设和局限性，并提出了未来研究的可能途径。