本论文利用强化学习(RL)来解决空战机动模拟中的动态对抗博弈问题。空战机动模拟是运筹学领域常见的一种顺序决策问题,传统上依赖于智能体编程方法,需要将大量领域知识手动编码到模拟环境中。这些方法适用于确定现有战术在不同模拟场景中的有效性。然而,为了最大限度地发挥新技术(如自动驾驶飞机)的优势,需要发现新的战术。作为解决连续决策问题的成熟技术,RL 有可能发现这些新战术。
本论文探讨了四种 RL 方法--表式、深度、离散到深度和多目标--作为在空战机动模拟中发现新行为的机制。它实现并测试了每种方法的几种方法,并从学习时间、基准和比较性能以及实现复杂性等方面对这些方法进行了比较。除了评估现有方法对空战机动这一特定任务的实用性外,本论文还提出并研究了两种新型方法,即离散到深度监督策略学习(D2D-SPL)和离散到深度监督 Q 值学习(D2D-SQL),这两种方法可以更广泛地应用。D2D-SPL 和 D2D-SQL 以更接近表格方法的成本提供了深度 RL 的通用性。
本文有助于以下研究领域: