将强化学习(RL)技术整合至兵棋推演以获取战略战术洞见,是美国空军重点关注的领域。本文探讨如何应用强化学习技术——具体采用SARSA(λ)算法——来增强复杂计算机兵棋推演系统Stratagem MIST中的战略决策能力。核心目标是制定并筛选适用于"蓝方智能体"的空中与地面作战策略,以有效应对不同地形条件下的多样化对手策略。这种多维度测试环境可全面评估蓝色智能体在复杂战场条件下的适应能力与作战效能。
研究的核心在于将兵棋推演挑战建模为马尔可夫决策过程(MDP)。通过开发基础函数库、识别特定空陆作战策略,成功简化了状态空间与行动空间,确保计算可行性。在SARSA(λ)框架下,采用线性价值函数近似方法处理连续状态空间特性。为优化算法效能,研究引入拉丁超立方设计探索最优超参数配置,力求在多样化作战场景中实现收益最大化。
关键研究发现验证了SARSA(λ)算法在Stratagem MIST环境中的有效性,彰显了强化学习算法与自我博弈机制在兵棋推演中的应用潜力。算法展现出的空域战术优势优先级选择特性,及其在多样化地图中的表现,揭示了战略适应能力的重要性。受限于计算资源,研究指出需提升大规模复杂地图的仿真能力,这为未来扩展性研究指明了方向。
第二章介绍决策论与博弈论的核心概念,剖析强化学习自我博弈机制,概述SARSA(λ)算法框架,并详述Stratagem MIST兵棋推演环境的核心规则与运行机制。第三章提出基于SARSA(λ)算法的自我博弈强化学习人工智能解决方案,应用于Stratagem MIST兵棋推演系统。第四章对第三章实验数据进行系统性分析与深度探讨。最终章第五章阐明研究结论,并展望未来研究方向及潜在拓展路径。