对美国陆军战备来说,基于模拟的训练提供了一种成本和时间效益高的方式来保持人员对其角色、责任、战术和行动的充分了解。目前,由模拟支持的演习需要很长的计划时间和大量的资源。尽管半自动化的军事模拟提供了基本的行为人工智能来协助完成参与者的角色,但它们仍然需要人类模拟操作员来控制友军和敌军。演习支持模拟操作员直接来自预期的训练对象,分配给士兵的角色扮演职责与他们组织的训练。单位用他们团队的一小部分人进行训练,降低了训练质量和整体效果。减少开销和提高模拟支持训练质量的一个方法是实施全自动和自适应的敌对部队(OPFOR)。
DeepMind的AlphaStar、AlphaZero和MuZero说明了机器学习研究的进展情况。使用大型数据集或通用算法,这些代理人学会了如何在复杂的战斗性战略游戏中发挥并击败职业玩家。这些游戏包括延迟和稀疏的奖励、不完善的信息和大规模的状态空间,所有这些功绩都支持机器学习可能是在建设性的军事模拟中开发适应性OPFOR的关键。
本文调查了关于使用机器学习进行自动OPFOR决策、计划分类和智能体协调的现有文献。这一分析是未来研究支持建设性军事模拟自适应OPFOR的现有能力和局限性的一个起点。