人工智能在空战领域正变得越来越重要。目前,大多数空战研究都假定所有飞机信息都是已知的。但在实际应用中,由于现实限制和传感器误差,一些飞机信息,如位置、姿态、速度等,可能是不正确的,或者是不可能获得的。在本文中,我们提出了一种基于深度强化学习的框架,用于开发一种能够在信息不足的部分可观测马尔可夫决策过程(POMDP)条件下执行可视范围(WVR)内空对空作战的模型。为了稳健地应对这种情况,我们使用了递归神经网络,并应用了软评价器(SAC)算法,以有效应对现实限制和传感器误差。此外,为了提高学习效率和效果,我们还应用了课程学习技术来限制状态空间的探索范围。最后,模拟和实验结果表明,所提出的技术能够在嘈杂的环境中处理传感器限制和误差引起的实际问题,同时还能高效地减少学习的训练时间。
图 2 显示了本研究提出的空战模型学习框架概览,该框架由矢量化空战模拟环境和包括重放缓冲器在内的循环 SAC 模块组成。环境中有两个动态模型:己方和目标。它们分别从 SAC 模块的角色和基于规则的行为模型中获得动作 at 和 atarget,并输出飞机状态 sownship 和 starget。模拟器根据这些状态生成奖励 rt 和观测值 ot,同时考虑到配置的传感器特性。轨迹(ot、at、rt)被存储在重放缓冲区中,固定长度的轨迹序列将被采样用于批判。