技术进步与人工智能在军事领域的加速渗透,凸显出探索新型空优战术的迫切需求。可消耗自主无人作战飞行器(AUCAV)的部署为维持空战优势提供了潜在路径。传统空战机动训练依赖人类飞行员积累的实战经验,而定向能武器(DEW)等新型装备则催生了尚未充分开发的战术可能性。本研究借助仿真、集成与建模高级框架,探索强化学习(RL)技术在植入空战视觉范围内(WVR)机动决策问题的AUCAV智能体行为优化中的应用。研究将2v2 WVR空战机动问题建模为马尔可夫决策过程(MDP),其中友方AUCAV配备定向能武器并在六自由度(6DOF)环境中运作。核心方法论采用双深度Q网络强化学习算法,对两架友方AUCAV进行集中式训练。通过分阶段学习策略:初期采用密集奖励环境加速基础训练,后期切换至稀疏奖励环境激发自适应与涌现行为,构建系统性训练框架。研究设计典型实验场景评估不同DEW配置下AUCAV作战效能,为后续研究提供基准。通过对学习所得机动战术的定性分析,以及DEW武器参数四因子全析因实验的定量评估,验证强化学习解决方案的有效性,并揭示其对未来武器概念开发的启示价值。
本文结构如下:第二章综述空战机动问题、强化学习解决方案及仿真环境相关研究;第三章阐述2v2空战机动问题建模方法,提出MDP形式化框架,并详述机动战术学习智能体的强化学习实现路径;第四章展示学习机动战术的定性分析结果,以及DEW武器参数四因子全析因实验的定量研究成果;第五章总结研究成果,并提出未来研究方向的战略考量与技术路线。