应用人工智能模拟空对空作战场景正引起越来越多的关注。迄今为止,高维状态和行动空间、高度复杂的情况信息(如不完全信息和过滤信息、随机性、对任务目标的不完全了解)以及非线性飞行动态对准确的空战决策构成了巨大挑战。当涉及多个异构代理时,这些挑战会更加严峻。我们为具有多个异构代理的空对空作战提出了一个分层多代理强化学习框架。在我们的框架中,决策过程分为两个抽象阶段,异构的低级策略控制单个单位的行动,而高级指挥官策略则根据总体任务目标下达宏观命令。低层次政策是为精确控制部队作战而训练的。它们的训练是按照学习课程安排的,其中包括日益复杂的训练场景和基于联赛的自我比赛。根据预先训练好的低级策略,对指挥官策略进行任务目标训练。经验验证证明了我们设计方案的优势。