在过去几年中,无人机群受到了广泛关注,但对对抗性无人机群(即竞争性无人机群对无人机群游戏)的研究则较少。本文研究了团队对团队无人机空战场景中的影响因素,阐明了交战空间中兵力集中和对手分散的影响。具体而言,本文有以下贡献:
1.战术分析: 确定了在小到 2 vs.-2 和大到 10 vs.-10 的交战中,明确协调战术或分散、贪婪战术的优势条件,并研究了这些模式如何随着团队武器质量的变化而变化;
2.协调战术: 介绍并演示了一种深度强化学习框架,该框架使智能体学会利用自身和队友的情境来决定在什么情况下采用哪些预先设定的战术,以及在整个交战过程中与哪些队友(如果有的话)进行协调;在 N 对 N 的交战中,使用在此框架内训练的神经网络的智能体在与采用基线战术的智能体团队的交战中的效能优于基线战术,N 小到 2,大到 64;以及
3.生物启发协调: 通过基于 Monte-Carlo 智能体的模拟发现,不仅要优先集中团队力量对付威胁最大的对手智能体,还要通过部署较小的防御力量和防御高优先级威胁之外的低处罚威胁来保留一些资源,从而最大限度地利用防御团队燃料库中的剩余燃料。
图 3.1: 模拟示例截图,显示两队飞机(蓝、红)进行 WVR 狗斗。
首先在第 2 章中研究了相关文献,然后在第 3 章中探讨了上述隐式和显式协调团队战术、每种战术有效的情况以及武器质量如何影响其性能。然后,在第 4 章中介绍并演示了一种 RL 方案的训练和测试,该方案可根据智能体的情境与其队友的情境成对切换战术。在第 5 章中,演示了多旋翼生物启发防御场景中优势兵力集中的影响。最后,将在第 6 章中讨论这些方法和实验的局限性以及未来可能开展的工作,并在第 7 章中做出总结。