在自主航空系统的动态环境中,无人驾驶飞行器(UAV)的集成引发了模式转变,为协同决策和导航提供了前所未有的机遇和挑战。本文探讨了多智能体强化学习(MARL)在复杂环境下无人飞行器规划和协同中的应用。
论文的第一部分介绍了单智能体强化学习和 MARL。举例说明了 MARL 在反无人机系统(C-UAS)中的应用。将反无人机系统问题表述为多智能体部分可观测马尔可夫决策过程(MAPOMDP),并提出了多智能体部分可观测深度强化学习追击者控制优化(MAGNET),用于训练一组无人机系统的追击者或智能体,以追击和拦截速度更快的无人机系统或逃逸者。在 MAGNET 中,将基于控制障碍函数(CBF)的安全层集成到近端策略优化(PPO)中,以便在训练和测试过程中提供安全保证。此外,还将 DeepSet 网络纳入 MAGNET,以处理智能体观测的时变维度。进行了大量的仿真,结果表明,与基线实现相比,MAGNET 可以维持一个无碰撞的环境,但牺牲了轻微的逃逸者捕获率降低。
论文的第二部分涉及多智能体系统的安全学习方法。为此,探索了高级空中机动性应用中的一个更复杂的场景,即一组自主无人机(UAV)可能需要合作同时到达预定目的地,例如攻击目标或运送重型货物。然而,控制一组无人机同时到达目的地并非易事,因为它们必须满足空间约束条件,这意味着控制算法不仅要避免无人机之间的碰撞,还要避免无人机与非合作飞行物(NCFO)之间的碰撞,而这些飞行物不受控制算法的协调。现有的时间协调控制算法可以实现多无人机系统的同时到达,但无法确保无碰撞。在本例中,提出了一种安全的线性二次优化控制算法,该算法由两大部分组成,即时间协调规划器和安全层,其中时间协调规划器用于推导无人机的加速度,以最小化所有无人机的到达时间与预定终止时间之差,而安全层则应用基于控制障碍函数的解决方案来生成可行的无人机加速度,以确保无碰撞环境。
最后,利用 MARL 框架解决终端时间协调问题,成功实现了无人机同时到达目的地,同时避免与其他无人机和非合作飞行物(NCFO)发生碰撞。