【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

2022 年 11 月 23 日 专知

低成本、小型机器人平台的广泛使用，催生了机器人群。在机器人群中，大量的小型机器人平台共同运作，协作完成一项复杂的任务。在所有有用的应用中，机器人群技术也可能对安全关键领域构成威胁。在机场、军事基地、政府设施等安全关键区域周围出现敌对的机器人群，意图收集关键信息，或对该区域进行物理破坏，可能会造成灾难性的后果。在这篇论文中，我们考虑了一个多智能体的区域防御游戏，它由以下部分组成：1）一队或一群自主的、敌对的机器人平台（称为攻击者），旨在到达一个安全关键区域，2）一队自主的机器人平台（称为防御者），旨在阻止攻击者到达安全关键区域，从而防止攻击者可能造成的任何损害。我们考虑两种类型的攻击者：i）风险规避型，即关心自己生存的攻击者；ii）风险承担型，即不一定关心自己的生存，试图到达安全关键区域的攻击者。我们为防御者团队提供协作任务分配和运动规划算法，这样他们就可以防止因安全关键区域附近存在规避风险和承担风险的攻击者而可能造成的损害。

首先，我们开发了一种叫做 "StringNet Herding"的放牧算法，让防卫者将规避风险的攻击者赶到一个预先指定的安全区域，在一个障碍物密集的环境中远离安全关键区域。我们假设规避风险的攻击者通过远离防御者和环境中的其他静态和动态智能体来避免对自己的伤害。在 "StringNet Herding "方法中，"规避风险的攻击者 "被围在由防御者形成的封闭的障碍物队列中，称为 "StringNet"，这样，攻击者的运动被限制在 "StringNet "的内部，攻击者可以被安全地赶到安全区域。开发了一个开环时间最优和状态反馈有限时间控制法的组合，为防御者在障碍物密集的环境中成功进行 "StringNet Herding"提供了一个策略。StringNet Herding通过模拟以及使用内部制造的四旋翼飞行器的实验演示得到了证明。然后，"StringNet Herding "方法被扩展到对抗性蜂群可能分裂成多个小蜂群的情况。对于多群的情况，使用基于密度的空间聚类算法（DBSCAN）来识别空间上呆在一起的攻击者群（或集群）。然后，提供一个混合整数二次约束规划（MIQCP）和一个基于几何学的启发式方法，将防御者分成较小的团队，并将这些团队分配到攻击者群中去。StringNet Herding方法也被扩展到三维环境。

第二，为防御者开发了一种防御者之间的碰撞感知拦截策略（IDCAIS），以尽可能快地拦截尽可能多的冒险攻击者，同时确保防御者之间不发生碰撞。特别是，防卫者被分配到使用混合整数二次规划（MIQP）拦截攻击者，该规划：1）在时间最优控制下，最小化防御者捕获攻击者的时间总和；2）有助于消除或推迟防御者之间在最优轨迹上可能发生的碰撞。为了防止在最优轨迹上不可避免的碰撞，或由于攻击者的时间次优行为而产生的碰撞，为每个防御者提供了一个使用指数控制障碍函数（ECBF）的最小增强控制。

最后，我们为防御者提供了一个综合战略，以防御安全关键区域的风险规避者和冒险攻击者的各种行为。我们通过在一个协作框架内将针对规避风险的攻击者的 "StringNet Herding "策略和针对承担风险的攻击者的碰撞感知拦截策略IDCAIS结合起来，来制定这一策略。使用混合整数规划（MIPs）和几何启发式方法开发了几种算法，以分组和分配防御者团队或单个防御者，来驱赶规避风险的攻击者群，或拦截冒险的攻击者，以应对攻击者的行为，如分裂成更小的群来躲避防御者，或由一些冒险的攻击者进行高速机动以最大化对保护区域的破坏。我们提供了这些MIPs和几何启发式启发法的计算成本的理论和数值比较。

研究动机

由于最近的技术进步，自主系统（地面、海洋或空中）正变得无处不在。例如，根据美联邦航空管理局的网站，截至2021年，美利坚合众国（USA）有超过86万架无人机注册[1]。低成本技术已经催生了机器人（或机器人）群[2,3]。在机器人群中，大量的机器人车辆被一起使用，利用彼此间的局部互动，协作完成复杂的任务。这种协作可以提供：1）对系统部件故障的鲁棒性，2）适应性，以及3）可扩展性。特别是，地面、海洋或空中机器人群正在被部署以完成：搜索和救援任务[4]，[5]；灾害管理[6-8]；农业[9，10]和海洋[11]环境中的监测和测绘；空中包裹投递[12]；以及合作运输[13-15]等。机器人群的大量应用清单可以在评论文章[16]中找到。

图1.1 集群机器人的应用

这类应用需要集群中各个智能体之间的合作，因此需要开发协作性任务分配、运动规划和控制算法，以实现手头的应用目标。一些智能体因故障而不合作，或因外部实体而不合作，对上述目标构成了进一步的挑战。

然而，在机场、政府和军事设施等安全关键基础设施附近出现成群的对抗性智能体（攻击者），旨在造成物理破坏或收集关键信息，可能导致灾难性的后果。例如，媒体上有关于蜂群攻击军事基地的新闻[19-21]。在本论文中，我们考虑两种类型的对抗性智能体（攻击者）：1）规避风险的（自利的）攻击者，或2）承担风险的攻击者。规避风险的攻击者是指那些不一定想为手头的任务冒生命危险的攻击者。因此，我们假设规避风险的攻击者更可能试图避免与其他静态或动态智能体的碰撞，以避免对自己造成任何损害。我们还假设，规避风险的攻击者可能更有兴趣通过在安全关键区域（保护区）周围闲逛来收集关键信息，而不是打算对保护区进行物理破坏。另一方面，承担风险的攻击者被认为与他们的任务相比，他们对自己的生存有较低的优先权。这样的攻击者可能对物理上破坏保护区感兴趣。攻击者的风险规避程度可能有所不同。此外，攻击者可能1）相互合作，作为一个蜂群集合在一起，或者2）相互之间不合作。攻击者的各种可能的行为以及它们的后果，要求仔细设计防御团队的协作任务分配、运动规划和控制算法，以保护安全关键的基础设施免受攻击团队的影响。

保护安全关键区域不受冒险攻击者影响的一个可能机制是拦截或捕获这些攻击者（见图1.2a的一个例子）。研究表明，防卫者（防卫者）有各种拦截或捕获策略来抵御冒险攻击者。例如，在多智能体到达-规避游戏中使用的HamiltonJacobi-Isaacs方法[22, 23]，拦截多个流氓智能体的Voronoibased分区方法[24]，拦截或捕获攻击者的最优控制技术[25-32]。然而，在这些方法中，防御者之间的合作并不考虑他们自己的安全，以试图拦截或捕获冒险的攻击者。此外，在城市环境中的低空，由于人类和其他脆弱实体或基础设施的存在，通过物理拦截或捕获的手段来对抗规避风险的攻击者群，如[23-32]中研究的那样，可能并不可取。在这种情况下，受动物放牧的启发（见图1.2b），可以作为一种间接的方式，将攻击者引导到一些安全区域。这样，攻击者将被安全地带离保护区，从而减少他们对保护区的威胁。一旦被带到安全区域，这些攻击者可以被摧毁，或者被重新配置，用于其他一些有用的任务。在文献中，有一些研究放牧问题的作品。例如，使用n-wavefront算法将鸟群赶出机场[33]，通过利用牧群和牧民之间基于几何的互动，使用机器人牧民控制非合作的牧群[34]，使用受海豚启发的包围技术限制一组智能体[35]，使用势能函数通过笼子进行牧群[36]。然而，这些方法大多没有考虑到被自主智能体放牧的智能体对抗性[34-36]，而有些方法没有考虑到要保护的环境中存在的安全关键区域。

图1.2 针对对手的防御机制

在这篇论文中，我们研究的问题是设计：1）一个协作决策框架，以形成防卫者的分队，并将其分配给攻击者；2）防卫者的协作运动规划算法，以应对攻击者（对手）的蜂群攻击，表现出规避风险和承担风险的行为。防御者的目标是防止对抗性攻击者的不同行为可能造成的损害。在这篇论文中，我们开发了两个任务分配和运动规划框架，以便防御者解决规避风险的攻击者（在第一个框架中）和承担风险的攻击者（在第二个框架中）。这两个框架解决了现有蜂群防御方法的一些主要缺点，如。1）简单的运动模型，如单积分器动力学；2）强烈依赖特定的势场数学形式来模拟攻击者的排斥运动；3）防御者之间缺乏合作，以避免它们之间的碰撞；4）缺乏对环境中障碍物的考虑。然后，这两个框架被结合在一起，为防御者团队提供一个系统的、协作的防御策略，以应对攻击者的各种行为。

贡献与提纲

在这篇论文中，研究了为防御者团队设计任务分配和运动规划算法的问题，以应对风险规避者和风险承担者的蜂群攻击。本论文的章节大纲和本论文对解决上述问题的具体贡献列举如下。

在第2章中，开发了一种被称为 "StringNet Herding "的放牧方法，即在规避风险的攻击者群周围形成一个被称为 "StringNet "的封闭防御队形（见图1.5），使其运动被限制在StringNet的内部，然后将对抗者群放牧到一个安全区域，以保护障碍物密集环境中的一个保护区。与早期的文献相比，本章的贡献在于。i) 一种运动规划策略，该策略结合了近乎时间最优的运动规划和状态反馈，在阻尼双积分器动力学下运动的防御者的有限时间收敛、有界控制律，以完成对攻击者的驱赶，同时避开凸形多边形障碍物，该策略的实验证明，以及对设计的控制律的收敛时间的明确保证。ii）一组条件，在这些条件下，防御者能够在攻击者到达聚集地点之前，聚集在即将到来的攻击者通往保护区的最短路径上，然后将所有攻击者赶到安全区域。本章的结果是基于[99，100]中的工作。

图1.5：StringNet：攻击者群周围形成的封闭式障碍物B的队形（红色的圆圈表示攻击者，深绿色的圆圈表示防御者，连接这些防御者的白色虚线表示防御者之间的障碍物（字符串），蓝色的圆圈表示在防御者完全包围攻击者之前，防御者形成的开放性障碍物）

在第3章中，第2章开发的 "StringNet Herding"方法被扩展到这样的场景：攻击者的蜂群可能会分裂成更小的蜂群，以应对防卫者的到来。特别是，使用混合整数规划（MIP）开发了集中和分散的合作算法，以分组和分配防御者将识别的不同攻击者群赶到最近的安全区域。还开发了一种受几何学启发的启发式算法，以获得对MIPs的次优但更快的分配方案。本章的结果是基于[101, 102]的工作。
在第4章中，为一组防守者开发了一种防守者之间的碰撞感知拦截策略（IDCAIS），以尽快拦截尽可能多的冒险攻击者，同时确保防守者之间不发生碰撞。特别是，首先解决了防守者和攻击者之间的非零和博弈，以获得一个时间最优的防御策略，所有的防守者和攻击者对。然后开发一个混合整数二次规划（MIQP）来寻找碰撞感知的防御者-攻击者分配（CADAA），以便尽可能多地和尽可能快地捕获攻击者，同时防止或推迟防御者之间的碰撞。本章的结果目前正在审查中[103]。
在第5章中，第2-3章开发的 "StringNet Herding"策略和第4章开发的碰撞感知拦截策略IDCAIS被结合在一起，以同时处理规避风险和冒险的攻击者。特别是，使用MIPs和基于几何学的启发式方法开发了几种算法，以分组和分配防御者团队或单个防御者来驱赶风险规避型攻击者群，或拦截风险规避型攻击者，以应对攻击者分裂成更小的群组来躲避防御者或一些风险规避型攻击者的高速机动以最大限度地破坏保护区域。本章的结果目前正在审查中[104]。
在第6章中，"StringNet Herding"策略被扩展到三维环境中。特别是，为'StringNet Herding'策略的不同阶段设计了三种三维防御队形，对第2章中设计的控制法则进行了适当的修改以适应三维环境，然后提供了玩家初始状态的条件，在这些条件下，保证防御者在攻击者到达保护区前聚集在攻击者最短路径上的某个位置。本章的结果是基于我们在[105]的合作工作。

最后，在第7章中提供了论文的结论和未来的研究方向。

本论文中开发的任务分配和运动规划算法是考虑应用于蜂群防御问题的（如前面第1.2节开头所讨论的），然而，这些算法，无论是原样还是修改后的形式，也适用于其他场景。例如，第6章中开发的 "3D StringNet Herding "算法可用于解决[75]中研究的机器人放牧问题，该问题涉及将一群鸟从机场放牧到离机场足够远的安全区域，这样鸟群就不会再对经过机场的航班造成任何危险。

如果我们不考虑问题中的对抗性攻击者和保护区，那么这个问题可以被建模为一个协作载荷运输问题，即一队机器人围绕着最初位于已知位置的载荷（如快递包裹、紧急药品或救援任务中的人）形成所需的队形，然后将载荷运送到障碍物密集环境中的所需位置（安全区域）。在第二章介绍的 "StringNet Herding"方法中，只考虑聚集和放牧阶段，通过在聚集阶段结束时适当地改变所需的队形，就可以实现这种协作式的负载运输。

如果我们用动物代替对抗性攻击者，那么这个问题就可以被建模为使用自主机器人的动物放养问题。第2章中开发的 "StringNet Herding"算法可以用来控制防御者（自主机器人），以便将动物赶到障碍物密集环境中的一个特定区域。

如果我们把敌对的攻击者换成紧急情况下的人群（如火灾、自然灾害），那么这个问题可以被建模为使用自主机器人在紧急情况下的人群控制问题，自主机器人的任务是引导人类人群安全地到达一个没有任何危险的指定区域。第2章中开发的 "StringNet Herding"算法可用于控制自主机器人（防卫者），以便通过在 "StringNet Herding"方法的每个阶段适当地改变所需的队形，引导（放牧）人类人群到障碍物密集环境的指定区域。