这个项目的主要目标是为无人驾驶飞行器（UAVs）设计、开发和制作一个自动化和自组织控制框架的原型。通过结合软化和抽象原则、优化和人工智能（AI）成功地实现了目标，能够开发出一个原型，能够理解网络操作者的目标，适应网络参数和功能，以应对不断变化的环境条件并保证高性能。

1 引言

智能无人驾驶飞行器（UAVs）作为提供新功能、扩展无线网络基础设施和使网络更灵活的工具，已经获得了发展势头[1-4]。由于其独特的特点，如快速部署、高机动性、处理能力和缩小的尺寸，无人机是未来众多无线应用的一项有利技术。其中，增加网络覆盖面和为用户提供情境感知的网络服务是显著的例子。

尽管有上述优势，但如何部署能够自适应和自组织的无人机群，以提供可靠、高性能和无处不在的服务并不是一件容易的事。事实上，网络的无线和分布式性质使无人机暴露在干扰、障碍物和不断变化的信道条件下，可能会对网络运行产生负面影响（或者在最坏的情况下完全阻止）。这些挑战在成功取决于无人机、移动终端用户、基站、运营中心等之间无线通信的可靠性和效率的应用中更为重要。在这个项目中，我们通过设计、开发和原型验证SwarmControl，推进了无人机网络群的技术水平，这是一个新的软件定义的无人机群控制框架，其目标是实现网络操作的自动和智能重新配置，以保证高性能并适应不断变化的网络条件。SwarmControl结合了各种优化和数据驱动工具、软件定义无线电（SDR）和分布式网络控制原则，为网络操作者提供了一个统一的网络和飞行控制功能的抽象。有了SwarmControl，操作员可以通过在一个集中的抽象上指定无人机网络的高级控制指令和要求来定义和实施复杂的网络控制问题。SwarmControl（i）构建网络操作员指令的网络控制问题表示；（ii）将其分解为一组分布式子问题；以及（iii）自动生成数据驱动和分布式优化解决方案算法，在各个无人机上执行。

在下文中，我们将详细介绍我们在该项目中所进行的研究活动，具体重点是描述SwarmControl从基于优化的框架[2-4]到数据驱动的框架[3]的演变，强调我们的原型设计工作和相应的实验结果如何帮助我们证明其有效性。

2 方法、假设和程序

这个项目在两个不同的阶段中发展。第一阶段涉及基于模型的优化，其中无人机通过传统的优化工具调整其位置和网络功能[2,4,5]。第二阶段则涉及优化工具被无模型人工智能解决方案所取代的研究活动，其中网络的底层模型是由一组合作代理（即无人机）学习的，它们协调其移动性和网络操作以满足网络操作者的目标[3]。

2.1 第一阶段：基于传统优化的方法

该项目第一阶段开展的研究活动主要是为无人机群开发一个网络操作系统，利用分解和分布式优化理论来实现网络操作者的目标。为此，我们开发了图1所示的系统。

该系统包括两个关键部分：控制框架和无人机可编程协议栈（DPPS）。

2.1.1 控制框架

如图1所示，该组件负责(i)为网络操作者提供控制接口，以指定所需的网络行为；(ii)构建网络操作者指令的数学网络控制问题（NCP）表示；以及(iii)将NCP分解为一组独立的子问题，并将其分配给各个无人机。

控制界面。与网络操作者的互动是通过一个控制界面实现的。通过控制界面上的几个输入字符，网络操作员可以指定所需的网络行为、要实现的网络协议和节点特定的约束。高层指令的例子包括通过最大化网络吞吐量来提高网络性能，通过最小化能源消耗来延长无人机网络寿命，通过指定最小速率约束来确保QoS要求，以及覆盖一个特定的空中空间，等等。控制接口为网络操作者提供了一个无人机网络的抽象，隐藏了低层网络功能和底层网络架构的细节，如无人机的数量以及它们的计算能力和电池水平等。通过SwarmControl，控制无人机网络变得非常简单，只需在预定义的控制模板中进行选择，选择首选的网络协议，并指定单个节点的约束。
网络控制问题的构建。一旦网络控制问题被定义，SwarmControl将网络操作员的指令和要求转化为一组数学表达式，然后将其合并并重新排列成一个NCP。由此产生的NCP是网络操作员通过控制接口定义的高级网络行为的集中表示，它跨越了网络和飞行控制领域，涉及多个节点和协议栈的所有层。
分布式解决方案算法生成。通过网络控制问题构建得到的NCP的跨层性质以及其变量之间的耦合性，使得它很难以分布式方式计算出一个理想的解决方案。为了应对这一挑战，SwarmControl采用了水平和垂直分解理论，将具有跨层和跨节点依赖关系的NCP解耦为一组分布式子问题，每个子问题只涉及一个网络节点和协议栈的一个层。对于所产生的每个子问题，SwarmControl以自动化的方式生成一个分布式数字解决方案算法，然后将其转发给各个无人机，并在网络运行时根据本地网络状态信息执行。
无人机可编程协议栈（DPPS）。如图1所示，DPPS安装在每个单独的无人机上，以分布式和自动化的方式解决从控制框架收到的数值解算法。DPPS跨越了网络协议栈的所有层次，并与飞行控制器固件紧密互动。DPPS为复杂的跨层和跨域网络协议的原型化提供了必要的构件和基元，允许在协议栈的所有层对网络、传感和运动参数进行完全控制。

2.1.2 DPPS的细节

SwarmControl DPPS接收将在各个无人机上执行的分布式数值解算法（如运动解算法、传输率解算法），并在其决策平面上运行，如图2所示。这个平面有一个协议库，包含不同网络协议和运动策略的软件实现（如TCP、Bellman-Ford路由算法），以及运行调度脚本的数学求解器。

决策平面监督分布式优化算法的实时运行，使用最新的网络状态和运动信息作为输入参数（例如，噪音功率、队列状态、与其他无人机的距离）。这些信息从注册平面检索，注册平面也被用来存储计算的数值解决方案。DPPS在运行时根据计算出的数值解配置数据平面中包含的网络和飞行控制操作参数（例如，根据优化的路由表改变当前无人机的位置，根据注入网络的优化应用层速率配置TCP窗口大小）。

该平面实现了一个完全可编程和可重新配置的协议栈，横跨所有网络层和运动层，并通过SDR和飞行控制器驱动器与无线电和运动前端接口，如图2下部所示。

数据平面对无线电前端（由软件定义的无线电和运动前端实现）以及协议栈功能都有完全的控制权；它负责将实际的网络状态和无人机位置信息反馈给注册平面。如图2所示，网络状态信息和计算的数字解决方案都存储在寄存器平面的专用查找表（LUT）中。

每个DPPS层在寄存器平面都有一个专门的网络状态LUT，用于存储所有与层相关的网络状态参数（例如，物理层L1 LUT中的信号干扰加噪声比（SINR）和链路容量；网络层L3 LUT中的邻居集合和它们的距离；运动层L0 LUT中的物理位置和附近的障碍物）。数值解决方案以类似的方式存储在专用的数值解决方案LUT中，每个DPPS层一个（例如，传输层L4 LUT中的TCP窗口大小；网络后期L3 LUT的路由表；物理层L1 LUT的位置）。

2.1.3 SwarmControl第一阶段的原型

对SwarmControl进行评估的第一个挑战是缺乏具有SDR的商用现成无人机平台。为了解决这个问题，我们设计并建立了一个定制的无人机网络节点平台，称为Dron-SDR，将Ettus Research通用软件无线电外围设备（USRP）B205mini-i SDR安装在英特尔航空即兴飞行无人机上，如图3所示。

图3 带有SDR的SwarmControl原型：（左）原型的图片；（右）结构

英特尔Aeros的飞行自主权超过20分钟，轮毂到轮毂的对角线长度为360毫米，基座到顶部的高度为222毫米，具有高度的便携性和可操作性。同样，B205mini-i SDR是市场上最紧凑、最轻、最低功耗的SDR设备。英特尔航空容纳了一块计算板，提供足够的计算能力来运行Ubuntu 16.04和SDR开发框架，如GNU Radio。飞行管理、电机控制和传感器融合在直接连接到计算板的Pixhawk 4飞行控制单元（FCU）上进行。所有FCU的参数和命令（例如，远程控制和传感器读数）都是通过MAVLink路由器的UDP通信来访问。与传统的无人机不同，SwarmControl无人机节点被赋予了一个DPPS运动层（图3中的L0：运动），它承载了基于Pymavlink的控制实现，允许每个节点自主地执行飞行控制操作。

值得指出的是，SwarmControl完全依赖于开源软件。具体来说，DPPS完全由高级脚本语言（即Python）实现，并在原生的Linux操作系统上运行，它与FCU和GNU Radio直接对接。这使得SwarmControl与所有基于MAVLink的可编程无人机接口（如Pymavlink、DroneKit）兼容。图3显示了Dron-SDR原型的概况、其结构和硬件设计。

2.2 第二阶段：无人机系统蜂群中的人工智能

在项目的第一阶段，我们已经展示了SwarmControl如何通过优化理论提升网络性能并利用自动化和分布式控制来适应当前的网络条件。然而，第一代SwarmControl框架依赖于基于模型的优化，当环境过于复杂，无法用一个可行的模型来捕捉时，可能会导致不准确的近似。事实上，基于模型的优化方法的性能往往受到通过凸优化或类似技术解决无人机网络控制问题所需的近似和放松的准确性以及所使用的信道网络模型的准确性的限制。为了应对这些挑战，该项目第二阶段的重点是开发一个新的架构框架，以控制和优化基于无模型的深度强化学习（DRL）的无人机网络。为了克服基于模型的优化的局限性，我们还开发了一个虚拟化的、"即用即飞 "的模拟环境，以生成训练DRL算法所需的大量无线数据痕迹，这些数据在电池供电的无人机网络上是很难生成和收集的。训练环境将项目第一阶段开发的DPPS与CORE/EMANE仿真工具结合起来，对无人机网络进行精确仿真。

2.2.1 用于无人机网络控制的两层架构

我们设计了一个由控制框架和DRL DPPS组成的两层架构。网络运营商使用控制框架来决定分布式无人机网络的预期行为。我们的解决方案自动生成一组DRL代理（即一组神经网络（NN）形式的政策），这些代理在控制框架内的虚拟环境中进行训练。训练完成后，NN配置经过测试并自动分发到各个网络节点，在那里它们将被用来控制DRL DPPS中的网络和运动参数。通过这种方式，各个无人机通过实时优化其网络性能，分布式地实现网络运营商的目标。

通过一次分配NN配置，并在网络的边缘节点执行所需的网络控制政策，这种方法不会受到集中式控制系统所特有的陈旧信息检索和延迟命令的影响。此外，由于使用了可编程的运动和射频前端，拟议的基于NN的政策设想了飞行和无线网络参数的全堆栈和跨层优化。

2.2.2 一个数据驱动的控制方法

新开发的SwarmControl框架通过DRL解决了无人机网络控制问题。我们考虑了一个多智能体的DRL方案，每个无人机都是一个不同的智能体，并在虚拟环境中为特定的飞行任务集体训练复杂的无人机出动。训练完成后，我们测试并向各个无人机分发适合任务的NN配置。这些用于计算网络和运动策略，以通过适应动态网络条件来实现网络运营商的预期网络行为。

与基于模型的优化相比，我们的数据驱动方法解决了不准确的建模表述和优化近似。与优化方法不同，DRL智能体不受优化求解器延迟的影响，可以以O(1)的复杂度推导出策略。

2.2.3 一个 "随时可飞"的虚拟环境

为了收集电池供电的无人机网络的大量性能数据，我们开发了一个极具代表性的仿真虚拟环境。我们重新审视了第一阶段开发的DPPS，并将其与深度强化学习（DRL）的功能相结合，将其称为DRL DPPS。我们将DRL DPPS与CORE/EMANE仿真工具整合在一起，以获得一个高保真的虚拟环境，同时捕捉到运动、无线信道和高层协议栈的互动。我们系统地使用我们的 "可飞行 "虚拟环境来收集大量高保真网络性能数据。最终，这种整合工作产生了一个具有高度代表性的模拟环境，使我们能够扩大学习时间，并以高度的真实性训练我们的DRL智能体。

2.2.4 一个新的基于DRL的DPPS

图4报告了DRL无人机可编程协议栈（DRL DPPS）架构的概况。DRL DPPS用于单个无人机，在协议栈的所有层进行运动和无线操作，也用于控制框架的学习引擎，以训练和测试特定任务目标的NN策略制定。在后者中，物理层和运动操作由虚拟化的CORE/EMANE环境执行，而在前者中，这些操作通过硬件运动和射频前端实现。

通过在控制框架的学习引擎中采用整个DRL DPPS架构（不包括硬件前端），我们获得了一个真实的模拟环境，这是我们高保真性能数据收集和有效的DRL训练的关键。

我们对项目第一阶段开发的DPPS进行了扩展，用新的DRL平面取代了决策平面，但仍保持其架构功能；以跨层的方式一次性优化网络和运动控制参数。具体来说，控制逻辑是通过采用一种叫做Q-learning的DRL变体来实现的，其目的是优化我们试图最大化的目标函数（即网络运营商的目标）的估计值（称为Q函数）。DRL采用的NN是一个深度Q网络（DQN），它使用随机梯度下降法（SGD）来近似Q函数。

2.2.5 AI驱动的无人机群的仿真环境

本项目的主要贡献之一是将DRL DPPS与CORE/EMANE仿真工具相结合。

这项整合工作的目标有两个方面：

开发一个高保真仿真环境，捕捉实时无线信道现象（如路径损耗、延迟传播、干扰）和协议栈各层的网络操作（如分组、分段、重传、流量突发、处理延迟），这些都是很难或很昂贵的模型，只能在仿真中近似地进行；
为研究人员提供一个可重新配置的仿真工具，以设计不同的无人机网络配置和拓扑结构，并大规模地收集高保真无人机网络性能数据。这项工作是对收集电池供电的无人机网络实验性能数据的有效替代，因为后者既费时又费力。

同时，这个仿真工具可以在实验实施前用于测试无人机网络配置。

图5说明了DRL DPPS和CORE/EMANE之间的架构整合。在控制框架的学习引擎中，虚拟训练环境和虚拟测试环境都使用了相同的架构。此外，图6描述了DRL智能体（即嵌入SwarmControl的DRL DPPS的无人机）之间的互动，其中我们展示了多个DRL代理如何与CORE/EMANE中模拟的同一环境进行互动。值得一提的是，尽管每个DRL智能体在一个单独的容器中执行，但它们都通过所有DRL智能体共享的同一个CORE/EMANE容器进行交互。