基于强化学习的无人机自组网路由研究综述

无人机自组织网络(FANET)被广泛应用于军事、应急救灾和环境监测等情况下的网络通信服务，良好的路由协议能为其在通信条件恶劣场景下的可靠传输提供保障。利用强化学习将路由选择描述为一个马尔可夫决策过程进行路由决策成为研究热点。为了更进一步地介绍和挖掘基于强化学习的 FANET 路由协议研究现状，首先介绍近几年来 FANET 传统路由协议上的一些改进；其次，就基于强化学习的 FANET 路由协议研究的最新调研结果进行详细的介绍；同时，对路由研究算法中的状态、动作和奖励等建模规律进行深度挖掘，从路由的优化标准和强化学习优化过程等方面进行了比较；最后，根据目前基于强化学习 FANET 路由协议的研究现状进行总结和展望。

近年来，随着无人机的性能日益提高[1]，在应急救灾，目标识别，中继通信，环境监测等诸多领域，无人机都扮演着重要的角色。可以相信，随着 5G 技术的大规模应用，在未来的几年甚至几十年里，将会有更好通信性能及信息处理能力的无人机出现，无人机集群正是其重要的发展方向之一。无人机集群更能够在有限的空间内避免多架无人机发生碰撞，集群的无人机会智能分解和协同完成一个整体任务，更好地完成无人机应用。无人机集群所组成的无人机自组织网络(flying Ad-hoc networks，FANET)是移动自组织网络(mobile Ad-hoc networks， MANET)在无人机领域的扩展应用[2]，具有快速搭建，自组织、部署灵活，成本较低等优点，但也面临着很多的挑战。首先，FANET 面临无人机节点能量有限的挑战，无人机大部分依赖于锂电池进行供电，一块电池只可持续飞行 30~40 分钟[3]。应该解决节点能量有限问题，保障无人机的能量损耗，降低网络的路由开销。其次，FANET 节点之间为无线传输，无人机节点在通信时，可能会产生信号碰撞，噪声干扰等问题；应该在可传输的条件下，保证传输的质量要求，避免出现丢包或者数据安全问题。最后，FANET 的网络拓扑变化十分频繁，所建立的链路稳定性较差[1]，这是因为无人机节点的运动速度较快，每个节点都随时有可能加入或者脱离网络。如图 1 所示，节点 1 拟发送分组数据给节点 5，根据图 1(a)所示拓扑结构和传统路由协议算法选择(1-2-3-5)作为传输路径，而在分组传输时，节点 3、4 和 5 都发生了剧烈的位置变化，从而形成图 1(b)所示的拓扑结构，那么为了更加有效的网络路径传输，路由协议就需要快速应对这种变化，例如形成(1-2-4-5)的新传输路径；所以目标是在网络拓扑发生变化时能快速的选择出可代替的路由，应对网络拓扑变化频繁。

由此可见，FANET 网络拓扑变化非常频繁，FANET 中的路由协议需要为网络在动态网络环境中进行数据分组传输提供可靠保证[4]，选择合适的路由协议，避免了许多不必要数据传输的能量消耗，可以大大的降低网络路由开销，提高网络性能，延长网络寿命。传统的路由协议在选择路由上的标准过于单一，并没有全面的考虑路由标准，且由于无人机节点移动速度较快，传统路由在选择更新路由上显得过于笨拙，随着人工智能的发展，越来越多的学者使用强化学习来解决网络拓扑变化频繁的问题，自学习选择更新路由，将在第三章中会详细地介绍这方面的内容。

因此，近几年来有几篇综述文章对涉及无人机自组织网络路由的研究进行了讨论。Gupta 等人[5]于阐述了移动自组织网络和车载自组织网络(vechile Ad-hoc network, VANET)以及无人机自组织网络的特性，并对其进行了比较，介绍了无人机自组织网络路由的延迟和中断概念。Maxa 等人[6]回顾了 UAV 网络中的路由协议和安全的挑战，介绍了几种可用于 UAV 动态网络中的，传统路由协议的改进版本。Oubbati[7]对现有的、非人工智能化的 FANET 路由协议进行了比较，并仔细分析了它们在不同设计约束和规划策略下的性能。Arafat 等人[8]全面回顾 UAV 网络设计、架构、路由协议、开放问题和研究挑战；讨论了基于确定性、随机性和社会网络的非智能化路由协议，并对其主要特征和性能进行了定性比较。董超等人[9]针对车联网和无人机自组网的网络特性，从不同的优化目标出发，对其使用的 MAC 协议进行了分析和归纳。张珉等人[10]介绍了无人机自组网中路由领域的一些最新研究，重点介绍了最新的 PSOR，并且将该协议和其他大类的典型路由协议共同对比，分析了性能表现。上述文献对非人工智能化 FANET 路由协议都进行了描述，但对基于人工智能的路由协议，特别是利用强化学习优化 FANET 路由协议的研究还没有深入的讨论。

Rovira[11]除了讨论了 UAV 网络的移动性和网络模型、仿真工具和公共数据集以及与 UAV 群集的关系，还对 UAV 网络路由协议进行了介绍，包括传统改进型路由协议、人工智能路由协议和自适应路由协议等，对这些路由协议进行了参数的比较。但文章中并没有较全面深入的检视基于强化学习的路由算法这一重要的 FANET 路由协议研究思路，缺乏对其具体研究思路的分类，也没有对其状态、动作以及奖励的设计情况等进行详细描述和分析。Rezwan[12] 较全面地调查并比较了强化学习在 FANET 下的多种应用，如路由协议、飞行轨迹选择、中继和充电，但对基于强化学习的路由协议研究并没有进行全面地回顾和深入地讨论。为了更进一步地介绍和挖掘基于强化学习的 FANET 路由协议研究现状和研究趋势，本文首先将介绍在 FANET 传统路由协议上近几年来的一些改进，包括通过改变路由选择判断依据，从而选择出更稳定更有效的路由进行数据传输；其次，就基于强化学习的 FANET 路由协议研究的最新调研结果进行介绍，包括深度强化学习对路由协议的改进以及利用模糊逻辑进行预处理；同时更深入全面地对基于强化学习的路由协议研究中状态、动作和奖励的建模规律进行挖掘和分析；最后，对上述综述文献路由协议部分的研究进行补充和延伸探讨。下面将对近几年的 FANET 路由协议进行汇总，第二章将介绍无人机自组网中传统路由协议优化的进展，第三章将详细介绍利用强化学习改进无人机自组织网络的路由协议的一些尝试，从路由的优化标准和强化学习优化过程等方面进行比较。最后，讨论了有待解决的问题和研究方向，以使 FANET 在未来军事、日常中的应急救灾等诸多领域中能更加有效的运用。