无人机自组织网络(FANET)被广泛应用于军事、应急救灾和环境监测等情况下的网络通信服务,良好 的路由协议能为其在通信条件恶劣场景下的可靠传输提供保障。利用强化学习将路由选择描述为一个马尔可 夫决策过程进行路由决策成为研究热点。为了更进一步地介绍和挖掘基于强化学习的 FANET 路由协议研究现 状,首先介绍近几年来 FANET 传统路由协议上的一些改进;其次,就基于强化学习的 FANET 路由协议研究 的最新调研结果进行详细的介绍;同时,对路由研究算法中的状态、动作和奖励等建模规律进行深度挖掘,从 路由的优化标准和强化学习优化过程等方面进行了比较;最后,根据目前基于强化学习 FANET 路由协议的研 究现状进行总结和展望。
近年来,随着无人机的性能日益提高[1],在应急救灾,目 标识别,中继通信,环境监测等诸多领域,无人机都扮演着 重要的角色。可以相信,随着 5G 技术的大规模应用,在未 来的几年甚至几十年里,将会有更好通信性能及信息处理能 力的无人机出现,无人机集群正是其重要的发展方向之一。无人机集群更能够在有限的空间内避免多架无人机发生碰撞, 集群的无人机会智能分解和协同完成一个整体任务,更好地 完成无人机应用。无人机集群所组成的无人机自组织网络(flying Ad-hoc networks,FANET)是移动自组织网络(mobile Ad-hoc networks, MANET)在无人机领域的扩展应用[2],具有快速搭建,自组织、 部署灵活,成本较低等优点,但也面临着很多的挑战。首先,FANET 面临无人机节点能量有限的挑战,无人机 大部分依赖于锂电池进行供电,一块电池只可持续飞行 30~40 分钟[3]。应该解决节点能量有限问题,保障无人机的能 量损耗,降低网络的路由开销。其次,FANET 节点之间为无 线传输,无人机节点在通信时,可能会产生信号碰撞,噪声 干扰等问题;应该在可传输的条件下,保证传输的质量要求, 避免出现丢包或者数据安全问题。最后,FANET 的网络拓扑 变化十分频繁,所建立的链路稳定性较差[1],这是因为无人 机节点的运动速度较快,每个节点都随时有可能加入或者脱 离网络。如图 1 所示,节点 1 拟发送分组数据给节点 5,根 据图 1(a)所示拓扑结构和传统路由协议算法选择(1-2-3-5)作 为传输路径,而在分组传输时,节点 3、4 和 5 都发生了剧烈的 位置变化,从而形成图 1(b)所示的拓扑结构,那么为了更加有 效的网络路径传输,路由协议就需要快速应对这种变化,例如 形成(1-2-4-5)的新传输路径;所以目标是在网络拓扑发生变化时 能快速的选择出可代替的路由,应对网络拓扑变化频繁。
由此可见,FANET 网络拓扑变化非常频繁,FANET 中 的路由协议需要为网络在动态网络环境中进行数据分组传输 提供可靠保证[4],选择合适的路由协议,避免了许多不必要 数据传输的能量消耗,可以大大的降低网络路由开销,提高 网络性能,延长网络寿命。传统的路由协议在选择路由上的 标准过于单一,并没有全面的考虑路由标准,且由于无人机 节点移动速度较快,传统路由在选择更新路由上显得过于笨 拙,随着人工智能的发展,越来越多的学者使用强化学习来 解决网络拓扑变化频繁的问题,自学习选择更新路由,将在 第三章中会详细地介绍这方面的内容。
因此,近几年来有几篇综述文章对涉及无人机自组织网 络路由的研究进行了讨论。Gupta 等人[5]于阐述了移动自组织 网络和车载自组织网络(vechile Ad-hoc network, VANET)以及 无人机自组织网络的特性,并对其进行了比较,介绍了无人 机自组织网络路由的延迟和中断概念。Maxa 等人[6]回顾了 UAV 网络中的路由协议和安全的挑战,介绍了几种可用于 UAV 动态网络中的,传统路由协议的改进版本。Oubbati[7]对 现有的、非人工智能化的 FANET 路由协议进行了比较,并 仔细分析了它们在不同设计约束和规划策略下的性能。Arafat 等人[8]全面回顾 UAV 网络设计、架构、路由协议、开 放问题和研究挑战;讨论了基于确定性、随机性和社会网络 的非智能化路由协议,并对其主要特征和性能进行了定性比 较。董超等人[9]针对车联网和无人机自组网的网络特性,从 不同的优化目标出发,对其使用的 MAC 协议进行了分析和 归纳。张珉等人[10]介绍了无人机自组网中路由领域的一些最 新研究,重点介绍了最新的 PSOR,并且将该协议和其他大 类的典型路由协议共同对比,分析了性能表现。上述文献对 非人工智能化 FANET 路由协议都进行了描述,但对基于人 工智能的路由协议,特别是利用强化学习优化 FANET 路由 协议的研究还没有深入的讨论。
Rovira[11]除了讨论了 UAV 网络的移动性和网络模型、仿 真工具和公共数据集以及与 UAV 群集的关系,还对 UAV 网 络路由协议进行了介绍,包括传统改进型路由协议、人工智 能路由协议和自适应路由协议等,对这些路由协议进行了参 数的比较。但文章中并没有较全面深入的检视基于强化学习 的路由算法这一重要的 FANET 路由协议研究思路,缺乏对 其具体研究思路的分类,也没有对其状态、动作以及奖励的 设计情况等进行详细描述和分析。Rezwan[12] 较全面地调查 并比较了强化学习在 FANET 下的多种应用,如路由协议、 飞行轨迹选择、中继和充电,但对基于强化学习的路由协议 研究并没有进行全面地回顾和深入地讨论。为了更进一步地介绍和挖掘基于强化学习的 FANET 路 由协议研究现状和研究趋势,本文首先将介绍在 FANET 传 统路由协议上近几年来的一些改进,包括通过改变路由选择 判断依据,从而选择出更稳定更有效的路由进行数据传输;其次,就基于强化学习的 FANET 路由协议研究的最新调研 结果进行介绍,包括深度强化学习对路由协议的改进以及利 用模糊逻辑进行预处理;同时更深入全面地对基于强化学习 的路由协议研究中状态、动作和奖励的建模规律进行挖掘和 分析;最后,对上述综述文献路由协议部分的研究进行补充 和延伸探讨。下面将对近几年的 FANET 路由协议进行汇总,第二章 将介绍无人机自组网中传统路由协议优化的进展,第三章将 详细介绍利用强化学习改进无人机自组织网络的路由协议的 一些尝试,从路由的优化标准和强化学习优化过程等方面进 行比较。最后,讨论了有待解决的问题和研究方向,以使 FANET 在未来军事、日常中的应急救灾等诸多领域中能更加 有效的运用。