对使用无人驾驶飞行器(UAV),即无人机,在不同的应用中,如包裹递送、交通监测、搜索和救援行动以及军事战斗交战,有越来越多的需求。在所有这些应用中,无人机被用来自主导航环境--没有人的互动,执行特定的任务和避免障碍。自主的无人机导航通常是通过强化学习(RL)完成的,智能体作为一个领域的专家,在避开障碍物的同时导航环境。了解导航环境和算法限制在选择适当的RL算法以有效解决导航问题中起着至关重要的作用。因此,本研究首先确定了主要的无人机导航任务并讨论了导航框架和仿真软件。接下来,根据环境、算法特点、能力和在不同无人机导航问题中的应用,对RL算法进行了分类和讨论,这将有助于从业人员和研究人员为他们的无人机导航用例选择合适的RL算法。此外,确定的差距和机会将推动无人机导航研究。
自主系统(AS)是能够在没有人类干扰的情况下执行所需任务的系统,如机器人在没有人类参与的情况下执行任务、自动驾驶汽车和无人机送货。自主系统正在侵入不同的领域,以使操作更加有效,并减少人为因素产生的成本和风险。
无人驾驶航空器(UAV)是一种没有人类飞行员的飞机,主要被称为无人机。自主无人机由于其多样化的应用而受到越来越多的关注,如向客户交付包裹、应对交通事故以满足伤员的医疗需求、追踪军事目标、协助搜索和救援行动,以及许多其他应用。
通常情况下,无人机配备有摄像头和其他传感器,可以收集周围环境的信息,使无人机能够自主地导航该环境。无人机导航训练通常是在虚拟的三维环境中进行的,因为无人机的计算资源和电源有限,而且由于坠毁而更换无人机部件可能很昂贵。
不同的强化学习(RL)算法被用来训练无人机自主导航的环境。强化学习可以解决各种问题,在这些问题中,代理人就像该领域的人类专家一样。代理人通过处理环境的状态与环境互动,用行动作出回应,并获得奖励。无人机相机和传感器从环境中捕捉信息,用于表示状态。代理人处理捕捉到的状态并输出一个行动,决定无人机的运动方向或控制螺旋桨的推力,如图1所示。
图1:使用深度强化智能体的无人机训练
研究界对不同的无人机导航问题进行了回顾,如视觉无人机导航[1, 2]、无人机植群[3]和路径规划[4]。然而,据作者所知,目前还没有与RL在无人机导航中的应用有关的调查。因此,本文旨在对各种RL算法在不同无人机自主导航问题上的应用进行全面系统的回顾。这项调查有以下贡献:
本文的其余部分组织如下: 第2节介绍了系统回顾过程,第3节介绍了RL,第4节全面回顾了各种RL算法和技术在无人机自主导航中的应用,第5节讨论了无人机导航框架和仿真软件,第6节对RL算法进行分类并讨论了最突出的算法,第7节解释了RL算法的选择过程,第8节指出了挑战和研究机会。最后,第9节对本文进行了总结。