分层强化学习是强化学习领域的一个重要分支。基于分而治之的思想,将一个复杂问题分解成多个子问题,最终解决整个问题。近年来,由于传感器能力的提高和人工智能算法的进步,基于分层强化学习的无人机自主导航成为研究热点。本篇文章对国内外发表的具有代表性的文章进行概述,首先分析无人机和分层强化学习的含义,其次重点研究了分层强化学习在无人机轨迹规划和资源分配的优化问题上的应用。 强化学习在无人机领域开始广泛的适用。近年来,无人驾驶飞行器(以下简称无人机)因灵活性高、成本低等优点。在军事和民用领域得到了广泛的应用。包括探查和搜索、环境侦测、救援任务等。当无人机在处理具体问题时,例如传统的无人机导航方法需要通过构建精确的环境或依赖专家经验人为设置规则。或者作为通信中站传统的方法很难解决优化问题。不同于传统的方法,基于强化学习的方法在于它能够通过不断的试错和学习,优化无人机的决策策略,使其能够更好地适应不同的环境和任务。其次,强化学习可以使无人机具备自主学习和适应能力,而无需人工预先编程所有可能的情况和行为。这种自主学习能力使得无人机更灵活、智能,并能够应对未知或复杂的环境。特别是近年来深度强化学习取得了快速发展,利用深度学习强大的感知与拟合能力学习高维环境状态到控制动作之间的映射,从而能够获得更好的策略。
分层强化学习可以解决强化学习中稀疏奖励的问题。强化学习中,在一个复杂的环境中学习一项任务,其中稀疏奖励是一个问题,这对人工智能来说是一个重大挑战,与一般的优化固定结构系统参数的强化学习方法不同,分层强化学习通过优化系统结构来解决稀疏奖励的问题。如果能在多个时空抽象层次上表示所学知识,或者提供确切的奖励信号和及时的反馈,来指导智能体有效地朝着目标学习。在强化学习术语中,这就演变成多目标结构指导的分层学习过程,从而产生了分层强化学习的概念。因此,分层强化学习本质上迎合了稀疏奖励问题,并方便地适应了一类涉及多个任务的问题,这些问题具有良好的定义。和一般的优化固定结构系统参数的强化学习方法不同,分层强化学习通过优化系统结构来提高算法性能。