学会达到目标对于智能代理来说是一个具有高实用性的能力。例如,这包括许多导航任务(“前往目标X”)、机器人操作(“达到机器人手臂的位置Y”)或玩游戏的场景(“通过实现目标Z赢得游戏”)。作为一个与世界互动的生物,我不断地受到各种范围和难度的目标的驱使。强化学习(RL)有望为面向目标的行为提供框架和学习方法。目标可以被建模为必须通过顺序交互和探索未知环境来达到的特定环境配置。尽管已经提出了各种用于目标导向的深度RL算法,但现有的方法往往缺乏原则性的理解、样本效率和通用性能。实际上,即使在有限的状态和行为的基本情境中,也很少有面向目标的RL的理论分析。 我们首先关注一个受监督的面向目标的RL场景,其中作为问题定义的一部分提供了要以最小的总预期成本达到的目标状态。在正式化这种通常被称为随机最短路径(SSP)的在线学习问题后,我们介绍了两个无悔算法(一个是文献中的第一个,另一个达到了近乎最优的保证)。 除了训练我们的RL代理解决一个任务,我们还希望它学会自主解决各种任务,而无需任何奖励监督。在这个具有挑战性的无监督RL场景中,我们提倡“设定你自己的目标”(SYOG),这建议代理学会本能地选择和达到它自己的目标状态。我们在各种设置中为这种流行的启发式方法导出了有限时间的保证,每个设置都有其特定的学习目标和技术挑战。作为一个示例,我们提出了一个严格的分析,该分析的算法原则是针对“不确定”的目标,我们还将其固定在深度RL中。这篇论文的主要焦点和贡献是启发对RL中的目标导向探索进行原则性分析,无论是在受监督还是无监督的场景中。我们希望它能够提出有前景的研究方向,以提高实际应用中面向目标的RL算法的解释性和样本效率。