价值导向强化学习是一种序列决策方法,通过对未来回报的长远预测来指导决策。本论文旨在理解价值导向方法所面临的问题,并提出算法思想以解决这些问题。论文详细介绍了改进价值导向方法的三个贡献领域。第一个贡献领域扩展了用于固定时域预测的时序差分方法。无论问题设置如何,使用固定时域的回报近似可以避免困扰基于函数近似的离策略时序差分方法的已知稳定性问题。第二个贡献领域提出了一个价值感知的重要性权重框架用于离策略学习,并推导出其最小方差实例。这一方法缓解了基于重要性采样的离策略修正中的方差问题。最后,第三个贡献领域指出在离散时间与连续时间回报之间存在不一致性,当其中一个被视为另一个的近似时,这一差异尤为明显。为此,论文提出了一种修正方法,以更好地对齐这些目标,从而提供了更准确的预测目标。在面对可变时间离散化时,这种方法在底层积分回报方面提高了控制性能。现实世界广袤无垠,因此很难考虑到每一种可能的情况。在机器人等应用中,这种广袤性通常通过构建受控、人工的小世界来管理,从而精简所需考虑的情境空间。克服这一需求,即在具有严格操作条件的小世界中进行设计,是追求创造通用智能系统的重要一步。认识到无法涵盖所有情况,现实世界因此表现出非平稳性,这需要具备从自身的传感器和运动经验流中学习的能力,并适应新情境。强化学习是一个框架,它形式化了代理与环境的交互界面,在该界面中,代理通过评估反馈来学习预测和控制。代理通过持续观察其情境、采取行动并观察行动结果,生成一系列交互经验。观察到的结果中包括一个奖励信号,该信号逐步评估代理的决策,并最终指定代理的目标,即在一段时间内最大化长期累积的奖励。基于价值的方法是一种强化学习方法,它通过预测代理行为的长期后果来指导决策。具体而言,基于价值的代理学习预测每个行动可能带来的期望未来回报,若预测准确,代理可以选择最具前景的行动。时序差分学习是许多基于价值的强化学习方法的核心思想。时序差分方法的特点在于根据观察到的即时结果及其后续预测来调整当前预测。通过信任预测的后续结果,代理无需等待长期结果即可立即从每次决策中学习。基于价值的代理对未来回报的预测可以理解为回答一个行为条件下的预测性问题:给定某种行为方式,从当前起在某个时间范围内预期可以获得多少奖励?一般化价值函数(GVF)框架扩展了这些语义,可用于预测任意感兴趣信号的行为条件下长期累积值。在该框架下,基于价值的代理能够通过其传感器和运动经验流中的反馈,逐步学习任何感兴趣信号的行为依赖长期累积值。值得注意的是,这些预测问题的所有答案都可以并行学习。基于价值的方法在实践中取得了巨大的成功,无论是直接指导行为(Tesauro, 1995;Mnih et al., 2015),还是为较复杂系统的其他组件提供信息(Silver et al., 2016;Wurman et al., 2022)。尽管如此,当使用其他预测来更新预测(自举),试图预测如果采取不同行为会发生什么(离策略学习),以及使用函数逼近时,基于价值的方法可能会出现发散。在这三种因素同时存在的情况下的稳定性问题被称为“致命三角”。该问题在使用线性函数逼近时被广泛研究(Baird, 1995;Scherrer, 2010;Mahmood, 2017;Sutton 和 Barto, 2018),在使用非线性函数逼近时也有一些实证研究(van Hasselt et al., 2018)。为了应对“致命三角”,已提出多种算法(Sutton et al., 2009;Maei, 2011;Baird, 1995;Sutton et al., 2016;Mahmood, 2017),但在高方差和相对较慢的收敛速度方面仍有实际考量(Baird, 1995;Hackman, 2012;Ghiassian et al., 2018;Ni, 2020)。在本论文中,我们旨在从实践问题出发,理解基于价值的方法在序列决策中所面临的挑战以及其在评估性反馈中的应用潜力。在此基础上,我们进一步提出算法思想,以改进或补充现有的基于价值的技术。我们的贡献主要包括以下几个方面: