现代强化学习(RL)方法在各种应用中取得了巨大的成功。然而,由于过度的样本复杂性负担,具有大状态空间和长规划时界的强化学习问题仍然具有挑战性,而我们目前对这类问题的理解相当有限。此外,RL中还有一些经典框架无法解决的重要问题。本文研究了上述问题,以建立对现代RL方法的更好理解。本文主要分为以下三个部分:
**第一部分:具有长期规划时界的RL。**学习为长期时界做计划是强化学习的一个核心挑战,而一个基本问题是了解强化学习的难度如何随着时界的增加而增加。在本文的第一部分中,我们证明了表格式强化学习是可能的,其样本复杂度完全独立于规划周期,因此,长周期强化学习并不比短周期强化学习更难,至少在极大极小意义上是这样。
**第二部分:具有大状态空间的RL。**在现代RL方法中,函数逼近方案被部署来处理大型状态空间。根据经验,将RL算法与神经网络相结合进行特征提取,在各种任务上取得了巨大的成功。然而,这些方法通常需要大量的样本来学习一个好的策略,并且不清楚此类方法是否有基本的统计限制。在本文的第二部分,通过理论分析和实验,研究了允许样本有效强化学习的特征表示能力的充要条件。
**第三部分:其他环境下的强化学习。**经典的强化学习范式旨在最大化智能体获得奖励值时的累积奖励。尽管能够形式化一个庞大的序列决策问题族,但仍有一些重要的应用无法归入经典框架。在本文的第三部分,我们研究了两种新的设置,即无奖励探索设置和具有一般目标函数的规划,它们泛化了经典的框架。