https://dataspace.princeton.edu/handle/88435/dsp01v979v6238 强化学习在过去几年里获得了极大的兴趣,主要是由于实际成功和在各个领域的新应用。然而,我们对这些强化学习技术的理论理解与其经验上的成功之间仍然存在差距。本文从主要的理论角度研究强化学习,并为1)带约束的强化学习和2)带函数逼近的强化学习这两个具有挑战性的情况设计了可证明有效的算法,从而加深了我们的理解。 1)在标准强化学习中,学习智能体寻求优化整体奖励。然而,期望行为的许多关键方面更自然地表示为约束。提出了一种算法方案,可以处理具有一般凸约束的强化学习任务,改进了之前局限于线性约束或缺乏理论保证的工作。其次,专注于样本高效的探索,开发了第一个可证明有效的表格式偶发约束强化学习算法,具有处理凸约束和背包设置的能力。最后,在无奖励强化学习最新进展的激励下,本文提出了一种简单的元算法,在给定任何无奖励强化学习oracle的情况下,约束强化学习问题可以直接解决,而样本复杂度的开销可以忽略不计。 2)寻找能够支持样本高效学习的最小结构假设是强化学习最重要的研究方向之一。本文通过引入一种新的复杂性度量——bellman Eluder (BE)维度,推进了对这一基本问题的理解。低BE维的强化学习问题家族非常丰富,包含了绝大多数现有的可处理的强化学习问题。本文进一步设计了一个新的基于优化的算法——GOLF,并针对几个著名的低BE维问题子类提供了匹配或改进现有最佳结果的遗憾和样本复杂度结果。为了实现更具挑战性的部分可观察强化学习,研究了部分可观察马尔可夫决策过程(POMDPs)的一个新的子类,其潜状态可以用短长度m的最近历史来解码。结果表明,短期记忆对这些环境中的强化学习足够了。