https://dataspace.princeton.edu/handle/88435/dsp01v979v6238 强化学习在过去几年里获得了极大的兴趣,主要是由于实际成功和在各个领域的新应用。然而,我们对这些强化学习技术的理论理解与其经验上的成功之间仍然存在差距。本文从主要的理论角度研究强化学习,并为1)带约束的强化学习和2)带函数逼近的强化学习这两个具有挑战性的情况设计了可证明有效的算法,从而加深了我们的理解。 1)在标准强化学习中,学习智能体寻求优化整体奖励。然而,期望行为的许多关键方面更自然地表示为约束。提出了一种算法方案,可以处理具有一般凸约束的强化学习任务,改进了之前局限于线性约束或缺乏理论保证的工作。其次,专注于样本高效的探索,开发了第一个可证明有效的表格式偶发约束强化学习算法,具有处理凸约束和背包设置的能力。最后,在无奖励强化学习最新进展的激励下,本文提出了一种简单的元算法,在给定任何无奖励强化学习oracle的情况下,约束强化学习问题可以直接解决,而样本复杂度的开销可以忽略不计。 2)寻找能够支持样本高效学习的最小结构假设是强化学习最重要的研究方向之一。本文通过引入一种新的复杂性度量——bellman Eluder (BE)维度,推进了对这一基本问题的理解。低BE维的强化学习问题家族非常丰富,包含了绝大多数现有的可处理的强化学习问题。本文进一步设计了一个新的基于优化的算法——GOLF,并针对几个著名的低BE维问题子类提供了匹配或改进现有最佳结果的遗憾和样本复杂度结果。为了实现更具挑战性的部分可观察强化学习,研究了部分可观察马尔可夫决策过程(POMDPs)的一个新的子类,其潜状态可以用短长度m的最近历史来解码。结果表明,短期记忆对这些环境中的强化学习足够了。

成为VIP会员查看完整内容
40

相关内容

普林斯顿大学,又译 普林斯敦大学,常被直接称为 普林斯顿,是美国一所私立研究型大学,现为八所常青藤学校之一,绰号为老虎。
【普林斯顿博士论文】智能体和机制的学习算法,201页pdf
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
67+阅读 · 2023年2月23日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
82+阅读 · 2022年7月11日
【布朗大学David Abel博士论文】强化学习抽象理论,297页pdf
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
【MIT博士论文】数据高效强化学习,176页pdf
【MIT博士论文】优化理论与机器学习实践
专知
2+阅读 · 2022年6月30日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
42+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年4月15日
VIP会员
相关基金
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
42+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员