强化学习(RL)为数据驱动决策提供了一个通用框架。然而,正是这种通用性使得这种方法适用于广泛的问题,也导致了众所周知的效率低下。在这篇论文中,我们考虑了有趣的决策类所共有的不同属性,这些属性可以用来设计计算效率和数据效率都很高的学习算法。具体来说,这项工作研究了决策问题的各个方面的低秩结构和经典确定性规划的效果稀疏性,以及基于端到端模型的方法所依赖的性能。我们首先展示了后继表示中的低秩结构如何使高效在线学习算法的设计成为可能。类似地,我们展示了如何在Bellman算子中找到相同的结构,我们使用Bellman算子来制定最小二乘时间差分学习算法的有效变体。我们进一步探索状态特征中的低秩结构,以学习完全允许在低维空间中进行高效规划的有效转换模型。然后,我们进一步了解基于模型的端到端方法,以便更好地理解它们的属性。我们通过约束优化和隐式微分的视角来研究这类方法。通过隐式视角,我们得到了这些方法的属性,这些属性使我们能够确定它们执行良好的条件。在本文的最后,探索了如何利用经典规划问题的效果的稀疏性来定义一般的领域无关启发式方法,通过使用基于潜在的奖励塑造和提升函数近似,可以用来大大加快领域相关启发式方法的学习。

https://dspace.mit.edu/handle/1721.1/144562

成为VIP会员查看完整内容
18

相关内容

麻省理工学院(Massachusetts Institute of Technology,MIT)是美国一所研究型私立大学,位于马萨诸塞州(麻省)的剑桥市。麻省理工学院的自然及工程科学在世界上享有极佳的盛誉,该校的工程系曾连续七届获得美国工科研究生课程冠军,其中以电子工程专业名气最响,紧跟其后的是机械工程。其管理学、经济学、哲学、政治学、语言学也同样优秀。
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
45+阅读 · 7月11日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
45+阅读 · 2021年10月16日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
36+阅读 · 2020年10月26日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
79+阅读 · 2020年8月27日
基于模型的强化学习综述
专知
2+阅读 · 7月13日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
12+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2008年12月31日
Max-Margin Contrastive Learning
Arxiv
15+阅读 · 2021年12月21日
Arxiv
10+阅读 · 2021年11月10日
Arxiv
24+阅读 · 2021年3月8日
Arxiv
94+阅读 · 2020年2月5日
Arxiv
13+阅读 · 2019年11月24日
Arxiv
11+阅读 · 2019年1月16日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
12+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2008年12月31日
相关论文
微信扫码咨询专知VIP会员