强化学习(RL)为数据驱动决策提供了一个通用框架。然而,正是这种通用性使得这种方法适用于广泛的问题,也导致了众所周知的效率低下。在这篇论文中,我们考虑了有趣的决策类所共有的不同属性,这些属性可以用来设计计算效率和数据效率都很高的学习算法。具体来说,这项工作研究了决策问题的各个方面的低秩结构和经典确定性规划的效果稀疏性,以及基于端到端模型的方法所依赖的性能。我们首先展示了后继表示中的低秩结构如何使高效在线学习算法的设计成为可能。类似地,我们展示了如何在Bellman算子中找到相同的结构,我们使用Bellman算子来制定最小二乘时间差分学习算法的有效变体。我们进一步探索状态特征中的低秩结构,以学习完全允许在低维空间中进行高效规划的有效转换模型。然后,我们进一步了解基于模型的端到端方法,以便更好地理解它们的属性。我们通过约束优化和隐式微分的视角来研究这类方法。通过隐式视角,我们得到了这些方法的属性,这些属性使我们能够确定它们执行良好的条件。在本文的最后,探索了如何利用经典规划问题的效果的稀疏性来定义一般的领域无关启发式方法,通过使用基于潜在的奖励塑造和提升函数近似,可以用来大大加快领域相关启发式方法的学习。

https://dspace.mit.edu/handle/1721.1/144562

成为VIP会员查看完整内容
41

相关内容

麻省理工学院(Massachusetts Institute of Technology,MIT)是美国一所研究型私立大学,位于马萨诸塞州(麻省)的剑桥市。麻省理工学院的自然及工程科学在世界上享有极佳的盛誉,该校的工程系曾连续七届获得美国工科研究生课程冠军,其中以电子工程专业名气最响,紧跟其后的是机械工程。其管理学、经济学、哲学、政治学、语言学也同样优秀。
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
82+阅读 · 2022年7月11日
【MIT博士论文】分子图表示学习与生成的药物发现
专知会员服务
47+阅读 · 2022年6月28日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知会员服务
121+阅读 · 2022年1月16日
【MIT经典书】统计学习与序列预测,261页pdf
专知会员服务
74+阅读 · 2020年11月17日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
43+阅读 · 2020年10月26日
【MIT博士论文】数据高效强化学习,176页pdf
【ETH博士论文】贝叶斯深度学习,241页pdf
专知
9+阅读 · 2022年1月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年10月28日
Arxiv
13+阅读 · 2022年10月20日
Arxiv
12+阅读 · 2019年2月26日
dynnode2vec: Scalable Dynamic Network Embedding
Arxiv
13+阅读 · 2018年12月6日
Arxiv
21+阅读 · 2018年8月30日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员