【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

2022 年 9 月 22 日 专知


强化学习(RL)为数据驱动决策提供了一个通用框架。然而,正是这种通用性使得这种方法适用于广泛的问题,也导致了众所周知的效率低下。在这篇论文中,我们考虑了有趣的决策类所共有的不同属性,这些属性可以用来设计计算效率和数据效率都很高的学习算法。具体来说,这项工作研究了决策问题的各个方面的低秩结构和经典确定性规划的效果稀疏性,以及基于端到端模型的方法所依赖的性能。我们首先展示了后继表示中的低秩结构如何使高效在线学习算法的设计成为可能。类似地,我们展示了如何在Bellman算子中找到相同的结构,我们使用Bellman算子来制定最小二乘时间差分学习算法的有效变体。我们进一步探索状态特征中的低秩结构,以学习完全允许在低维空间中进行高效规划的有效转换模型。然后,我们进一步了解基于模型的端到端方法,以便更好地理解它们的属性。我们通过约束优化和隐式微分的视角来研究这类方法。通过隐式视角,我们得到了这些方法的属性,这些属性使我们能够确定它们执行良好的条件。在本文的最后,探索了如何利用经典规划问题的效果的稀疏性来定义一般的领域无关启发式方法,通过使用基于潜在的奖励塑造和提升函数近似,可以用来大大加快领域相关启发式方法的学习。

https://dspace.mit.edu/handle/1721.1/144562


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“C424” 就可以获取【MIT博士论文】非参数因果推理的算法方法,424页pdf》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
1

相关内容

奇异值是矩阵里的概念,一般通过奇异值分解定理求得。设A为m*n阶矩阵,q=min(m,n),A*A的q个非负特征值的算术平方根叫作A的奇异值。奇异值分解是线性代数和矩阵论中一种重要的矩阵分解法,适用于信号处理和统计学等领域。
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
100+阅读 · 2022年9月19日
【MIT博士论文】控制神经语言生成,147页pdf
专知会员服务
22+阅读 · 2022年9月2日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
88+阅读 · 2022年7月11日
【AAAI2022】领域自适应的主动学习:一种基于能量的方法
专知会员服务
44+阅读 · 2021年12月6日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
92+阅读 · 2020年9月28日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
130+阅读 · 2020年8月27日
【MIT博士论文】数据高效强化学习,176页pdf
【MIT博士论文】优化理论与机器学习实践
专知
2+阅读 · 2022年6月30日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
47+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年11月21日
VIP会员
相关VIP内容
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
100+阅读 · 2022年9月19日
【MIT博士论文】控制神经语言生成,147页pdf
专知会员服务
22+阅读 · 2022年9月2日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
88+阅读 · 2022年7月11日
【AAAI2022】领域自适应的主动学习:一种基于能量的方法
专知会员服务
44+阅读 · 2021年12月6日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
92+阅读 · 2020年9月28日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
130+阅读 · 2020年8月27日
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
47+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员