【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习 - 专知

会员服务 ·

0

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

2022 年 9 月 22 日 专知

强化学习(RL)为数据驱动决策提供了一个通用框架。然而，正是这种通用性使得这种方法适用于广泛的问题，也导致了众所周知的效率低下。在这篇论文中，我们考虑了有趣的决策类所共有的不同属性，这些属性可以用来设计计算效率和数据效率都很高的学习算法。具体来说，这项工作研究了决策问题的各个方面的低秩结构和经典确定性规划的效果稀疏性，以及基于端到端模型的方法所依赖的性能。我们首先展示了后继表示中的低秩结构如何使高效在线学习算法的设计成为可能。类似地，我们展示了如何在Bellman算子中找到相同的结构，我们使用Bellman算子来制定最小二乘时间差分学习算法的有效变体。我们进一步探索状态特征中的低秩结构，以学习完全允许在低维空间中进行高效规划的有效转换模型。然后，我们进一步了解基于模型的端到端方法，以便更好地理解它们的属性。我们通过约束优化和隐式微分的视角来研究这类方法。通过隐式视角，我们得到了这些方法的属性，这些属性使我们能够确定它们执行良好的条件。在本文的最后，探索了如何利用经典规划问题的效果的稀疏性来定义一般的领域无关启发式方法，通过使用基于潜在的奖励塑造和提升函数近似，可以用来大大加快领域相关启发式方法的学习。

https://dspace.mit.edu/handle/1721.1/144562

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“C424” 就可以获取《【MIT博士论文】非参数因果推理的算法方法，424页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

1

相关内容

奇异值

奇异值是矩阵里的概念，一般通过奇异值分解定理求得。设A为m*n阶矩阵，q=min(m,n)，A*A的q个非负特征值的算术平方根叫作A的奇异值。奇异值分解是线性代数和矩阵论中一种重要的矩阵分解法，适用于信号处理和统计学等领域。

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

44+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【MIT博士论文】控制神经语言生成，147页pdf

【MIT博士论文】控制神经语言生成，147页pdf

专知会员服务

22+阅读 · 2022年9月2日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

89+阅读 · 2022年7月11日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

80+阅读 · 2021年5月23日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

12+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【MIT博士论文】控制神经语言生成，147页pdf

【MIT博士论文】控制神经语言生成，147页pdf

专知

1+阅读 · 2022年9月2日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【MIT博士论文】机器学习与因果关系:建立高效、可靠的决策模型，164页pdf

【MIT博士论文】机器学习与因果关系:建立高效、可靠的决策模型，164页pdf

专知

7+阅读 · 2022年7月10日

基于缺失属性值区间型描述的不完备数据聚类方法及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

抽象时滞发展方程周期解的存在性及渐近性态

国家自然科学基金

0+阅读 · 2012年12月31日

基于约束的高维数据聚类

国家自然科学基金

2+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

Transformer Based Multi-Grained Features for Unsupervised Person Re-Identification

Arxiv

0+阅读 · 2022年11月22日

Deep Causal Reasoning for Recommendations

Arxiv

0+阅读 · 2022年11月21日

Structure-Enhanced Deep Reinforcement Learning for Optimal Transmission Scheduling

Arxiv

0+阅读 · 2022年11月20日

Differentiable Reasoning on Large Knowledge Bases and Natural Language

Arxiv

12+阅读 · 2019年12月17日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

VIP会员

相关主题

奇异值分解

相关VIP内容

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

44+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【MIT博士论文】控制神经语言生成，147页pdf

【MIT博士论文】控制神经语言生成，147页pdf

专知会员服务

22+阅读 · 2022年9月2日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

89+阅读 · 2022年7月11日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

80+阅读 · 2021年5月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《北约联合仿真与集成、验证与鉴定服务标准》2025最新40页

《面向协同任务的无人地面车辆与无人机（UGV-UAV）集成研究综述》2025最新综述论文

《理解大语言模型在军事战术任务规划中的局限性》

《国防与安全会议论文集》最新80页

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

12+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【MIT博士论文】控制神经语言生成，147页pdf

【MIT博士论文】控制神经语言生成，147页pdf

专知

1+阅读 · 2022年9月2日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【MIT博士论文】机器学习与因果关系:建立高效、可靠的决策模型，164页pdf

【MIT博士论文】机器学习与因果关系:建立高效、可靠的决策模型，164页pdf

专知

7+阅读 · 2022年7月10日

相关基金

基于缺失属性值区间型描述的不完备数据聚类方法及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

抽象时滞发展方程周期解的存在性及渐近性态

国家自然科学基金

0+阅读 · 2012年12月31日

基于约束的高维数据聚类

国家自然科学基金

2+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

相关论文

Transformer Based Multi-Grained Features for Unsupervised Person Re-Identification

Arxiv

0+阅读 · 2022年11月22日

Deep Causal Reasoning for Recommendations

Arxiv

0+阅读 · 2022年11月21日

Structure-Enhanced Deep Reinforcement Learning for Optimal Transmission Scheduling

Arxiv

0+阅读 · 2022年11月20日

Differentiable Reasoning on Large Knowledge Bases and Natural Language

Arxiv

12+阅读 · 2019年12月17日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

大家都在搜

大型语言模型

蓝牙安全攻防

分布式事务

对话拼多多创始人黄峥

微信扫码咨询专知VIP会员