【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习 - 专知VIP

会员服务 ·

28

麻省理工学院 (MIT) · 博士论文 · 奇异值分解 · 强化学习 ·

2022 年 9 月 22 日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习(RL)为数据驱动决策提供了一个通用框架。然而，正是这种通用性使得这种方法适用于广泛的问题，也导致了众所周知的效率低下。在这篇论文中，我们考虑了有趣的决策类所共有的不同属性，这些属性可以用来设计计算效率和数据效率都很高的学习算法。具体来说，这项工作研究了决策问题的各个方面的低秩结构和经典确定性规划的效果稀疏性，以及基于端到端模型的方法所依赖的性能。我们首先展示了后继表示中的低秩结构如何使高效在线学习算法的设计成为可能。类似地，我们展示了如何在Bellman算子中找到相同的结构，我们使用Bellman算子来制定最小二乘时间差分学习算法的有效变体。我们进一步探索状态特征中的低秩结构，以学习完全允许在低维空间中进行高效规划的有效转换模型。然后，我们进一步了解基于模型的端到端方法，以便更好地理解它们的属性。我们通过约束优化和隐式微分的视角来研究这类方法。通过隐式视角，我们得到了这些方法的属性，这些属性使我们能够确定它们执行良好的条件。在本文的最后，探索了如何利用经典规划问题的效果的稀疏性来定义一般的领域无关启发式方法，通过使用基于潜在的奖励塑造和提升函数近似，可以用来大大加快领域相关启发式方法的学习。

https://dspace.mit.edu/handle/1721.1/144562

成为VIP会员查看完整内容

48

相关内容

麻省理工学院 (MIT)

麻省理工学院 (MIT)

麻省理工学院（Massachusetts Institute of Technology，MIT）是美国一所研究型私立大学，位于马萨诸塞州（麻省）的剑桥市。麻省理工学院的自然及工程科学在世界上享有极佳的盛誉，该校的工程系曾连续七届获得美国工科研究生课程冠军，其中以电子工程专业名气最响，紧跟其后的是机械工程。其管理学、经济学、哲学、政治学、语言学也同样优秀。

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知会员服务

104+阅读 · 2022年9月21日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【MIT博士论文】分子图表示学习与生成的药物发现

【MIT博士论文】分子图表示学习与生成的药物发现

专知会员服务

49+阅读 · 2022年6月28日

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

专知会员服务

45+阅读 · 2022年3月6日

【ETH博士论文】贝叶斯深度学习，241页pdf

【ETH博士论文】贝叶斯深度学习，241页pdf

专知会员服务

130+阅读 · 2022年1月16日

【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法

【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法

专知会员服务

24+阅读 · 2022年1月10日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【MIT经典书】统计学习与序列预测，261页pdf

【MIT经典书】统计学习与序列预测，261页pdf

专知会员服务

78+阅读 · 2020年11月17日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

47+阅读 · 2020年10月26日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知

8+阅读 · 2022年9月21日

【MIT博士论文】非参数因果推理的算法方法，424页pdf

【MIT博士论文】非参数因果推理的算法方法，424页pdf

专知

4+阅读 · 2022年9月20日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【MIT博士论文】利用临床和生物医学表征学习的结构和知识，223页pdf

【MIT博士论文】利用临床和生物医学表征学习的结构和知识，223页pdf

专知

1+阅读 · 2022年9月5日

【MIT博士论文】异构医疗数据表示学习，193页pdf

【MIT博士论文】异构医疗数据表示学习，193页pdf

专知

2+阅读 · 2022年9月3日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知

5+阅读 · 2022年7月27日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【ETH博士论文】贝叶斯深度学习，241页pdf

【ETH博士论文】贝叶斯深度学习，241页pdf

专知

9+阅读 · 2022年1月16日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

肝脏磁共振图像分割的可计算变分模型

国家自然科学基金

0+阅读 · 2015年12月31日

近似最优径向基函数插值的理论与算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向简化决策分析的概念格约简方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

医学图像分割的新变分模型及其快速有效的最优化算法

国家自然科学基金

0+阅读 · 2013年12月31日

统计学习理论中的分位数回归和MEE算法

国家自然科学基金

1+阅读 · 2012年12月31日

量子信息中纠缠判定及纠缠度问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

信念的非修正处理方法及其自动推理研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于事件的强化学习及其在群机器人优化控制中的应用

国家自然科学基金

3+阅读 · 2012年12月31日

机器学习核方法模型选择与组合的核矩阵近似分析方法

国家自然科学基金

0+阅读 · 2011年12月31日

M-FUSE: Multi-frame Fusion for Scene Flow Estimation

Arxiv

0+阅读 · 2022年10月28日

Towards Complex Backgrounds: A Unified Difference-Aware Decoder for Binary Segmentation

Arxiv

0+阅读 · 2022年10月27日

Provable Safe Reinforcement Learning with Binary Feedback

Arxiv

0+阅读 · 2022年10月26日

Self-Supervised Learning via Maximum Entropy Coding

Arxiv

13+阅读 · 2022年10月20日

A Wholistic View of Continual Learning with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning

Arxiv

35+阅读 · 2020年9月3日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Embedding Uncertain Knowledge Graphs

Arxiv

12+阅读 · 2019年2月26日

dynnode2vec: Scalable Dynamic Network Embedding

dynnode2vec: Scalable Dynamic Network Embedding

Arxiv

14+阅读 · 2018年12月6日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

VIP会员

相关主题

麻省理工学院 (MIT)

奇异值分解

相关VIP内容

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知会员服务

104+阅读 · 2022年9月21日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【MIT博士论文】分子图表示学习与生成的药物发现

【MIT博士论文】分子图表示学习与生成的药物发现

专知会员服务

49+阅读 · 2022年6月28日

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

专知会员服务

45+阅读 · 2022年3月6日

【ETH博士论文】贝叶斯深度学习，241页pdf

【ETH博士论文】贝叶斯深度学习，241页pdf

专知会员服务

130+阅读 · 2022年1月16日

【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法

【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法

专知会员服务

24+阅读 · 2022年1月10日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【MIT经典书】统计学习与序列预测，261页pdf

【MIT经典书】统计学习与序列预测，261页pdf

专知会员服务

78+阅读 · 2020年11月17日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

47+阅读 · 2020年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知

8+阅读 · 2022年9月21日

【MIT博士论文】非参数因果推理的算法方法，424页pdf

【MIT博士论文】非参数因果推理的算法方法，424页pdf

专知

4+阅读 · 2022年9月20日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【MIT博士论文】利用临床和生物医学表征学习的结构和知识，223页pdf

【MIT博士论文】利用临床和生物医学表征学习的结构和知识，223页pdf

专知

1+阅读 · 2022年9月5日

【MIT博士论文】异构医疗数据表示学习，193页pdf

【MIT博士论文】异构医疗数据表示学习，193页pdf

专知

2+阅读 · 2022年9月3日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知

5+阅读 · 2022年7月27日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【ETH博士论文】贝叶斯深度学习，241页pdf

【ETH博士论文】贝叶斯深度学习，241页pdf

专知

9+阅读 · 2022年1月16日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

相关基金

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

肝脏磁共振图像分割的可计算变分模型

国家自然科学基金

0+阅读 · 2015年12月31日

近似最优径向基函数插值的理论与算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向简化决策分析的概念格约简方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

医学图像分割的新变分模型及其快速有效的最优化算法

国家自然科学基金

0+阅读 · 2013年12月31日

统计学习理论中的分位数回归和MEE算法

国家自然科学基金

1+阅读 · 2012年12月31日

量子信息中纠缠判定及纠缠度问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

信念的非修正处理方法及其自动推理研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于事件的强化学习及其在群机器人优化控制中的应用

国家自然科学基金

3+阅读 · 2012年12月31日

机器学习核方法模型选择与组合的核矩阵近似分析方法

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

M-FUSE: Multi-frame Fusion for Scene Flow Estimation

Arxiv

0+阅读 · 2022年10月28日

Towards Complex Backgrounds: A Unified Difference-Aware Decoder for Binary Segmentation

Arxiv

0+阅读 · 2022年10月27日

Provable Safe Reinforcement Learning with Binary Feedback

Arxiv

0+阅读 · 2022年10月26日

Self-Supervised Learning via Maximum Entropy Coding

Arxiv

13+阅读 · 2022年10月20日

A Wholistic View of Continual Learning with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning

Arxiv

35+阅读 · 2020年9月3日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Embedding Uncertain Knowledge Graphs

Arxiv

12+阅读 · 2019年2月26日

dynnode2vec: Scalable Dynamic Network Embedding

dynnode2vec: Scalable Dynamic Network Embedding

Arxiv

14+阅读 · 2018年12月6日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

微信扫码咨询专知VIP会员