Reliant on too many experiments to learn good actions, current Reinforcement Learning (RL) algorithms have limited applicability in real-world settings, which can be too expensive to allow exploration. We propose an algorithm for batch RL, where effective policies are learned using only a fixed offline dataset instead of online interactions with the environment. The limited data in batch RL produces inherent uncertainty in value estimates of states/actions that were insufficiently represented in the training data. This leads to particularly severe extrapolation when our candidate policies diverge from one that generated the data. We propose to mitigate this issue via two straightforward penalties: a policy-constraint to reduce this divergence and a value-constraint that discourages overly optimistic estimates. Over a comprehensive set of 32 continuous-action batch RL benchmarks, our approach compares favorably to state-of-the-art methods, regardless of how the offline data were collected.


翻译:重新运用过多的实验来学习好的行动, 当前的加强学习算法在现实世界环境中的适用性有限, 可能太昂贵, 无法进行勘探。 我们为批量的RL提出一个算法, 因为在批量中只使用固定的离线数据集而不是与环境的在线互动来学习有效的政策。 批量的RL数据在培训数据中代表不足的状态/行动的价值估计方面产生了内在的不确定性。 这导致当我们的候选政策与生成数据的政策不同时特别严重的外推法。 我们提议通过两种直接的惩罚来缓解这一问题: 减少这种差异的政策约束和抑制过分乐观估计的价值约束。 在一套32个连续操作的批量RL基准中,我们的方法与最新的方法相比是有利的,不管离线数据是如何收集的。

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
专知会员服务
44+阅读 · 2020年10月31日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
6+阅读 · 2018年12月10日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
5+阅读 · 2018年4月22日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关VIP内容
专知会员服务
44+阅读 · 2020年10月31日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
5+阅读 · 2020年6月16日
Arxiv
6+阅读 · 2018年12月10日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
5+阅读 · 2018年4月22日
Arxiv
3+阅读 · 2016年2月24日
Top
微信扫码咨询专知VIP会员