Offline reinforcement learning restricts the learning process to rely only on logged-data without access to an environment. While this enables real-world applications, it also poses unique challenges. One important challenge is dealing with errors caused by the overestimation of values for state-action pairs not well-covered by the training data. Due to bootstrapping, these errors get amplified during training and can lead to divergence, thereby crippling learning. To overcome this challenge, we introduce Regularized Behavior Value Estimation (R-BVE). Unlike most approaches, which use policy improvement during training, R-BVE estimates the value of the behavior policy during training and only performs policy improvement at deployment time. Further, R-BVE uses a ranking regularisation term that favours actions in the dataset that lead to successful outcomes. We provide ample empirical evidence of R-BVE's effectiveness, including state-of-the-art performance on the RL Unplugged ATARI dataset. We also test R-BVE on new datasets, from bsuite and a challenging DeepMind Lab task, and show that R-BVE outperforms other state-of-the-art discrete control offline RL methods.


翻译:离线强化学习限制学习过程只依赖登录数据而不访问环境。 虽然这能够让真实世界应用, 但也带来了独特的挑战。 一个重要的挑战就是处理高估培训数据未充分覆盖的州- 对应方的数值造成的错误。 由于踢球,这些错误在培训期间被放大,可能导致差异,从而削弱学习能力。 为了克服这一挑战, 我们引入了正规化行为价值估计(R- BVE ) 。 与大多数在培训期间使用政策改进的方法不同, R- BVE 在培训期间估计行为政策的价值, 并且只在部署时进行政策改进。 此外, R- BVE 使用一个排序常规化术语, 有利于数据集中的行动, 从而导致成功的结果。 我们为 R- BVE 提供了充分的经验证据, 包括 R- BVE 在 RL 解开的 ATARI 数据集上的最新性表现。 我们还在新的数据集上测试 R- BVVE, 从 blod- Lab 任务到具有挑战性的任务, 显示 R- BVE- 控制系统 超越其他状态。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年4月2日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
专知会员服务
15+阅读 · 2020年7月27日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
已删除
将门创投
6+阅读 · 2019年11月21日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Arxiv
0+阅读 · 2021年5月10日
Arxiv
27+阅读 · 2020年12月24日
VIP会员
相关VIP内容
专知会员服务
25+阅读 · 2021年4月2日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
专知会员服务
15+阅读 · 2020年7月27日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
已删除
将门创投
6+阅读 · 2019年11月21日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Top
微信扫码咨询专知VIP会员