Many of the challenges facing today's reinforcement learning (RL) algorithms, such as robustness, generalization, transfer, and computational efficiency are closely related to compression. Prior work has convincingly argued why minimizing information is useful in the supervised learning setting, but standard RL algorithms lack an explicit mechanism for compression. The RL setting is unique because (1) its sequential nature allows an agent to use past information to avoid looking at future observations and (2) the agent can optimize its behavior to prefer states where decision making requires few bits. We take advantage of these properties to propose a method (RPC) for learning simple policies. This method brings together ideas from information bottlenecks, model-based RL, and bits-back coding into a simple and theoretically-justified algorithm. Our method jointly optimizes a latent-space model and policy to be self-consistent, such that the policy avoids states where the model is inaccurate. We demonstrate that our method achieves much tighter compression than prior methods, achieving up to 5x higher reward than a standard information bottleneck. We also demonstrate that our method learns policies that are more robust and generalize better to new tasks.


翻译:今天强化学习(RL)算法面临的许多挑战,例如稳健性、一般化、转移和计算效率等,都与压缩密切相关。先前的工作令人信服地论证了为什么信息最小化在受监督的学习环境中是有用的,但标准的RL算法缺乏明确的压缩机制。 RL设置是独特的,因为:(1) 其相继性质允许代理人使用过去的信息来避免未来观察,(2) 代理人可以优化其行为,而选择决策需要很少比分的国家。我们利用这些属性提出一种学习简单政策的方法(RPC)。 这种方法将信息瓶颈、基于模型的RL和回位编码集成一个简单和理论上合理的算法。 我们的方法共同优化了潜空模型和政策的自我一致性,从而避免了模型的不准确性。 我们证明,我们的方法比先前的方法更严格得多,比标准的信息瓶颈高5x的报酬。 我们还表明,我们的方法学习的政策比新任务更稳健、更概括。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
88+阅读 · 2021年6月29日
专知会员服务
14+阅读 · 2021年5月21日
【2021新书】编码艺术,Coding Art,284页pdf
专知会员服务
74+阅读 · 2021年1月10日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
6+阅读 · 2018年12月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年10月28日
Arxiv
4+阅读 · 2021年10月19日
Arxiv
8+阅读 · 2021年5月21日
VIP会员
相关VIP内容
专知会员服务
88+阅读 · 2021年6月29日
专知会员服务
14+阅读 · 2021年5月21日
【2021新书】编码艺术,Coding Art,284页pdf
专知会员服务
74+阅读 · 2021年1月10日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
6+阅读 · 2018年12月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员