The lottery ticket hypothesis questions the role of overparameterization in supervised deep learning. But how does the distributional shift inherent to the reinforcement learning problem affect the performance of winning lottery tickets? In this work, we show that feed-forward networks trained via supervised policy distillation and reinforcement learning can be pruned to the same level of sparsity. Furthermore, we establish the existence of winning tickets for both on- and off-policy methods in a visual navigation and classic control task. Using a set of carefully designed baseline conditions, we find that the majority of the lottery ticket effect in reinforcement learning can be attributed to the identified mask. The resulting masked observation space eliminates redundant information and yields minimal task-relevant representations. The mask identified by iterative magnitude pruning provides an interpretable inductive bias. Its costly generation can be amortized by training dense agents with low-dimensional input and thereby at lower computational cost.


翻译:彩票假设质疑在监督的深层学习中超分法的作用。 但是,强化学习问题所固有的分配变化会如何影响中奖彩票的成绩? 在这项工作中,我们显示通过监管的政策蒸馏和强化学习所培训的进食前进网络可以达到同样的宽度。 此外,我们确定在视觉导航和经典控制任务中存在着双向政策方法的优胜票。使用一套精心设计的基线条件,我们发现在强化学习中,彩票的效果大部分可以归结于已确定的面具。由此形成的蒙面观测空间消除了多余的信息,并产生了最低限度的任务相关表现。通过迭代规模裁剪找出的遮罩提供了可解释性的偏差。其成本高昂的生成可以通过对低维输入的密集剂进行培训,从而降低计算成本来实现。

1
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
69+阅读 · 2020年10月24日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
多任务学习(Multi-task Learning)方法总结
极市平台
6+阅读 · 2020年4月26日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
1+阅读 · 2021年6月30日
Arxiv
0+阅读 · 2021年6月29日
Self-Contrastive Learning
Arxiv
0+阅读 · 2021年6月29日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Learning to Importance Sample in Primary Sample Space
VIP会员
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
多任务学习(Multi-task Learning)方法总结
极市平台
6+阅读 · 2020年4月26日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
相关论文
Arxiv
1+阅读 · 2021年6月30日
Arxiv
0+阅读 · 2021年6月29日
Self-Contrastive Learning
Arxiv
0+阅读 · 2021年6月29日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Learning to Importance Sample in Primary Sample Space
Top
微信扫码咨询专知VIP会员