We introduce ES-ENAS, a simple neural architecture search (NAS) algorithm for the purpose of reinforcement learning (RL) policy design, by combining Evolutionary Strategies (ES) and Efficient NAS (ENAS) in a highly scalable and intuitive way. Our main insight is noticing that ES is already a distributed blackbox algorithm, and thus we may simply insert a model controller from ENAS into the central aggregator in ES and obtain weight sharing properties for free. By doing so, we bridge the gap from NAS research in supervised learning settings to the reinforcement learning scenario through this relatively simple marriage between two different lines of research, and are one of the first to apply controller-based NAS techniques to RL. We demonstrate the utility of our method by training combinatorial neural network architectures for RL problems in continuous control, via edge pruning and weight sharing. We also incorporate a wide variety of popular techniques from modern NAS literature, including multiobjective optimization and varying controller methods, to showcase their promise in the RL field and discuss possible extensions. We achieve >90% network compression for multiple tasks, which may be special interest in mobile robotics with limited storage and computational resources.


翻译:我们引入了ES-ENAS, 这是一种简单的神经结构搜索算法(NAS),目的是加强学习(RL)政策设计,将进化战略(ES)和高效NAS(ENAS)相结合,以高度可伸缩和直观的方式,将进化战略(ES)和高效NAS(ENAS)结合起来。我们的主要洞察力发现ESS已经是一个分散的黑盒算法,因此我们可以简单地将ENAS的模型控制器插入ES-ENAS的中央聚合器,并免费获得权重共享属性。这样,我们就缩小了NAS在受监督的学习环境中的研究与强化学习情景之间的差距,通过两种不同研究线之间的相对简单的结合,将NAS技术应用到RL。我们首先将基于控制器的NAS技术应用到RL。我们的方法的效用在于通过边缘剪裁和重量共享来培训用于持续控制的RL的组合神经网络结构。 我们还将来自现代NAS文学的大量流行技术,包括多目标优化和不同的控制方法,以在RL领域展示其承诺并讨论可能的扩展。我们实现了超过90%的网络对多种任务进行压缩,这可能会成为移动机器人的特别的兴趣。

0
下载
关闭预览

相关内容

《神经架构搜索NAS》最新进展综述
专知会员服务
55+阅读 · 2020年8月12日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
专知会员服务
60+阅读 · 2020年3月19日
专知会员服务
161+阅读 · 2020年1月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
1+阅读 · 2021年3月16日
Arxiv
0+阅读 · 2021年3月15日
Arxiv
6+阅读 · 2020年10月8日
Arxiv
3+阅读 · 2018年10月5日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
12+阅读 · 2018年9月5日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
VIP会员
相关VIP内容
《神经架构搜索NAS》最新进展综述
专知会员服务
55+阅读 · 2020年8月12日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
专知会员服务
60+阅读 · 2020年3月19日
专知会员服务
161+阅读 · 2020年1月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
1+阅读 · 2021年3月16日
Arxiv
0+阅读 · 2021年3月15日
Arxiv
6+阅读 · 2020年10月8日
Arxiv
3+阅读 · 2018年10月5日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
12+阅读 · 2018年9月5日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
Top
微信扫码咨询专知VIP会员