Reinforcement learning (RL)-based neural architecture search (NAS) generally guarantees better convergence yet suffers from the requirement of huge computational resources compared with gradient-based approaches, due to the rollout bottleneck -- exhaustive training for each sampled generation on proxy tasks. In this paper, we propose a general pipeline to accelerate the convergence of the rollout process as well as the RL process in NAS. It is motivated by the interesting observation that both the architecture and the parameter knowledge can be transferred between different experiments and even different tasks. We first introduce an uncertainty-aware critic (value function) in Proximal Policy Optimization (PPO) to utilize the architecture knowledge in previous experiments, which stabilizes the training process and reduces the searching time by 4 times. Further, an architecture knowledge pool together with a block similarity function is proposed to utilize parameter knowledge and reduces the searching time by 2 times. It is the first to introduce block-level weight sharing in RLbased NAS. The block similarity function guarantees a 100% hitting ratio with strict fairness. Besides, we show that a simply designed off-policy correction factor used in "replay buffer" in RL optimization can further reduce half of the searching time. Experiments on the Mobile Neural Architecture Search (MNAS) search space show the proposed Fast Neural Architecture Search (FNAS) accelerates standard RL-based NAS process by ~10x (e.g. ~256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS), and guarantees better performance on various vision tasks.


翻译:强化学习(RL)基于神经结构的神经结构搜索(NAS)通常能保证更好的趋同,但与基于梯度的方法相比,我们首先需要巨大的计算资源(价值功能),以利用以往实验中的架构知识,从而稳定培训进程,并将搜索时间减少4次。在本文件中,我们提议建立一个总体管道,以加快推出过程以及NAS的RL进程。这是由以下有趣的观察推动的:建筑和参数知识可以在不同的实验甚至不同的任务之间转移。我们首先在Proximal政策优化(PPPO)中引入一个具有不确定性的批评(价值功能),以便利用以往实验中的架构知识,从而稳定培训进程,并将搜索时间减少4次。此外,我们提议建立一个建筑知识库,连同一个块相似功能,以利用参数知识,将搜索时间缩短2次。这是第一个在基于RLPOS的NAS中引入区级加权权共享。 区块相似功能保证了100%的打击率,且严格公平地。此外,我们还表明,在搜索TRIS-S快速搜索GLSSS(S Streal Stregal Streal Stal Stall Stal Sal Sal Sal Sal Sal Sal)中拟议的S)系统快速搜索2L Sal Streal Stal Sal Salimprpral Spral Spral Spral Spral Sal Sal Sal Sal Sal Sal Spral Spral Sal Sal Sal Sal Sal Sal Spral Spral Spral Spral Spral Spral Spral 中所使用的半任务中,可以进一步削减中设计一个设计一个非政策修正要求的反校平面要求的S 。

0
下载
关闭预览

相关内容

【CHI2021】可解释人工智能导论
专知会员服务
119+阅读 · 2021年5月25日
专知会员服务
29+阅读 · 2020年12月14日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
专知会员服务
60+阅读 · 2020年3月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
8+阅读 · 2020年6月15日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员