Hyperparameter optimization (HPO) is generally treated as a bi-level optimization problem that involves fitting a (probabilistic) surrogate model to a set of observed hyperparameter responses, e.g. validation loss, and consequently maximizing an acquisition function using a surrogate model to identify good hyperparameter candidates for evaluation. The choice of a surrogate and/or acquisition function can be further improved via knowledge transfer across related tasks. In this paper, we propose a novel transfer learning approach, defined within the context of model-based reinforcement learning, where we represent the surrogate as an ensemble of probabilistic models that allows trajectory sampling. We further propose a new variant of model predictive control which employs a simple look-ahead strategy as a policy that optimizes a sequence of actions, representing hyperparameter candidates to expedite HPO. Our experiments on three meta-datasets comparing to state-of-the-art HPO algorithms including a model-free reinforcement learning approach show that the proposed method can outperform all baselines by exploiting a simple planning-based policy.


翻译:超参数优化(HPO)一般被视为双级优化问题,它涉及将一个(概率)替代模型与一组观察到的超参数反应(例如验证损失)相匹配,从而最大限度地利用一种获取功能,使用一种替代模型确定良好的超参数候选人进行评估。通过跨相关任务的知识转让,替代和(或)获取功能的选择可以进一步改进。在本文件中,我们提议一种新型的转移学习方法,在基于模型的强化学习中加以界定,我们把替代模型作为允许轨迹取样的概率模型的组合。我们进一步提出一个新的模型预测控制变体,采用简单的外观战略作为优化一系列行动的政策,代表超参数候选人加速 HPO。我们在三个元数据集上进行的实验显示,与最新的HPO算法比较,包括一个无模型的强化学习方法,通过利用一个简单的基于规划的政策,可以超越所有基线。

0
下载
关闭预览

相关内容

在贝叶斯统计中,超参数是先验分布的参数; 该术语用于将它们与所分析的基础系统的模型参数区分开。
注意力机制综述
专知会员服务
80+阅读 · 2021年1月26日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
专知会员服务
52+阅读 · 2020年9月7日
Python图像处理,366页pdf,Image Operators Image Processing in Python
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
【经典书】贝叶斯编程,378页pdf,Bayesian Programming
专知会员服务
244+阅读 · 2020年5月18日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年12月6日
Imitation by Predicting Observations
Arxiv
4+阅读 · 2021年7月8日
Arxiv
3+阅读 · 2021年6月9日
Arxiv
7+阅读 · 2021年5月25日
Arxiv
4+阅读 · 2021年4月13日
Arxiv
4+阅读 · 2021年2月8日
Arxiv
3+阅读 · 2018年1月31日
VIP会员
相关VIP内容
注意力机制综述
专知会员服务
80+阅读 · 2021年1月26日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
专知会员服务
52+阅读 · 2020年9月7日
Python图像处理,366页pdf,Image Operators Image Processing in Python
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
【经典书】贝叶斯编程,378页pdf,Bayesian Programming
专知会员服务
244+阅读 · 2020年5月18日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年12月6日
Imitation by Predicting Observations
Arxiv
4+阅读 · 2021年7月8日
Arxiv
3+阅读 · 2021年6月9日
Arxiv
7+阅读 · 2021年5月25日
Arxiv
4+阅读 · 2021年4月13日
Arxiv
4+阅读 · 2021年2月8日
Arxiv
3+阅读 · 2018年1月31日
Top
微信扫码咨询专知VIP会员