In addition to the best model architecture and hyperparameters, a full AutoML solution requires selecting appropriate hardware automatically. This can be framed as a multi-objective optimization problem: there is not a single best hardware configuration but a set of optimal ones achieving different trade-offs between cost and runtime. In practice, some choices may be overly costly or take days to train. To lift this burden, we adopt a multi-objective approach that selects and adapts the hardware configuration automatically alongside neural architectures and their hyperparameters. Our method builds on Hyperband and extends it in two ways. First, we replace the stopping rule used in Hyperband by a non-dominated sorting rule to preemptively stop unpromising configurations. Second, we leverage hyperparameter evaluations from related tasks via transfer learning by building a probabilistic estimate of the Pareto front that finds promising configurations more efficiently than random search. We show in extensive NAS and HPO experiments that both ingredients bring significant speed-ups and cost savings, with little to no impact on accuracy. In three benchmarks where hardware is selected in addition to hyperparameters, we obtain runtime and cost reductions of at least 5.8x and 8.8x, respectively. Furthermore, when applying our multi-objective method to the tuning of hyperparameters only, we obtain a 10\% improvement in runtime while maintaining the same accuracy on two popular NAS benchmarks.


翻译:除了最佳模型架构和超参数外,一个完整的自动解剖解决方案要求自动选择适当的硬件。它可以被设计成一个多目标优化问题:没有单一的最佳硬件配置,而是一套最佳的配置,在成本和运行时间之间实现不同的权衡。实际上,一些选择可能费用过高,或者需要花费几天时间来培训。为了减轻这一负担,我们采取了一个多目标方法,在神经结构及其超光谱结构及其超光谱中自动选择和调整硬件配置。我们的方法建立在超光速波段上,并且以两种方式扩展。首先,我们用非主导性排序规则取代超音频带中使用的停用规则,先先行停止不促进配置。第二,我们利用超光谱评价从相关任务中进行转移,方法是对Pareto前方进行预测性估计,发现有希望的配置比随机搜索更有效。我们通过广泛的NAS和HPO实验显示,这两个要素都带来显著的速度和成本节约,对准确性影响不大。在三个基准中,除超光度外,我们选择了超频段排序规则,我们只能使用运行时间和最精确度标准,在10x级标准标准上分别调整。

0
下载
关闭预览

相关内容

在贝叶斯统计中,超参数是先验分布的参数; 该术语用于将它们与所分析的基础系统的模型参数区分开。
专知会员服务
161+阅读 · 2020年1月16日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
3+阅读 · 2017年11月3日
Arxiv
0+阅读 · 2021年8月4日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
7+阅读 · 2021年5月25日
VIP会员
相关VIP内容
专知会员服务
161+阅读 · 2020年1月16日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
3+阅读 · 2017年11月3日
Top
微信扫码咨询专知VIP会员