超参数是控制机器学习算法行为的配置变量。在机器学习和人工智能领域中,超参数无处不在,其值的选择决定了基于这些技术的系统的有效性。手动的超参数搜索往往无法令人满意,并且当超参数数量较多时变得不可行。自动化搜索是实现机器学习自动化的重要一步,使研究人员和实践者无需通过反复试验来寻找理想的超参数组合。在本综述中,我们对超参数优化进行统一阐述,为读者提供当前技术前沿的示例和见解。我们涵盖了自动化超参数搜索的主要技术家族,通常称为超参数优化或调优,包括随机和准随机搜索、强盗算法、基于模型和基于梯度的方法。我们还讨论了扩展内容,包括在线、约束和多目标的公式,触及了与元学习和神经架构搜索等其他领域的联系,并以开放问题和未来研究方向作为总结。
在过去十年中,机器学习已成为推动科学和工业创新的关键动力。人类交互的数字化导致了前所未有的数据规模的生成。由于微电子技术的进步以及云计算的兴起,这些数据能够以更低的成本进行存储。硬件和低功耗芯片设计的进步也导致了计算能力的指数级提升,包括云基础设施(如图形处理单元,GPU)以及边缘设备(如手机)。这两种趋势——更便宜、更强大的存储和计算硬件,为统计机器学习在实际应用中的成功和人工智能中的应用奠定了基础。它使得学习算法能够在大量数据中筛选和提取模式,从而实现数据驱动的决策,减少或限制了人为干预。
机器学习的最新进展最显著的例子之一是 AlphaGo(Silver 等人,2017),这是一个由伦敦公司 DeepMind 的机器学习专家开发的计算机程序。AlphaGo 于 2016 年战胜了围棋世界冠军之一的李世石。这一事件引起了广泛的媒体报道(甚至被改编成电影),因为当时人们认为,至少在未来几十年内,不可能有计算机程序能够在围棋比赛中击败人类。但鲜为人知的是,AlphaGo 的成功在很大程度上依赖于另一个计算机程序自动调整了一组称为超参数的配置参数(Chen 等人,2018)。该计算机程序依赖于贝叶斯优化,这是一种算法,通过预测和评估使用特定超参数时算法(如 AlphaGo)的性能来逐步优化。在一定的成本或时间预算耗尽之前,贝叶斯优化会不断计算探索-利用平衡,以决定基于当前性能观察的下一个最具吸引力的超参数集。
在实际操作中,任何机器学习算法的泛化能力也依赖于超参数。传统的机器学习算法(例如支持向量机,Shawe-Taylor 和 Cristianini,2004)需要手工设计的特征来将原始数据转换为合适的格式,而深度神经网络则通过直接输入原始数据,以“端到端”方式学习(LeCun 等人,2015)。然而,在这两种情况下,模型的组成(例如特征提取器的选择或神经网络架构)和优化算法依赖于某些量,这些量将决定算法在自然语言理解、计算机视觉或语音识别任务中的学习效果。
为了说明精心选择超参数的重要性,我们可以以情感分析问题为例。Yogatama 等人(2015)在此背景下研究了超参数的影响。具体而言,作者将该问题框定为文献中常见的二元分类问题,即分类器的任务是预测文本表达的是消极还是积极情感。他们将简单的随机梯度下降训练的逻辑回归与卷积神经网络进行了比较,后者在发表时达到了最先进的结果。表 1.1a 显示了所搜索的超参数,包括所使用的文本特征(例如,是否移除停用词)、正则化类型(例如,ℓ1 或 ℓ2)以及优化算法参数(例如,收敛容差)。在亚马逊电子数据集上的实验结果在表 1.1b 中再现。有趣的是,他们发现,使用词袋表示文本的调整后逻辑回归与卷积神经网络表现相当,仅略逊于序列卷积神经网络。我们将在下一章中更详细地回到此示例。
因此,超参数在机器学习中起着关键作用,因为它们不仅决定了训练模型的泛化能力,还可能决定了什么才是当前最先进的水平。确实,实证研究中的结果在选择不同的超参数时可能会大相径庭,从而得出不同的结论。不幸的是,发表的结果中常常没有报告用于运行实验的特定超参数,例如为了证明所提出的方法优于先前发表的方法,而这些结果因此难以复现,这就对当前机器学习中所谓的“最先进水平”提出了质疑(Haibe-Kains 等人,2020)。
本专著的主题是超参数优化(HPO)。可用的算法工具来自动化这一任务及其广泛采用将有助于机器学习研究人员以一种原则化的方式处理超参数。更重要的是,这些工具将保证新的研究进展可以复现,从而毫无争议地为该领域作出贡献。随着实验设置的发展,我们认为研究人员需要发布所使用的 HPO 算法、允许消耗的资源量(Dodge 等人,2019)以及所考虑的超参数搜索空间(Gundersen 和 Kjensmo,2018)。我们的目标是提供关于 HPO 的既定技术和最新进展的全面概述。通过这样做,我们希望有助于在研究和工业领域系统性地使用自动化 HPO 算法的实践。