【开放书】《自动化机器学习：方法，系统与挑战》，附223页pdf下载

【导读】这本书对自动化机器学习（AutoML）的一般化方法进行了全面的阐述，并且收集了以这些方法为基础的系统的描述和一系列关于自动化机器学习系统领域的挑战。最近，机器学习在商业领域取得的成就和该领域的快速增长对机器学习产生了大量的需求，尤其是可以很容易地使用，并且不需要专家知识的机器学习方法。然而，当前许多表现优异的机器学习方法的大多都依赖人类专家去手动选择适当的机器学习架构以及模型的超参数（深度学习架构或者更加传统的机器学习方法）。为了克服这个问题，AutoML基于优化原理和机器学习本身去逐步实现机器学习的自动化。这本书可以为为研究人员和高年级学生提供一个进入这个快速发展的领域的切入点，同时也为打算在工作中使用AutoML的从业者提供参考。

第一部分自动机器学习方法

每个机器学习系统都有超参数，而自动化机器学习最基本的任务就是自动设置这些超参数来优化性能。尤其是最近的深度神经网络严重依赖对于神经网络的结构、正则化和优化等超参数的选择。自动优化超参数(HPO)有几个重要的用例：

减少机器学习应用过程中所需的人力。这在自动化机器学习（AutoML）的上下文中尤其重要。
提高机器学习算法的性能(根据实际问题调整算法);这已经在一些研究中对重要的机器学习基准方法产生了效果。
提高科学研究的再现性和公平性。自动化的HPO显然比手工搜索更具可重复性。它使得不同的方法可以公平的比较，因为不同的方法只有在它们在相同级别的问题上调优时才能公平地进行比较。

第二部分自动化机器学习系统

越来越多的非领域专家开始学习使用机器学习工具，他们需要非独立的解决方案。机器学习社区通过开源代码为这些用户提供了大量复杂的学习算法和特征选择方法，比如WEKA和mlr。这些开源包需要使用者做出两种选择：选择一种学习算法，并通过设置超参数对其进行定制。然而想要一次性做出正确的选择是非常具有挑战性的，这使得许多用户不得不通过算法的声誉或直觉来进行选择，并将超参数设置为默认值。当然，采用这种方法所获得的性能要比最佳方法进行超参数设置差得多。

第三部分自动化机器学习面临的挑战

直到十年之前，机器学习还是一门鲜为人知的学科。对于机器学习领域的科学家们来说，这是一个“卖方市场”:他们研究产出了大量的算法，并不断地寻找新的有趣的数据集。大的互联网公司积累了大量的数据，如谷歌，Facebook，微软和亚马逊已经上线了基于机器学习的应用，数据科学竞赛也吸引了新一代的年轻科学家。如今，随着开放性数据的增加，政府和企业不断发掘机器学习的新的应用领域。然而，不幸的是机器学习并不是全自动的：依旧很难确定哪个算法一定适用于哪种问题和如何选择超参数。完全自动化是一个无界的问题，因为总是有一些从未遇到过的新设置。AutoML面临的挑战包括但不限于：

监督学习问题（分类和回归）
特征向量表示问题
数据集特征分布问题（训练集，验证集和测试集分布相同）
小于200兆字节的中型数据集
有限的计算资源

成为VIP会员查看完整内容

2019_Book_.pdf

160

相关内容

自动机器学习

关注 123

自动机器学习（AutoML）是将机器学习应用于实际问题的过程的自动化过程。AutoML涵盖了从原始数据集到可部署的机器学习模型的完整管道。提出将AutoML作为基于人工智能的解决方案来应对不断增长的应用机器学习的挑战。 AutoML的高度自动化允许非专家使用机器学习模型和技术，而无需首先成为该领域的专家。从机器学习角度讲，AutoML 可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统。但是它强调必须非常容易使用；从自动化角度讲，AutoML 则可以看作是设计一系列高级的控制系统去操作机器学习模型，使得模型可以自动化地学习到合适的参数和配置而无需人工干预。

【经典书】机器学习：贝叶斯和优化方法，1075页pdf

专知会员服务

414+阅读 · 2020年6月8日

最新《神经架构搜索NAS全面综述论文》挑战和解决方案，30页pdf

专知会员服务

120+阅读 · 2020年6月5日

最新《推荐系统中的对抗性机器学习:现状和挑战》2020综述论文，35页pdf

专知会员服务

91+阅读 · 2020年5月23日

【经典书】机器学习高斯过程，266页pdf

专知会员服务

235+阅读 · 2020年5月2日