是时候怼一波AutoML了

2019 年 10 月 17 日 AI前线

作者 | Denis Vorotyntsev

译者 | 核子可乐

编辑 | 陈思

AI 前线导读：2018 年，谷歌推出 Cloud AutoML，宣称不论有没有机器学习相关的背景，哪怕是个 IT“小白”，都可以通过 AutoML 简单、高效地进行工作所需的模型训练，AutoML 甚至被称为“下一代”机器学习系统。此后，有关 AutoML 的消息层出不穷。

然而，近期的一篇文章却认为：AutoML 似乎有些炒作过度。该文章的作者更是对此进行了一番实验：他的方案在几乎所有测试场景下都获得了高于 AutoML 的分数。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

我在自己的日常工作中使用过 AutoML，参加过几次 ML 竞赛，外加两次 AutoML 技术比赛。我觉得 AutoML 提出的建模流程自动化概念非常重要，但多少还是有点吹过头的感觉。虽然特征工程以及用于超参数优化的元学习等关键概念值得肯定，而且拥有可观的潜力，但就目前来讲，购买打包出售的 AutoML 工具基本上就是在浪费金钱。

以下所有内容都以数据为基础。

AutoML 是什么？

数据科学项目

一切数据科学项目都涉及几个基本步骤：从业务角度提出问题（选择任务与成功指标）、收集数据（收集、清洁、探索）、建立模型并评估性能、在生产场景中部署模型并观察模型的实际表现。

跨行业数据挖掘标准流程

流程中的各个部分对项目的成功都至关重要。但是，从成熟的机器学习角度来看，建模部分无疑最为关键。只有完善的 ML 模型，才能为企业创造更多价值。

在建模阶段，数据科学家们需要解决优化问题：利用一套给定的数据集识别并最大化所选指标。这个过程非常复杂，需要以下几种不同类型的技能：

特征工程，有时更像是种艺术而非科学；
超参数优化，要求我们对算法以及 ML 核心概念拥有深入的理解；
软件工程技能，用于确保输出的代码易于理解及部署。

AutoML 的意义，正在于帮助我们完成以上工作。

ML 建模类似于艺术、科学加上软件工程的综合体

AutoML

AutoML 的输入内容包括数据与任务（分类、回归、建议等），输出结果则为生产就绪模型。这类模型能够预测到原本并不存在的数据。数据驱动流水线中的每个决策环节都是一项超参数。AutoML 的基本思路，就是找到这样的超参数，确保其取值能够在合理的时间内给出得分良好的决策结果。

AutoML 选择一种数据预处理策略，包括：如何处理不平衡数据；如何填补缺失值；删除、替换或保留异常值；如何编码类别与多类别列；如何避免目标泄漏；如何防止内存错误等等；
AutoML 生成新的特征并从中选择有意义的条目；
AutoML 负责选择模型（线性模型、K 最近邻、梯度增强以及神经网络等）；
AutoML 对所选模型的超参数进行调优（例如基于树状结构的模型或架构的树数与子分支采样、神经网络的学习率与轮数等）；
AutoML 实现模型的稳定集成，并尽可能提高得分。

AutoML 的意义

AutoML 将填补数据科学市场当中“供应”与“需求”之间的缺口

如今，越来越多的企业开始收集数据，或者希望利用已经收集到的数据实现业务潜能：即从中获取实际价值。但在另一方面，市场上拥有良好技术背景的数据科学家非常有限，因此供求之间就出现了缺口。AutoML 希望填补这部分缺口。

然而，打包出售的解决方案真能给企业带来任何价值吗？我个人答案是否定的。

这些企业需要的是完整流程，但 AutoML 只是一款工具。工具再先进，也无法弥补战略层面的不足。 在开始使用 AutoML 之前，请首先与咨询企业开展项目合作，从而帮助我们预先建立起数据科学策略。大多数 AutoML 解决方案供应商都在提供咨询服务，这绝不是巧合，而是切实存在的市场需求。

这个主意好像不怎么样，对吧？（来自《南方公园》第 2 季第 17 集）

AutoML 能够帮助数据科学团队节省时间

根据《2018 年 Kaggle 机器学习与数据科技调查》报告，典型的数据科学项目会将 15% 到 26% 的时间投入到模型的选择或者构建当中。无论是“人工工时”还是计算时间，这都代表着一种巨大的消耗。如果目标或数据发生变更（例如需要添加新特征），则整个流程还得再来一遍。AutoML 能够帮助公司内的数据科学家们节约时间，并把宝贵的精力投入到更重要的工作当中（比如坐着发呆……）。

利用 AutoML，我们只需要几行代码就能让整个体系运转起来

然而，既然数据科学团队的核心工作内容就不是建模，那么企业的流程显然已经存在问题。一般来讲，即使是模型性能的小幅提升，也足以为企业带来可观的经济回报。在这种情况下，投入建模的时间越长，那么回报应该就越高：

规则过度简化：如果从模型获取的收益>数据科学团队的时间成本，则不需要节约时间。

如果从模型获取的收益<= 数据科学团队的时间成本，那么是不是当初选择的就不是正确的业务问题？🤔

在这方面，最好的办法是为数据科学团队的日常任务编写脚本以节约时间，而不是使用现成的打包解决方案。我就曾为日常任务编写过几套脚本，包括自动特征生成、特征选择、模型训练以及超参数调优等等，而且直到现在仍在经常使用。

AutoML 优于普通数据科学家

遗憾的是，除了“开源 AutoML 基准”之外，我们并没有“Tabular AutoML 对人类基准”可供参考。论文作者将多套 AutoML 库的性能与调整后的随机森林性能进行了比较，结果发布于 2019 年 7 月 1 日。

我很好奇，并决定亲自做做基准测试。我利用二进制分类的三套数据集对自己的性能与 AutoML 解决方案进行了比较，具体包括 credit、KDD Upselling 以及 mortgages 数据集。我将原始数据集拆分为训练数据集（按目标分层随机分配了 60% 的数据量）以及测试数据集（剩余 40% 数据）。

我的基准解决方案相对简单，在这里没有对数据进行任何深入研究，也没有建立任何高级特征：