机器学习实践指南：理解、差异化和应用

2017 年 8 月 10 日 IBM中国

作者：Rob Thomas 和 Jean-François Puget

机器学习由Arthur Samuel在1959年首次定义，即“学习领域，使计算机能够在没有被明确编程的情况下学习”。换言之就是，这就是分析的自动化，从而能够让分析得以大规模应用。

在过去几十年来，分析一直是高度手工操作的行为，分析师基本上都是手动来梳理数千行的表单，现在正由技术变得自动化起来，基本上通过一些简单的按钮就能够实现操作。那么，如果机器学习是在1959年就已经被首次定义，那为什么直到现在才是抓住机会的时候？

答案很简单：经济因素。

下面的相对关系图可以解释这一点：

（图注：过去十年，预算都被计算和数据占用，而现在是分析可以占主要部分）

自从机器学习被定义一直到过去 10 年内，机器学习的应用都受限于计算和数据获取以及准备等操作的成本。事实上，计算和数据耗尽了所有的预算，导致没有更多资金可以投入到真正推动价值的因素上，即获取可操作洞察的算法。

近些年，计算和数据的成本急剧下降，现在任何人都能够快速应用和探索机器学习。

快速适应

企业必须不断适应瞬息万变的业务环境：竞争者引入新产品，用户习惯改变，以及经济和政治环境改变等。这不是新变化，但是业务环境变化的速度在加快。对于为企业开发的技术解决方案来说，这种不断加快的变化节奏给企业增加了新的负担。

多年以来，应用开发人员已从周期最多可达数年的 V 形项目转向周期只有几月、几周，甚至常常只有几天的敏捷开发方法。这使得企业能够更快地适应其应用和服务需要，不管是零售商的销售预测，还是股票经纪商所需要的产品推荐系统，乃至备受期待的个性化医疗保健系统，都能够被满足。

这些场景以及其他类似场景，给机器学习创造了独特的机遇。诚然，机器学习本就是为适应这些问题的多变性而设计的。

首先，它将应用开发从编程转变为训练：应用开发人员使用新数据训练同一个应用，无需编写新代码。这是应用开发的一种根本性转变，因为每周，甚至每天都能够自动获得全新应用或者更新版本的应用。

这种转变是认知时代下的IT核心。

其次，机器学习促进了在数据所在位置（也就是最具业务价值的地方）自动生成可操作洞察。可以构建一些机器学习系统，从每一次的用户交互中学习，或者从物联网设备收集的新数据中学习。然后，这些系统基于最新可用数据生成输出。在传统 IT 开发中，即使使用了敏捷方法，也不可能做到这一点。

建立反馈循环

尽管大部分企业都已了解机器学习，但很少有企业付诸行动。他们要么因担心数据资产受到破坏而减缓进度，要么尝试一次之后就缩减投入，声称结果不尽人意。这些是常见的顾虑和考虑因素，但我们应该认识到，只要采用正确的方法，这些问题很容易解决。

首先看看数据。一个常见的误区是，认为只要有了数据，机器学习项目就会成功。数据不可或缺，但是机器学习需要明确的业务目标或结果。如果起初仅有很少或没有数据，但是拥有明确、可衡量的业务目标，则项目更可能成功。业务目标应规定相关数据的收集，还要指导机器学习模型的开发。此方法提供了一种评估模型有效性的机制。

机器学习项目的第二个误区是，认为它能一蹴而就。根据定义，机器学习是一个连续过程，所以项目在运行时必须考虑到这一点。

机器学习项目常常按如下方式运行：

1) 从收集数据和定义新业务目标开始。

2) 准备数据，因为最开始收集数据时通常并不会参考新业务目标。

3) 准备好数据后，对数据运行机器学习算法来生成模型。

4) 基于全新的、未使用过的数据评估该模型，验证它是否能从数据中获得合理的洞察。如果是，则将它部署到生产环境中，基于新数据执行预测。

这一典型方法很有价值，但是它受限于这样一个事实，即模型仅学习一次。您可能开发了一个不错的模型，但是不断变化的业务环境可能让它失去现实意义。

以使用机器学习检测信用卡交易异常为例。用过去多年的交易来创建模型，异常指的是欺诈性交易。然后将此模型部署在一个支付系统中，让它在检测到异常时进行标记。这在短期内很有效，但是聪明的罪犯很快会认识到他们的诡计已被检测到。他们会不断调整，找到使用被盗信用卡信息的新方法。模型将无法检测出这些新方法，因为生成该模型的数据中没有包含这些方法。结果，模型有效性将下降。

解决方法是通过将模型预测结果与实际情况相比较，监视预测结果的有效性。例如，经过一定的延迟后，银行会知道哪些交易是欺诈性的，哪些不是。然后，可以将实际的欺诈性交易与机器学习模型检测到的异常相比较。通过这种比较，可以计算预测结果的准确性。

然后我们可以不断监视准确性，观察准确性是否下降。出现下降情况时，就使用更新的数据刷新机器学习模型。这就是我们所谓的反馈循环。