观点 | 机器学习在商业领域大有作为，但它还需要跨过法律的难关

2017 年 10 月 4 日 AI掘金志 李雨晨

基于数据分析的机器学习（ML）正在重写企业处理数据的规则。机器学习和分析的研究已经在数据科学家的帮助下将大量数据形式转化成分析规则。现在机器学习正开始进入商业世界。但是，大多数组织并没有真正了解机器学习如何改变他们的商业方式 ——或者如何改变组织在这个过程中的形态。公司希望通过机器学习来进行流程自动化或完成数据驱动的任务来提高人的能力。而且，机器学习也有可能将企业变成供应商 ——从他们自己庞大的数据存储库中吸取经验教训，并将其授权给软件和服务提供商。

但是，实现这一目标将取决于未来5年机器学习能力的发展，以及这一进化对今天的长期招聘策略的影响。在无人监督的机器学习中，系统得到了大量的数据集，并且希望在没有人类的帮助下弄清楚自己需要寻找什么。

宝洁公司商业智能和分析服务总监 David Dittman 解释说，自己与其他大型美国公司面临的分析难题是“他们正在被‘机器学习和分析’技术所吸引，而不了解他们必须‘为它’建立基础，因为很艰难，很昂贵，而且需要远见。“ 相反， Dittman 说，公司错误地认为机器学习会揭示他们的愿景：“我不能有人工智能告诉我答案吗？”

问题在于“人工智能”并没有真正发挥他们想要的作用。机器学习目前分为两大类：监督和无监督。如果没有坚实的数据基础，这两种方式都不可行。

打破训练

（Yisong Yue是加州理工学院计算和数学的助理教授，他认为无人监督的机器学习在放射影像中诊断癌症等领域具有居巨大的应用前景）

有监督的机器学习要求人类创建训练数据集，并验证训练的结果。加州理工学院的计算机和数学助理教授Yisong Yue解释说，语音识别是这方面的一个主要例子。“语音识别是在高度监督的方式下进行的，”Yue说。“你要从庞大的数据开始，先让人们说出某些特定的句子。”

但 Yue 说，收集并将足够的数据进行分类以此来监督训练是很有挑战性的。“想象一下，用各种各样的方式说出这些句子是多么的昂贵。数据科学家们需要对这些东西进行注释，这对于你想要解决的每一个任务来说都是无法扩展的。有监督的机器学习有一个基本的限制。”

无监督的机器学习减少了这种相互作用。数据科学家选择一个大概的数据集，并且告诉软件找到其中的模式，不需要人首先弄明白软件需要寻找什么。由于需要的人工任务非常少，所以没有监督的机器学习(特别是在人工工作负载方面)的可伸缩性要高得多。但是，“无监督”一词可能会产生误导。其实数据科学家还是需要选择数据来进行检查。

Forrester Research副总裁兼高级分析和机器学习首席分析师 Mike Gualtieri 说：“无人监督的机器学习软件被要求”发现可能有趣的数据集群，而人类则分析这些数据，并决定下一步做什么。”人们仍然需要对软件创建的数据分组进行分析。

但无人监督的机器学习的收益可能会更广泛。例如，Yue说，无监督学习可能会在诸如癌症诊断等医疗任务中得到应用。他解释说，标准的诊断工作包括进行活体检查并将其送到实验室。问题在于，活组织检查本身就是人力密集型的分析工作，耗时且昂贵。当医生和患者需要立即知道是否癌症时，等待活检结果可能会有医疗风险。今天，一位放射科医生通常会观察组织，他解释说，“放射科医师会做出一个预测——包含癌变组织的可能性。”

“有了足够大的训练数据，这可能是一种监督机器学习的应用，”岳说。“假设我们取了这个数据表——组织的图像和活检结果——然后进行了监督的ML分析。“这将是一种劳动密集型的工作，但它可以检测到活检呈阳性的图像的相似性。

但是，Yue问道，如果把这个过程当做一个没有监督的学习努力，又该怎么办呢?

“假设我们有一个图像数据集，但我们没有活检结果，我们可以用它来确定我们可以用集群来预测什么。” 假设样本数为1,000。软件会对图像进行分组，并寻找所有的相似点和不同点，这是基本的模式识别。“假设它找到了10个这样的簇，假设我只能承受10次活组织检查。”我们可以选择从每一个集群中测试一个，”Yue说。“这只是一系列步骤中的第一步，当然，这是对多种癌症的研究。”

导师与决策者

无人监督的学习仍然需要一个人为其发现的数据集群或模式进行评价，因此它并不一定准备完全不干涉的任务。相反，它目前更适合通过突出显示可能感兴趣的数据模式来提高人类的表现。但是，有些地方可能很快就会由数据的质量和数量来改变。

Dittman 说:“我认为，现在人们正在大步跨入自动化，但是人们应该把注意力集中在扩大现有的决策过程上，”“5年后，我们将拥有合适的数据资产，然后你将需要更多的自动化和更少的扩充。”但现在还不是时候。今天，机器学习缺乏可用的数据。它不够细，不够宽。”

即使机器学习的数据分析变得更加复杂，还不清楚如何改变公司 IT 组织的架构。 Forrester 的 Gualtieri 预计，从现在起五年后，数据科学家的需求就会减少，这种情况就和网页开发人员类似。1995年对网页的Web开发人员的需求远远超过2000年，因为许多网页功能都是自动化并作为模块化脚本出售。他表示，机器学习也可能出现类似的转变，因为软件和服务提供商开始向商业机器学习平台提供应用程序编程接口。

Gualtieri 预计，企业的“构建或购买”模式将会发生一个简单的变化。他解释说:“今天，你将会做出一个决定，雇佣更多的数据科学家。”随着这些api进入市场，它将转向“购买”，而不是“构建”。他补充说，“我们现在看到了这种情况的开始。”其中有几个例子是“Clarifai”，它是一家位于纽约的初创公司，可以通过视频搜索特定的时刻，比如观看数千个婚礼视频，学习交换戒指的仪式，或者“你可以亲吻新娘”，后者试图从图像中确定某人的情绪。

Dittman 同意 Gualtieri 的观点，公司可能会创建许多专门的脚本来进行机器学习任务的自动化。但他不同意这将导致五年内计算机科学工作的减少。

Dittman 解释说：“如果你看一下实践数据科学家的数量，那将会大幅增加，但它将会比技术的数字化要慢得多，因为ML会进入越来越多的空白领域。“考虑开放源代码趋势，数据科学家工具从代码生成到代码重用，从而开始变得更加容易和易用。

加州理工学院的 Yue 认为，数据科学家的需求将继续上升，因为机器学习的成功将会有更多的机器学习尝试。随着技术的进步，他解释说，越来越多的企业单位将能够利用机器学习，这意味着需要更多的数据科学家来开始编写这些程序。