程序员转型AI，这里有最全的机器学习介绍+应用实例

2018 年 1 月 6 日 AI100 Cynthia Harvey

编译 | AI科技大本营

参与 | 张子琦

编辑 | 明明

机器学习是人工智能的一个分支，已经成为当今最热门的趋势之一。据Gartner公司预测，到2020年，包括机器学习在内的人工智能（AI）技术几乎将在所有新的软件产品和服务中普及。那么什么是机器学习？它与人工智能有什么关系？技术专业人员应该知道哪些潜在的好处和挑战？对于想要转型AI的程序猿们，AI科技大本营对此类问题做了系统性整理。

什么是机器学习？

有史以来，第一个使用“机器学习”这个词的人可能是亚瑟·塞缪尔（Arthur Samuel），他开发了第一批用于玩跳棋的计算机程序。1959年，他将机器学习定义为“计算机没有被明确编程的学习能力”的技术。其他计算机科学家随后也提出了更多的机器学习数学定义，但塞缪尔的定义仍然是其中最准确和最容易理解的。

机器学习是人工智能的一个子集，是计算机科学的一部分，专注于创造具有人类思维方式的计算机。换句话说，所有机器学习系统都是人工智能系统系统，但并不是所有人工智能系统都具有机器学习能力。

机器学习可以划分为下面几个部分

1.监督学习

需要程序员提供输入样本以及输入样本的标签。例如，如果您想用监督学习教计算机识别猫的照片，你可以给它提供一大堆图像，有些被标记为“猫”，有些被标记为“不是猫”。机器学习算法将帮助系统学习概念的概括，这样就可以使计算机在新的图像中识别是否有猫。

2.无监督学习

要求系统根据给定的数据集得到分类的方法。例如，如果您有大量的在线销售数据，则可以使用无监督学习找到历年销售数据的相关性，来提高销售业绩。例如，你可能会发现，20世纪80年代初出生的女性，如果她们收入超过5万美元，就会很有可能喜爱某一品牌的巧克力棒；或者购买某种品牌的苏打水的人也会购买某种品牌的薯片。

3.半监督学习

正如你可能猜到的那样，是有监督学习和无监督学习的结合。回到猫的例子，想象你有大量的图片，其中一些图片被标记为“猫”和“不是猫”，还有一些没有标记。一个半监督的学习系统就可以使用标记的图像进行学习，然后猜测哪些未标记的图像包括猫。接着最好的猜测会被反馈到系统中来帮助它提高能力，然后这个循环会继续下去。

4.强化学习

类似于一个惩罚和奖励的系统。强化学习的一个经典例子是赌徒用老虎机赌博。起初，赌徒不知道哪个老虎机会有回报或者回报有多少，所以他把所有的老虎机都试了一遍。随着时间的推移，他发现一些老虎机的赔率更高。然后，赌徒就会在赔率高的老虎机投入更多的时间和本钱来赢更多的钱。

机器学习应用实例

各行业的机构已经开始尝试机器学习。在某些情况下，软件供应商已经将机器学习纳入用于特定目的的工具中，而在其他情况下，用户已经可以根据自己的需要，来调整了通用机器学习应用程序。该技术的一些最常见的应用场景包括：

欺诈检测 - 银行和信用卡发卡机构是最早使用机器学习的机构之一。他们经常使用这项技术来识别可能是欺诈的交易。如果您的信用卡发卡机构打电话给您，询问您最近是否进行了特定的购买，那么该公司可能会使用机器学习功能在您的帐户上标记可疑交易。

推荐引擎 - 亚马逊和Netflix等公司使用的在线推荐引擎是机器学习最常见的例子之一。使用从数百万购物者和用户收集的数据，机器学习系统能够根据您过去的购物或收看习惯预测您可能喜欢的物品。

搜索 - 谷歌，微软必应和其他搜索引擎使用机器学习，以逐分钟的方式提高搜索引擎的能力。他们可以分析有关用户点击哪些链接以回应查询的数据，来改善搜索结果。他们还使用机器学习来提高自然语言处理的能力，并为某些问题提供具体的答案。

视频监控 - 机器学习可以使人脸识别系统的能力一直提高。在某些情况下，这些系统可以识别已知的犯罪分子，或者可以识别超出规范或违反法律的行为或活动。

手写识别 - 美国邮政服务已经有使用机器学习来训练识别手写地址的系统。

自然语言处理 - 今天，我们大多数人理所当然地认为像Siri，Cortana或Google Assistant这样的个人助理，可以理解语音请求并回答问题。随着时间的推移，这些工具使用机器学习来提高他们识别、理解和处理口头输入的能力。

客户服务机器人 - 自动代理商可以使用自然语言处理和客户服务数据回答常见问题，并随着时间的推移提高答案的质量。

IT安全 - 当今许多最先进的IT安全解决方案（如用户和实体行为分析（UEBA）工具）都使用机器学习算法来识别潜在的攻击。在UEBA的情况下，机器学习建立了用于检测异常情况的“正常”行为的基线，使组织能够识别和减轻零日威胁。

流媒体分析 - 在今天的全天候世界中，社交媒体馈送和在线销售交易等大量数据不断更新。组织使用机器学习来实时发现洞察或识别潜在的问题。

预测性维护 - 物联网（IoT）提供了许多潜在的机器学习用例，包括预测性维护。企业可以使用历史设备数据预测机器可能发生故障的时间，使其能够在影响业务或工厂运行之前主动进行维修或安装更换部件。

异常检测 - 就像机器学习可以识别IT系统中的异常行为一样，它也可以检测制成品或食品中的异常情况。工厂可以使用经过训练的机器学习系统来识别不符合标准或规格的物品，而不是用视察员来检查货物。

需求预测 - 在许多行业中，将适量的产品投放到正确的位置对于商业成功至关重要。机器学习系统可以使用历史数据比人类能够更准确，更快地预测销售。

物流 - 对于运输公司来说，设置时间表和路线是一件复杂而费时的工作。机器学习系统可帮助确定从A点到B点获得货物或人员的最有效和最具成本效益的方法。

金融交易 - 每个交易者都希望在市场上找到能让他们低买高卖的模式，机器学习算法可以帮助识别基于过去的市场活动的潜在机会。

医疗诊断 - 许多专家预测机器学习诊断工具将与人类专业人员一起工作，以确定疾病并确定最有效的治疗过程。计算机系统可能特别擅长检测各种扫描中的异常情况和发现罕见疾病。

无人驾驶 – 无人驾驶是机器学习最引人注目的应用之一。在不远的将来，能够自行驾驶的车辆可能成为常态。

机器人 - 虽然他们一直是科幻小说的主角，但有机器学习能力的机器人很快就会成为日常生活的一部分。这些机器人将能够随着时间的推移提高他们的能力，使他们变得对人类更有用。

机器学习的好处

上面描述的许多用例可以由人或软件来处理，而不需要机器学习功能。然而，机器学习技术为这些替代方案提供了几个好处：

速度 - 人类可以创建模型，输入数据并自行运行预测分析所需的计算。然而，人类（或使用不具有人工智能功能的软件的人类）可能需要几天，几周甚至几个月才能完成。但是机器学习工具可以在几秒，几分钟或几小时内完成的任务。

准确性 - 速度使得机器学习系统能够利用大量的数据和更多的模型。因此，人工智能系统比某些任务的人员要好得多，比如预测分析。然而，在其他领域，如语音识别或图像识别，计算机系统仍然没有达到与人类相同的准确度。

效率和成本节省 - 机器学习软件并不便宜，事实上，在某些情况下，它可能非常昂贵。然而，使用软件来自动执行一项繁琐的工作比聘用几十或几百人完成同样的任务要经济得多。

机器学习的挑战

虽然机器学习具有很大的潜力，并已经变得越来越常见，但该领域仍然面临着来自于一些技术、机构、哲学方面的挑战。

人才稀缺 - 企业经常需要数据科学家来操作他们的机器学习系统，而拥有这些技能的员工也成为最受追捧的对象。他们的薪水是科技行业中最高的，近年来平均薪酬一直在快速上涨。然而，数据显示，随着供应商推出具有自助服务功能的机器学习软件，使得非数据科学家可以使用它，人才稀缺的问题可能会得到缓解。

缺乏数据驱动的文化 - 虽然大多数高管都明白数据驱动的决策和机器学习技术的潜在好处，但让大企业的每个人改变自己的思维和行为往往是一个漫长而缓慢的过程。机器学习倡导者在尝试推广技术时经常遇到内部障碍。

数据质量较差 - 如果提供模型的数据不准确，世界上最好的人工智能系统也无法得到好的结果。许多研究机构发现，在充分利用机器学习软件之前，他们需要改进数据清理和数据管理流程。

数据集成 - 在许多组织中，数据仍驻留在孤岛应用程序和存储解决方案中。将所有不同的数据馈送到机器学习系统中可能会带来挑战，但是供应商正在用可接受各种数据类型和格式的解决方案来解决这个问题。

数据安全性 – 一方面有限制数据访问的需要，另一方面又有使用数据提供机器学习系统的需求，在这两种需求中取得平衡可能会比较麻烦。一些组织可能需要更新他们的策略，或使用加密或匿名数据的机器学习工具。

基础设施要求 - 先进的机器学习系统可在多个快速CPU和GPU的硬件上运行，并且这种运行结果很好。另外，为了将数据从存储移动到应用程序，它们需要大量的存储空间和适当的网络功能。

道德上的两难困境 - 人工智能越来越像人类，但缺乏道德意识，和考虑到大多数人的决策。例如，当微软发布了一个名为Tay的社交媒体机器人，它具有机器学习能力时，很快就学会了说不适当的和令人反感的东西。有专家呼吁科技公司要确保人工智能系统遵循严格的道德规范，防止他们犯罪，危害人类甚至消灭人类。

恐惧 - 许多人发现通用的人工智能或机器学习特别令人不安。他们担心电脑会接管他们的工作，这是有道理的。 Forrester预测，到2025年，机器人，人工智能（AI），机器学习和自动化等认知技术将取代美国7％的就业机会。包括特斯拉和SpaceX首席执行官伊隆·马斯克（Elon Musk）在内的其他人担心机器学习会对人类构成生存威胁。无论这些恐惧是否有根有据，如果想要体验机器学习的潜在好处，就必须找到一种方法来处理这些恐惧。