【机器学习】先搞懂这八大基础概念，再谈机器学习入门！

会员服务 ·

【机器学习】先搞懂这八大基础概念，再谈机器学习入门！

2018 年 1 月 5 日 产业智能官 AI科技大本营

准备好开始AI了吗？可能你已经开始了在机器学习领域的实践学习，但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题。

这些机器学习的专业术语能够简要地介绍最重要的机器学习概念—包括商业界和科技界都感兴趣的话题。在你遇到一位AI指导者之前，这是一份不详尽，但清楚易懂又方便在工作、面试前快速浏览的内容。

概览：

自然语言处理
数据库
计算机视觉
监督学习
无监督学习
强化学习
神经网络
过拟合

1 自然语言处理

自然语言处理对于许多机器学习方法来说是一个常用的概念，它使得计算机理解并使用人所读或所写的语言来执行操作成为了可能。

自然语言处理最重要的最有用的实例：

① 文本分类和排序

这项任务的目标是对一个文本进行预测标签(类别)或对列表中相关联的文本进行排序。它能够用于过滤垃圾邮件(预测一封电子邮件是否是垃圾邮件)，或进行文本内容分类(从网络上筛选出那些与你的竞争者相关的文章)。

② 情感分析

句子分析是为了确定一个人对某个主题的看法或情感反应，如正面或负面情绪，生气，讽刺等。它广泛应用于用户满意度调查(如对产品的评论进行分析)。

③ 文件摘要

文件摘要是用一些方法来得到长文本(如文档，研究论文)短且达意的描述。对自然语言处理方向感兴趣吗？请进一步阅读人工智能关于自然语言处理方向的文章：https://sigmoidal.io/boosting-your-solutions-with-nlp/

④ 命名实体识别

命名实体识别算法是用于处理一系列杂乱的文本并识别目标(实体)预定义的类别，如人，公司名称，日期，价格，标题等等。它能够将杂乱的文本信息转换成规则的类表的格式，来实现文本的快速分析。

⑤ 语音识别

语音识别技术是用于得到人所讲的一段语音信号的文本表达。你可能听说过Siri助手？这就是语音识别应用的一个最好的例子。

⑥ 自然语言的理解和生成

自然语言的理解是通过计算机，将人类生成的文本转换成更正式的表达。反过来，自然语言生成技术是将一些正式又有逻辑性的表达转换成类人的生成文本。如今，自然语言理解和生成主要用于聊天机器人和报告的自动生成。

从概念上来说，它与实体命名识别任务是相反的。

⑦ 机器翻译

机器翻译是将一段文本或语音自动从一种语言翻译成另一种语言的一项任务。请见：https://youtu.be/Io0VfObzntA

2 数据库

数据库是机器学习一个必要的组成部分。如果你想构建一个机器学习系统，你要么可以从公众资源中得到数据，要么需要自己收集数据。所有的用于构建和测试机器学习模型的数据集合成为数据库。基本上，数据科学家会将数据划分为三个部分：

训练数据：训练数据是用于训练模型。这意味着机器学习模型需要认识并通过学习得到数据的模式以及确定预测过程中最重要的数据特征。

验证数据：验证数据是用于微调模型参数和比较不同模型来确定最优的模型。验证数据应该不同于训练数据，且不能用于训练阶段。否则，模型将出现过拟合现象，且对新的数据泛化不佳。

测试数据：这看起来似乎有些单调，但这通常是第三个也是最后的测试集(经常也被称为对抗数据)。一旦最终的模型确定，它就用于测试模型在从未见过的数据集上的表现，如这些数据从未在构建模型或确定模型时使用过。

图像：混合使用t-SNE和Jonker-Volgenant算法得到的MNIST数据库的可视化结果。T-SNE是一种广泛使用的降维算法，通过压缩数据的表达来得到更好的可视化和进一步处理。

3 计算机视觉

计算机视觉是一个专注于分析并深层次理解图像和视频数据的人工智能领域。计算机视觉领域最常见的问题包括：

① 图像分类

图像分类是教模型去识别给定的图像的一种计算机视觉任务。例如，训练一个模型去识别公共场景下的多个物体(这可以应用于自动驾驶)。

② 目标检测

目标检测是教模型从一系列预定义的类别中检测出某一类别的实例，并用矩形框框注出来的一种计算机视觉任务。例如，利用目标检测来构建人脸识别系统。模型可以在图片中检测出每张脸并画出对应的矩形框(顺便说下，图像分类系统只能识别出一张图片中是否有脸的存在，而不能检测出脸的位置，而目标检测系统就可以)。

③ 图像分割

图像分割是训练模型去标注类的每一个像素值，并能大致确定给定像素所属的预定义类别的一种计算机视觉任务。

显著性检测

显著性检测是训练模型产生最显著区域的一种计算机视觉任务。这可以用于确定视频中广告牌的位置。需要详细了解计算机视觉？请阅读 https://sigmoidal.io/dl-computer-vision-beyond-classification/

4 监督学习

监督学习是用实例来教模型学习的一类机器学习模型集合。这意味着用于监督学习任务的数据需要被标注(指定正确的，真实类别)。例如，如果我们想要构建一个机器学习模型用于识别一个给定的文本是否被标记过的，我们需要给模型提供一个标记过的样本集 (文本+信息，是否该文本被标记过)。给定一个新的，未见过的例子，模型能够预测它的目标，例如，规定样本的标签，1表示标记过的而0表示未标记的。

5 无监督学习

相比于监督学习，无监督学习模型是通过观察来进行自我学习。算法所用的数据是未标记过的(即提供给算法的是没有真实标签值的数据)。无监督学习模型能够发现不同输入之间的相关关系。最重要的无监督学习技术是聚类方法。对于给定的数据，模型能够得到输入的不同聚类(对于相似的数据聚合在同一类中)，并能将新的、未见过的输入归入到相似的聚类中。

6 强化学习

强化学习区别于先前我们提到的那些方法。强化学习算法一种“游戏”的过程,其目标是最大化 “游戏奖励”。该算法通过反复的实验来尝试确定不同的 “走法”，并查看哪种方式能够最大化 “游戏收益”

最广为人知的强化学习例子就是教计算机来解决魔方问题或下象棋，但是强化学习能解决的问题不仅只有游戏。最近，强化学习大量地应用于实时竞价，其模型负责为一个广告竞拍价格而它的报酬是用户的转换率。

想要学习人工智能在实时竞价和程序化广告中的应用吗？详见：https://sigmoidal.io/ai-for-advertising/

7 神经网络

神经网络是一个非常广泛的机器学习模型集合。它的主要思想是模拟人类大脑的行为来处理数据。就像大脑中真实神经元之间相互连接形成的网络一样，人工神经网络由多层组成。每层都是一系列神经元的集合，这些神经元负责检测不同的食物。一个神经网络能够连续地处理数据，这意味着只有第一层才与输入直接相连，随着模型层数的增加，模型将学到越来越复杂的数据结构。当层数大量地增加，模型通常就是一个所谓的深度学习模型。很难给一个深度网络确定一个特定的网络层数，10年前通常3层神经网络就可谓深，而如今通常需要20层。

神经网络有许许多多不同的变体，最常用的是：

卷积神经网络—它给计算机视觉任务带来了巨大的突破(而如今，它同样对于解决自然语言处理问题有很大帮助)。

循环神经网络—被设计为处理具有序列特征的数据，如文本或股票票价。这是个相对古老的神经网络，但随着过去20年现代计算机计算能力的突飞猛进，使得它的训练变得容易并在很多时候得以应用。
全连接神经网络—这是处理静态/表格式数据最简单的模型。

8 过拟合

当模型从不充分的数据中学习会产生偏差，这对模型会有负面的影响。这是个很常见，也很重要的问题。

当你在不同的时间进入一个面包坊，而每一次所剩下的蛋糕都没有你喜欢的，那么你可能会对这个面包坊失望，即使有很多其他的顾客可能会对剩下的蛋糕满意。如果你是个机器学习模型，可以说你对这一小数量样本产生了过拟合现象—要构建一个具有偏置量的模型，其得到的表示才不会过度拟合真实数据。

当过拟合现象发生，它通常意味着模型将随机噪声当作数据，并作为一个重要的信号去拟合它，这就是为什么模型在新数据上的表现会出现退化(噪声也有差异)。这在一些非常复杂的模型如神经网络或加速梯度模型上是很常见的。

想象构建一个模型来检测文章中出现的有关奥运的特定体育项目。由于所用的训练集与文章是由偏差的，模型可能学习到诸如 “奥运”这样词的特征，而无法检测到那些未包含该词的文章。

这就是所有的问题。如果你想了解更多这样的文章，请在下面的评论区留言告诉我们。

原文链接： https://sigmoidal.io/machine-learning-terms/

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”；新模式：“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。

官方网站：AI-CPS.NET

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！

登录查看更多

相关内容

监督学习

关注 131

监督学习是指：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中，每个实例都是由一个输入对象（通常为矢量）和一个期望的输出值（也称为监督信号）组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

【经典书】算法基础：打开算法之门，Algorithm unlocked，237页pdf

专知会员服务

147+阅读 · 2020年7月3日

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

220+阅读 · 2020年6月14日

【实用书】Python机器学习Scikit-Learn应用指南，247页pdf

专知会员服务

270+阅读 · 2020年6月10日

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

专知会员服务

174+阅读 · 2020年6月6日