【AI江湖】机器学习实用指南；深度学习高手该怎样炼成！

2017 年 11 月 15 日 产业智能官

机器学习实用指南

来源：1024深度学习

初识机器学习

也许你和这个叫『机器学习』的家伙一点也不熟，但是你举起iphone手机拍照的时候，早已习惯它帮你框出人脸；也自然而然点开今日头条推给你的新闻；也习惯逛淘宝点了找相似之后货比三家；亦或喜闻乐见微软的年龄识别网站结果刷爆朋友圈。恩，这些功能的核心算法就是机器学习领域的内容。

套用一下大神们对机器学习的定义，机器学习研究的是计算机怎样模拟人类的学习行为，以获取新的知识或技能，并重新组织已有的知识结构使之不断改善自身。简单一点说，就是计算机从数据中学习出规律和模式，以应用在新数据上做预测的任务。近年来互联网数据大爆炸，数据的丰富度和覆盖面远远超出人工可以观察和总结的范畴，而机器学习的算法能指引计算机在海量数据中，挖掘出有用的价值，也使得无数学习者为之着迷。

机器学习关注的问题

从功能的角度分类，机器学习在一定量级的数据上，可以解决下列问题：

分类问题

根据数据样本上抽取出的特征，判定其属于有限个类别中的哪一个。比如：

垃圾邮件识别(垃圾邮件/正常邮件)；

文本情感褒贬分析(褒/贬)；

图像内容识别识别(喵星人/汪星人/人类/草泥马/都不是)

回归问题

根据数据样本上抽取出的特征，预测一个连续值的结果。比如：

星爷《美人鱼》票房；

大帝都2个月后的房价；

隔壁熊孩子一天来你家几次，宠幸你多少玩具

聚类问题

根据数据样本上抽取出的特征，让样本抱抱团(相近/相关的样本在一团内)。比如：

google的新闻分类；

用户群体划分；

我们再把上述常见问题划到机器学习最典型的2个分类上。

分类与回归问题需要用已知结果的数据做训练，属于“监督学习”；

聚类的问题不需要已知标签，属于“非监督学习”。

如果在IT行业(尤其是互联网)里溜达一圈，你会发现机器学习在以下热点问题中有广泛应用：

计算机视觉

典型的应用包括：人脸识别、车牌识别、扫描文字识别、图片内容识别、图片搜索等等。

自然语言处理

典型的应用包括：搜索引擎智能匹配、文本内容理解、文本情绪判断，语音识别、输入法、机器翻译等等。

社会网络分析

典型的应用包括：用户画像、网络关联分析、欺诈作弊发现、热点发现等等。

推荐

典型的应用包括：虾米音乐的“歌曲推荐”，某宝的“猜你喜欢”等等。

入门方法与学习路径

OK，不废话，直接切重点丢干货了。看似学习难度大，曲线陡的机器学习，对大多数入门者也有一个比较通用的学习路径，也有一些优秀的入门资料可以降低大家的学习门槛，同时激发我们的学习乐趣。

数学基础

机器学习之所以相对于其他开发工作，更有门槛的根本原因就是数学。每一个算法，要在训练集上最大程度拟合同时又保证泛化能力，需要不断分析结果和数据，调优参数，这需要我们对数据分布和模型底层的数学原理有一定的理解。

微积分

微分的计算及其几何、物理含义，是机器学习中大多数算法的求解过程的核心。比如算法中运用到梯度下降法、牛顿法等。如果对其几何意义有充分的理解，就能理解“梯度下降是用平面来逼近局部，牛顿法是用曲面逼近局部”，能够更好地理解运用这样的方法。凸优化和条件最优化的相关知识在算法中的应用随处可见，如果能有系统的学习将使得你对算法的认识达到一个新高度。

线性代数

大多数机器学习的算法要应用起来，依赖于高效的计算，这种场景下，程序员GG们习惯的多层for循环通常就行不通了，而大多数的循环操作可转化成矩阵之间的乘法运算，这就和线性代数有莫大的关系了；向量的内积运算更是随处可见；矩阵乘法与分解在机器学习的主成分分析（PCA）和奇异值分解（SVD）等部分呈现刷屏状地出现。

概率与统计

从广义来说，机器学习在做的很多事情，和统计层面数据分析和发掘隐藏的模式，是非常类似的。

极大似然思想、贝叶斯模型是理论基础，朴素贝叶斯(Naive Bayes )、语言模型(N-gram)、隐马尔科夫（HMM）、隐变量混合概率模型是他们的高级形态。

常见分布如高斯分布是混合高斯模型(GMM)等的基础。

典型算法

绝大多数问题用典型机器学习的算法都能解决，粗略地列举一下这些方法如下：

处理分类问题的常用算法包括：逻辑回归(工业界最常用)，支持向量机，随机森林，朴素贝叶斯(NLP中常用)，深度神经网络(视频、图片、语音等多媒体数据中使用)。
处理回归问题的常用算法包括：线性回归，普通最小二乘回归（Ordinary Least Squares Regression），逐步回归（Stepwise Regression），多元自适应回归样条（Multivariate Adaptive Regression Splines）
处理聚类问题的常用算法包括：K均值（K-means），基于密度聚类，LDA等等。
降维的常用算法包括：主成分分析（PCA）,奇异值分解（SVD）等。
推荐系统的常用算法：协同过滤算法
模型融合(model ensemble)和提升(boosting)的算法包括：bagging，adaboost，GBDT，GBRT
其他很重要的算法包括：EM算法等等。

我们多插一句，机器学习里所说的“算法”与程序员所说的“数据结构与算法分析”里的“算法”略有区别。前者更关注结果数据的召回率、精确度、准确性等方面，后者更关注执行过程的时间复杂度、空间复杂度等方面。当然，实际机器学习问题中，对效率和资源占用的考量是不可或缺的。

编程语言、工具和环境

对初学者而言，Python和R语言是很好的入门语言，很容易上手，同时又活跃的社区支持，丰富的工具包帮助我们完成想法。相对而言，似乎计算机相关的同学用Python多一些，而数学统计出身的同学更喜欢R一些。

python

python有着全品类的数据科学工具，从数据获取、数据清洗到整合各种算法都做得非常全面。

网页爬虫：scrapy
数据挖掘：

pandas：模拟R，进行数据浏览与预处理；

numpy：数组运算；

scipy：高效的科学计算；

matplotlib：非常方便的数据可视化工具。

机器学习:

scikit-learn：远近闻名的机器学习package。未必是最高效的，但是接口真心封装得好，几乎所有的机器学习算法输入输出部分格式都一致。而它的支持文档甚至可以直接当做教程来学习，非常用心。对于不是非常高纬度、高量级的数据，scikit-learn胜任得非常好(有兴趣可以看看sklearn的源码，也很有意思)。

libsvm：高效率的svm模型实现(了解一下很有好处，libsvm的系数数据输入格式，在各处都非常常见)；

keras/TensorFlow：对深度学习感兴趣的同学，也能很方便地搭建自己的神经网络了；

自然语言处理:

nltk：自然语言处理的相关功能做得非常全面，有典型语料库，而且上手也非常容易。

交互式环境：

ipython notebook：能直接打通数据到结果的通道，方便至极，强力推荐。

R最大的优势是开源社区，聚集了非常多功能强大可直接使用的包，绝大多数的机器学习算法在R中都有完善的包可直接使用，同时文档也非常齐全。常见的package包括：RGtk2, pmml, colorspace, ada, amap, arules, biclust, cba, descr, doBy, e1071, ellipse等等。另外，值得一提的是R的可视化效果做得非常不错，而这对于机器学习是非常有帮助的。

大数据相关

Hadoop：基本上是工业界的标配了。一般用来做特征清洗、特征处理的相关工作。
spark：提供了MLlib这样的大数据机器学习平台，实现了很多常用算法。但可靠性、稳定性上有待提高。

操作系统

mac和linux会方便一些，而windows在开发中略显力不从心。所谓方便，主要是指的mac和linux在下载安装软件、配置环境更快捷。
对于只习惯windows的同学，推荐anaconda，一步到位安装完python的全品类数据科学工具包。

基本工作流程

以上我们基本具备了机器学习的必要条件，剩下的就是怎么运用它们去做一个完整的机器学习项目。其工作流程如下：

抽象成数学问题

明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情，胡乱尝试时间成本是非常高的。
这里的抽象成数学问题，指的我们明确我们可以获得什么样的数据，目标是一个分类还是回归或者是聚类的问题，如果都不是的话，如果划归为其中的某类问题。

获取数据

数据决定了机器学习结果的上限，而算法只是尽可能逼近这个上限。
数据要有代表性，否则必然会过拟合。
而且对于分类问题，数据偏斜不能过于严重，不同类别的数据数量不要有数个数量级的差距。
而且还要对数据的量级有一个评估，多少个样本，多少个特征，可以估算出其对内存的消耗程度，判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实在太大，那就要考虑分布式了。

特征预处理与特征选择

良好的数据要能够提取出良好的特征才能真正发挥效力。
特征预处理、数据清洗是很关键的步骤，往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等，数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制，收益稳定可预期，是机器学习的基础必备步骤。
筛选出显著特征、摒弃非显著特征，需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择好了，非常简单的算法也能得出良好、稳定的结果。这需要运用特征有效性分析的相关技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。

训练模型与调优

直到这一步才用到我们上面说的算法进行训练。现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的（超）参数，使得结果变得更加优良。这需要我们对算法的原理有深入的理解。理解越深入，就越能发现问题的症结，提出良好的调优方案。

模型诊断

如何确定模型调优的方向与思路呢？这就需要对模型进行诊断的技术。

过拟合、欠拟合判断是模型诊断中至关重要的一步。常见的方法如交叉验证，绘制学习曲线等。过拟合的基本调优思路是增加数据量，降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量，增加模型复杂度。
误差分析也是机器学习至关重要的步骤。通过观察误差样本，全面分析误差产生误差的原因:是参数的问题还是算法选择的问题，是特征的问题还是数据本身的问题……
诊断后的模型需要进行调优，调优后的新模型需要重新进行诊断，这是一个反复迭代不断逼近的过程，需要不断地尝试，进而达到最优状态。

模型融合

一般来说，模型融合后都能使得效果有一定提升。而且效果很好。
工程上，主要提升算法准确度的方法是分别在模型的前端（特征清洗和预处理，不同的采样模式）与后端（模型融合）上下功夫。因为他们比较标准可复制，效果比较稳定。而直接调参的工作不会很多，毕竟大量数据训练起来太慢了，而且效果难以保证。

上线运行

这一部分内容主要跟工程实现的相关性比较大。工程上是结果导向，模型在线上运行的效果直接决定模型的成败。不单纯包括其准确程度、误差等情况，还包括其运行的速度(时间复杂度)、资源消耗程度（空间复杂度）、稳定性是否可接受。

这些工作流程主要是工程实践上总结出的一些经验。并不是每个项目都包含完整的一个流程。这里的部分只是一个指导性的说明，只有大家自己多实践，多积累项目经验，才会有自己更深刻的认识。

关于积累项目经验

初学机器学习可能有一个误区，就是一上来就陷入到对各种高大上算法的追逐当中。『脱离业务和数据的算法讨论是毫无意义的』。

从一个数据源开始，即使是用最传统，已经应用多年的机器学习算法，先完整地走完机器学习的整个工作流程，不断尝试各种算法深挖这些数据的价值，在运用过程中把数据、特征和算法搞透，真正积累出项目经验才是最快、最靠谱的学习路径。
那如何获取数据和项目呢？一个捷径就是积极参加国内外各种数据挖掘竞赛，数据直接下载下来，按照竞赛的要求去不断优化，积累经验。国外的Kaggle和国内的DataCastle 以及阿里天池比赛都是很好的平台，你可以在上面获取真实的数据和数据科学家们一起学习和进行竞赛，尝试使用已经学过的所有知识来完成这个比赛本身也是一件很有乐趣的事情。和其他数据科学家的讨论能开阔视野，对机器学习算法有更深层次的认识。

深度学习高手该怎样炼成

作者 | 刘昕

深度学习本质上是深层的人工神经网络，它不是一项孤立的技术，而是数学、统计机器学习、计算机科学和人工神经网络等多个领域的综合。深度学习的理解，离不开本科数学中最为基础的数学分析（高等数学）、线性代数、概率论和凸优化；深度学习技术的掌握，更离不开以编程为核心的动手实践。没有扎实的数学和计算机基础做支撑，深度学习的技术突破只能是空中楼阁。

所以，想在深度学习技术上有所成就的初学者，就有必要了解这些基础知识之于深度学习的意义。除此之外，我们的专业路径还会从结构与优化的理论维度来介绍深度学习的上手，并基于深度学习框架的实践浅析一下进阶路径。

最后，本文还将分享深度学习的实践经验和获取深度学习前沿信息的经验。

数学基础

如果你能够顺畅地读懂深度学习论文中的数学公式，可以独立地推导新方法，则表明你已经具备了必要的数学基础。

掌握数学分析、线性代数、概率论和凸优化四门数学课程包含的数学知识，熟知机器学习的基本理论和方法，是入门深度学习技术的前提。因为无论是理解深度网络中各个层的运算和梯度推导，还是进行问题的形式化或是推导损失函数，都离不开扎实的数学与机器学习基础。

数学分析：在工科专业所开设的高等数学课程中，主要学习的内容为微积分。对于一般的深度学习研究和应用来说，需要重点温习函数与极限、导数（特别是复合函数求导）、微分、积分、幂级数展开、微分方程等基础知识。在深度学习的优化过程中，求解函数的一阶导数是最为基础的工作。当提到微分中值定理、Taylor公式和拉格朗日乘子的时候，你不应该只是感到与它们似曾相识。这里推荐同济大学第五版的《高等数学》教材。

线性代数：深度学习中的运算常常被表示成向量和矩阵运算。线性代数正是这样一门以向量和矩阵作为研究对象的数学分支。需要重点温习的包括向量、线性空间、线性方程组、矩阵、矩阵运算及其性质、向量微积分。当提到Jacobian矩阵和Hessian矩阵的时候，你需要知道确切的数学形式；当给出一个矩阵形式的损失函数时，你可以很轻松的求解梯度。这里推荐同济大学第六版的《线性代数》教材。

概率论：概率论是研究随机现象数量规律的数学分支，随机变量在深度学习中有很多应用，无论是随机梯度下降、参数初始化方法（如Xavier），还是Dropout正则化算法，都离不开概率论的理论支撑。除了掌握随机现象的基本概念（如随机试验、样本空间、概率、条件概率等）、随机变量及其分布之外，还需要对大数定律及中心极限定理、参数估计、假设检验等内容有所了解，进一步还可以深入学习一点随机过程、马尔可夫随机链的内容。这里推荐浙江大学版的《概率论与数理统计》。

凸优化：结合以上三门基础的数学课程，凸优化可以说是一门应用课程。但对于深度学习而言，由于常用的深度学习优化方法往往只利用了一阶的梯度信息进行随机梯度下降，因而从业者事实上并不需要多少“高深”的凸优化知识。理解凸集、凸函数、凸优化的基本概念，掌握对偶问题的一般概念，掌握常见的无约束优化方法如梯度下降方法、随机梯度下降方法、Newton方法，了解一点等式约束优化和不等式约束优化方法，即可满足理解深度学习中优化方法的理论要求。这里推荐一本教材，Stephen Boyd的《Convex Optimization》。

机器学习：归根结底，深度学习只是机器学习方法的一种，而统计机器学习则是机器学习领域事实上的方法论。以监督学习为例，需要你掌握线性模型的回归与分类、支持向量机与核方法、随机森林方法等具有代表性的机器学习技术，并了解模型选择与模型推理、模型正则化技术、模型集成、Bootstrap方法、概率图模型等。深入一步的话，还需要了解半监督学习、无监督学习和强化学习等专门技术。这里推荐一本经典教材《The elements of Statistical Learning》。

计算机基础

深度学习要在实战中论英雄，因此具备GPU服务器的硬件选型知识，熟练操作Linux系统和进行Shell编程，熟悉C++和Python语言，是成长为深度学习实战高手的必备条件。当前有一种提法叫“全栈深度学习工程师”，这也反映出了深度学习对于从业者实战能力的要求程度：既需要具备较强的数学与机器学习理论基础，又需要精通计算机编程与必要的体系结构知识。

编程语言：在深度学习中，使用最多的两门编程语言分别是C++和Python。迄今为止，C++语言依旧是实现高性能系统的首选，目前使用最广泛的几个深度学习框架，包括Tensorflow、Caffe、MXNet，其底层均无一例外地使用C++编写。而上层的脚本语言一般为Python，用于数据预处理、定义网络模型、执行训练过程、数据可视化等。当前，也有Lua、R、Scala、Julia等语言的扩展包出现于MXNet社区，呈现百花齐放的趋势。这里推荐两本教材，一本是《C++ Primer第五版》，另外一本是《Python核心编程第二版》。

Linux操作系统：深度学习系统通常运行在开源的Linux系统上，目前深度学习社区较为常用的Linux发行版主要是Ubuntu。对于Linux操作系统，主要需要掌握的是Linux文件系统、基本命令行操作和Shell编程，同时还需熟练掌握一种文本编辑器，比如VIM。基本操作务必要做到熟练，当需要批量替换一个文件中的某个字符串，或者在两台机器之间用SCP命令拷贝文件时，你不需要急急忙忙去打开搜索引擎。这里推荐一本工具书《鸟哥的Linux私房菜》。

CUDA编程：深度学习离不开GPU并行计算，而CUDA是一个很重要的工具。CUDA开发套件是NVidia提供的一套GPU编程套件，实践当中应用的比较多的是CUDA-BLAS库。这里推荐NVidia的官方在线文档http://docs.nvidia.com/cuda/。

其他计算机基础知识：掌握深度学习技术不能只满足于使用Python调用几个主流深度学习框架，从源码着手去理解深度学习算法的底层实现是进阶的必由之路。这个时候，掌握数据结构与算法（尤其是图算法）知识、分布式计算（理解常用的分布式计算模型），和必要的GPU和服务器的硬件知识（比如当我说起CPU的PCI-E通道数和GPU之间的数据交换瓶颈时，你能心领神会），你一定能如虎添翼。

深度学习入门

接下来分别从理论和实践两个角度来介绍一下深度学习的入门。

深度学习理论入门：我们可以用一张图（图1）来回顾深度学习中的关键理论和方法。从MCP神经元模型开始，首先需要掌握卷积层、Pooling层等基础结构单元，Sigmoid等激活函数，Softmax等损失函数，以及感知机、MLP等经典网络结构。接下来，掌握网络训练方法，包括BP、Mini-batch SGD和LR Policy。最后还需要了解深度网络训练中的两个至关重要的理论问题：梯度消失和梯度溢出。

以卷积神经网络为例，我们用图2来展示入门需要掌握的知识。起点是Hubel和Wiesel的对猫的视觉皮层的研究，再到日本学者福岛邦彦神经认知机模型（已经出现了卷积结构），但是第一个CNN模型诞生于1989年，1998年诞生了后来被大家熟知的LeNet。随着ReLU和Dropout的提出，以及GPU和大数据所带来的历史机遇，CNN在2012年迎来了历史性的突破——诞生了AlexNet网络结构。2012年之后，CNN的演化路径可以总结为四条：1. 更深的网络；2. 增强卷积模的功能以及上诉两种思路的融合ResNet和各种变种；3. 从分类到检测，最新的进展为ICCV 2017的Best Paper Mask R-CNN；4. 增加新的功能模块。

深度学习实践入门：掌握一个开源深度学习框架的使用，并进一步的研读代码，是实际掌握深度学习技术的必经之路。当前使用最为广泛的深度学习框架包括Tensorflow、Caffe、MXNet和PyTorch等。框架的学习没有捷径，按照官网的文档step by step配置及操作，参与GitHub社区的讨论，遇到不能解答的问题及时Google是快速实践入门的好方法。

初步掌握框架之后，进一步的提升需要依靠于具体的研究问题，一个短平快的策略是先刷所在领域权威的Benchmark。例如人脸识别领域的LFW和MegaFace，图像识别领域与物体检测领域的ImageNet、Microsoft COCO，图像分割领域的Pascal VOC等。通过复现或改进别人的方法，亲手操练数据的准备、模型的训练以及调参，能在所在领域的Benchmark上达到当前最好的结果，实践入门的环节就算初步完成了。

后续的进阶，就需要在实战中不断地去探索和提升了。例如：熟练的处理大规模的训练数据，精通精度和速度的平衡，掌握调参技巧、快速复现或改进他人的工作，能够实现新的方法等等。

深度学习实战经验

在这里，分享四个方面的深度学习实战经验。

1. 充足的数据。大量且有标注的数据，依旧在本质上主宰着深度学习模型的精度，每一个深度学习从业者都需要认识到数据极端重要。获取数据的方式主要有三种：开放数据（以学术界开放为主，如ImageNet和LFW）、第三方数据公司的付费数据和结合自身业务产生的数据。

2. 熟练的编程实现能力。深度学习算法的实现离不开熟练的编程能力，熟练使用Python进行编程是基础。如果进一步的修改底层实现或增加新的算法，则可能需要修改底层代码，此时熟练的C++编程能力就变得不可或缺。一个明显的现象是，曾经只需要掌握Matlab就可以笑傲江湖的计算机视觉研究者，如今也纷纷需要开始补课学习Python和C++了。

3. 充裕的GPU资源。深度学习的模型训练依赖于充裕的GPU资源，通过多机多卡的模型并行，可以有效的提高模型收敛速度，从而更快的完成算法验证和调参。一个专业从事深度学习的公司或实验室，拥有数十块到数百块的GPU资源已经是普遍现象。

4. 创新的方法。以深度学习领域权威的ImageNet竞赛为例，从2012年深度学习技术在竞赛中夺魁到最后一届2017竞赛，方法创新始终是深度学习进步的核心动力。如果只是满足于多增加一点数据，把网络加深或调几个SGD的参数，是难以做出真正一流的成果的。

根据笔者的切身经历，方法创新确实能带来难以置信的结果。一次参加阿里巴巴组织的天池图像检索比赛，笔者提出的一点创新——使用标签有噪声数据的新型损失函数，结果竟极大地提高了深度模型的精度，还拿到了当年的冠军。

深度学习前沿

【前沿信息的来源】

实战中的技术进阶，必需要了解深度学习的最新进展。换句话说，就是刷论文：除了定期刷Arxiv，刷代表性工作的Google Scholar的引用，关注ICCV、CVPR和ECCV等顶级会议之外，知乎的深度学习专栏和Reddit上时不时会有最新论文的讨论（或者精彩的吐槽）。

一些高质量的公众号，例如Valse前沿技术选介、深度学习大讲堂、Paper Weekly等，也时常有深度学习前沿技术的推送，也都可以成为信息获取的来源。同时，关注学术界大佬LeCun和Bengio等人的Facebook/Quora主页，关注微博大号“爱可可爱生活”等人，也常有惊喜的发现。

【建议关注的重点】

新的网络结构。在以SGD为代表的深度学习优化方法没有根本性突破的情况下，修改网络结构是可以较快提升网络模型精度的方法。2015年以来，以ResNet的各种改进为代表的各类新型网络结构如雨后春笋般涌现，其中代表性的有DenseNet、SENet、ShuffuleNet等。

新的优化方法。纵观从1943年MCP模型到2017年间的人工神经网络发展史，优化方法始终是进步的灵魂。以误差反向传导（BP）和随机梯度下降（SGD）为代表的优化技术的突破，或是Sigmoid/ReLU之后全新一代激活函数的提出，都非常值得期待。笔者认为，近期的工作如《Learning gradient descent by gradient descent》以及SWISH激活函数，都很值得关注。但能否取得根本性的突破，也即完全替代当前的优化方法或ReLU激活函数，尚不可预测。

新的学习技术。深度强化学习和生成对抗网络（GAN）。最近几周刷屏的Alpha Zero再一次展示了深度强化学习的强大威力，完全不依赖于人类经验，在围棋项目上通过深度强化学习“左右互搏”所练就的棋力，已经远超过上一代秒杀一众人类高手的AlghaGo Master。同样的，生成对抗网络及其各类变种也在不停地预告一个学习算法自我生成数据的时代的序幕。笔者所在的公司也正尝试将深度强化学习和GAN相结合，用于跨模态的训练数据的增广。

新的数据集。数据集是深度学习算法的练兵场，因此数据集的演化是深度学习技术进步的缩影。以人脸识别为例，后LFW时代，MegaFace和Microsoft Celeb-1M数据集已接棒大规模人脸识别和数据标签噪声条件下的人脸识别。后ImageNet时代，Visual Genome正试图建立一个包含了对象、属性、关系描述、问答对在内的视觉基因组。

作者简介：刘昕，工学博士，毕业于中国科学院计算技术研究所，师从山世光研究员。主要从事计算机视觉技术和深度学习技术的研究与工业化应用，现担任人工智能初创公司中科视拓CEO。

本文为《程序员》原创文章

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。