【机器学习】大规模机器学习平台的整体架构和实现细节

2017 年 9 月 12 日 产业智能官 第四范式

近日,第三届“国际人工智能与大数据高峰论坛”在北京国家会议中心召开,本届峰会聚焦于前沿人工智能技术与产业应用。作为人工智能行业领军人物,第四范式联合创始人、首席架构师胡时伟受邀出席大会,并以“大规模机器学习平台的技术实现”为题,发表了主题演讲。


胡时伟曾主持了百度商业客户运营、凤巢新兴变现、商业“知心”搜索、阿拉丁生态等多个核心系统的架构设计工作;后作为链家网创始团队成员,从0开始完成链家网新主站的架构设计,推动链家系统和研发体系的互联网化转型。现任第四范式首席架构师,带领研发团队打造出国内首款人工智能全流程平台“第四范式·先知”。


以下内容根据胡时伟主题演讲编写,略有删减。

 

大家好!我是来自第四范式的胡时伟,非常荣幸能够与大家分享第四范式在AI技术方面的探索以及全新的尝试。


首先,我们讲到人工智能时,大家会问,它是不是还停留在一个不确定是否成立的时代?尽管它已经可以做一些图像识别的工作,在下围棋或者打游戏等方面甚至战胜了人类。但是人工智能在商业和工业生产领域的实际表现如何呢?我列出了以下几个方向,均是第四范式在服务客户的过程中,真正利用人工智能技术产生效果的领域,比如实时风控、交易反欺诈、个性化推荐等,这些领域都实现了运营效果数倍的提升。



AI的三大优势:精细、智能、高效



AI为何能促进业务提升呢?我们总结了一下,在以下三个方面,AI会和以前的方式有所区别。


首先是精细:

人工智能系统对个性化和微观业务场景的分析和预测能力的要求已经超过过去的想象。以反欺诈为例,如今,大部分交易都已经转移到移动支付或者互联网上,欺诈交易的比例和绝对数量变得越来越多。我们过去怎么解决这个问题呢?每当出现一笔欺诈交易时,由案件中心来对交易进行分析,然后整理出一些规则,例如这笔交易的金额大于某个数额,或是一定时间范围内,该笔交易的地点与上一个交易地点之间的距离过大,案件中心会认为它是一笔欺诈的交易。实际上,在影响欺诈的因素当中除了强规则,还有很多长尾因素,例如全国每一个区域发生交易欺诈的规律都是不一样的,所以过去专家整理出的上百条规则只能对全国的交易进行分析,而对于每个具体的省市,甚至是某一个村,这些规则其实是覆盖不了的。



如今,我们利用AI技术,可以实现更加精细的分析和预测。就像上图表示的一样,传统的方式是基于一些规则将人群划分,假设全国有两亿名移动支付用户的话,划分为上百种人群,单一群体就有两千万,丢失了对每个客户的个性化描述。而机器可以把客群分成上千万甚至是上亿份,可以直接定位到个人来总结出统计规律,这样便不易造成误判或者是漏判。


其次是智能:

此前,为了产生商业智能我们会利用大数据进行分析,去找规律中的较强的变量。但随着时间的变化,这些变量会发生一定的改变,例如在营销领域,以往的做法是找出一些规则——买苹果手机或者相机可能是高端的消费,对其进行营销比较有效果。但是不同时代的高端消费品是不同的。所以,采用专家规则的话,每隔三个月到半年就要对规则进行更新,人工智能则不然,我们可以基于数据做成一个闭环的系统,它能够用机器代替人,从广泛的数据当中筛选出海量的规则,并且规则以及权重可以随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。




最后一点是高效:

之前提及的反欺诈、新闻推荐、营销等领域,它们对实时性的要求越来越高,反欺诈系统必须在几十毫秒之内判定交易是否有问题,营销系统需快速判定客户对某个商品的消费意愿。在某种意义上讲,企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。



构建商业AI能力的五大要素



那AI究竟是什么呢?在AlphaGo1.0时代,它学习了几千万盘的棋谱数据,并依靠深度学习、迁移学习,强化学习等机器学习算法,成为了围棋界的顶尖高手。我们认为大数据就是大米,机器学习是电饭锅,人工智能就是做出来的米饭。在AI领域,就是利用各个领域的海量数据,依靠机器学习的方式,来输出人工智能的能力。


我们认为构建商业AI的能力有5个要素,分别是有意义的过程数据、反馈数据、算法、计算资源、业务需求。


这里通过一个实际案例来解释这5个要素,假如我是一个市场覆盖率很高的点餐Pad提供商,为了实现AI一键点餐的功能,增加食客满意度,同时提升翻台率,那么我就需要收集食客们历史点菜记录、浏览记录,以及当前餐馆的菜品安排、客流量等等相关数据,也就是上文提到的过程数据。


此外,企业还需要找到可被机器学习优化的业务目标。比如,尽管点餐Pad的最终优化目标是翻台率,但企业需要将它转换为机器能够理解并且优化的指标,即点餐时间、上菜时间,食客进食时间这三个指标,只要能够提升这三项指标,就可以提高翻台率。假设餐厅有25种菜,PAD选择推荐一道菜,即使推荐错,也并不太会影响实际体验。但这个反馈数据可以用于判断某个食客对某道菜品的喜爱程度,将这个概率和厨房做菜时间、菜品平均进食时间等指标,合做成函数后进行排序,再通过Pad实时推荐的方式供给客户选择。这样就完成了实际需求(翻台率)到机器学习问题(某个人喜欢某个菜品的概率)的转换。


除此之外,企业还需要收集数字化、不间断的反馈数据,形成闭环。今天给顾客A推荐了X这个菜,如果他选择了,就反馈1,不选择就反馈0。这些数据在如今很多企业以及场景中是可以收集的,因此我们要把数据的采集及存储过程做好。


如今,有很多行业已经具备了以上三个要素,为什么AI并没有广泛的应用?我们认为还缺少算法和计算资源。如果我想判定A喜不喜欢X,机器会给出一个概率,算法解决的是让这个概率变得更准。像AlphaGo、无人驾驶、人脸识别等运用的机器学习算法,其实都是用大量的计算资源来对数据进行计算,优秀的算法下层还要有很强的计算资源来支持。



商业AI构建的难点



对于企业来说,想要走向AI时代,应该具备什么样的条件呢?首先从如何利用数据的角度上讲,这个数据的维度应该是数千万到数十亿的。我们不仅要进行全国欺诈交易规则的判定,还要精细到每个省、市、村,每个商品、每类人群。如果要把全国十几亿人划分成不同的组,每个组里面可能有几千万人,这就需要非常庞大的AI进行大规模的特征工程探索。


我们今天应该考虑的是以省的成分去区分还是以市的成分去区分,如果以市的成分区分,那这两个市是合并还是区分。如果用人工的方式,我们就需要非常多的技术人员或业务专家通过一些方式去写算法或者规则。假设我们有几千万条数据,将这些数据进行机器学习时,是需要一个非常大规模的算法。如今,在业界最为流行的算法就是神经网络,神经网络最大的特点就是深层,深层的神经网络能够表示的客观现象非常丰富。理论上说,对于训练好的网络,我们把数据输入进去,它会告诉你哪个是猫和狗。但是实际上,这个训练好的网络非常难获得。我们用神经网络去判断一个交易是不是欺诈,还是判别每个食客对这个菜是否产生兴趣时,神经网络的结构和中间的函数,都需要经验丰富的机器学习专家来进行反复的调试。


通常大家会说这个过程是炼丹,通过一个模型的变化,来适应场景,这就导致企业面临需要招聘大量AI人才的困境。且反欺诈的模型,是不复用在点餐PAD上的。这里面存在着一个改进的机会,本身人去探索模型的过程,是不是也可以被机器替代?我们可否用一个人工智能的数据科学家去替代人,并通过特殊工程的方式自动的对场景建模。


另外还有一个点叫做模型除错。建立好的模型在实际的应用过程中,会出现各种各样的问题,其中最常见的就是过拟合。教科书上告诉大家要做交叉验证,但验证过程中,发现你的模型在线下销售特别好,线上却出现大量时间序列的问题,比如我们利用历史数据得到规律去预测未来。但由于数据极为复杂,有时却无法分清哪些是历史和未来,这与系统如何设计信息有关系,理想状况下,专家会利用经验排除过程中的风险。


如何把一个团队的数据工程师变成AI专家呢?我们认为需要对下图这四个方面进行一些改进。首先是特征工程,它是把原始的数据通过一些方式进行衍生,能够把人群能够划分足够精细的这么一种变量衍生的方式。



其次是模型规模。我们原先用统计的方式做模型,通常有十到二十个变量,现在用大数据、分布式的方式可以做到成百上千个变量。由于现在拥有海量的数据,所以足够支撑一个上亿乃至数千亿规模的维度变量,这就需要极高维度、分布式的机器学习系统。


另外在模型算法和除错方面,我们也需要一些成型的产品,让数据科学家、工程师直接调用,产生有效的模型,避免犯错。


敏捷的AI应用构建平台——先知



沿着这个思路,第四范式打造了先知平台,它可以大幅缩减数据工程师在数据处理、模型调参、模型评估以及上线方面的工作量,从而把大量的时间花在如何搜集有意义的数据上。




下图是类似于操作系统的先知界面,如果我们有一个TB级的原始数据,例如某银行历史年交易数据,里面可能覆盖了几千万条,甚至上亿条交易数据,其中包含了交易时所对应的人、卡与交易的信息,我们只要通过拖拽的方式做一个图(如下图),就能轻松实现一个完整的机器学习过程。




先知会在数据拆分、数据清洗、特征工程等方面做一些简化。更进一步讲何为特征工程,比如如何能够生成一条规则,机器可以把人的职业、性别、年龄、工作地点、消费地点、时间、以及消费金额等特征进行组合,就相当于把几千万条交易分成几百万类或者几十万类,让机器从这几百万类当中判定哪些交易具有欺诈风险。




该过程以往要技术人员去写SQL或者Spark脚本的方式产生,如今在先知中,机器可以自动产生脚本、程序,其中有两种特征编码的方式和支持多种高维特征处理方法,像数值处理,日期处理,切词和排序等等。


另外,特征重要性分析防止穿越。比如,我们用过去的交易行为数据来判断该用户是否会在短信营销之后,购买理财产品。因为用户购买理财产品要预测的事情,我们不会把它当做已有的变量,而用户资产会随着买理财的数额发生变化。所以,一旦把用户购买的资产作为一个特征的话,就会发现凡是用户在月底资产上升的都喜欢买理财产品,这就是一个典型的穿越特征。并不是因为该用户资产上升,才喜欢买理财产品,而是因为他买了理财产品之后资产才上升。




实际建模过程中,还会包含一些人很难发现的间接穿越特征,如上图所示,它会表现为一个非常长的条,其中就有可能涉及到穿越的特征,我们要把这些特征删除。


另外还有一个叫做自动特征组合。假设一个人在半小时内发生了两笔交易,地点分别在北京和深圳,这就是一个违背自然规律的事情。




实际上,数据当中还有多少组合,数据科学家不一定能够轻易判断出来。所以先知具备自动特征组合的探索功能,在一个非常广的空间里面,通过本质上是一个暴力搜索的方式进行探索。实际上由于计算代价很高,纯粹的暴力搜索是做不到的。我们通过一些算法,将它降到一个正常情况下可以接受的时间内,且能做到5阶甚至6阶的有效特征,这个其实可以大大减少科学家的工作量,以及对数据理解的时间。


另外,模型调参也是一个比较复杂的过程。通常来讲,调参是一个寻找全局最优的方式。但调参又不是一个凸函数,所以它很容易找到局部最优。先知平台嵌入了自动调参的算法,我们把训练集合和测试集合放进去,系统可以自动告诉你一个相对比较优的参数组合。自动调参功能的实现让普通的业务人员也可以轻松完成过去只有数据科学家才能完成的工作。


先知平台中,还有一些可视化的评估报告,可以让用户很容易的判断一个模型的效果。



除此之外,企业在实际构建人工智能应用的过程当中,如何将已经做好的模型投入到生产中是非常重要的环节。我们刚刚讲到,假设我们已经有了几千万个特征甚至几亿个特征变量,意味着最后可以生成上亿的规则,这些规则如何在系统中应用呢?比如在反欺诈系统中,可能要在20毫秒之内,判定一个交易是不是欺诈。所以对于每个企业来讲,需要一个极强的线上分布式预估系统。目前,只要有足够的底层计算资源,先知平台可以通过一个非常简单的方式,就可以形成一个处理上万并发请求的实时接口。下图就是先知平台的架构,刚刚界面里面是调研的平台,我们可以通过拖拽的方式完成模型训练的过程。另外还有自学习平台和预估服务平台,把源源不断的知识送到模型系统中,从而让它适应新的环境,并且提供实时的在线应用。



先知平台背后的技术积累



前面讲到先知平台可以做什么,后面想跟大家分享一下先知平台实现过程当中的一些技术思考。机器学习最重要的是算法,算法的选择可以参考工业界应用算法的四个象限。



过去,工业界通常会用一些逻辑回归的模型或者决策树,其特点是变量和层数比较少,在数据量小的情况下比较有用。


右上角是一个微观特征和复杂模型的象限,可以认为是一个由多个模型集成的一个非常深度的网络,或者是一个非常复杂的网络结构,同时会使用大量的变量。现阶段工业界还难以做到这一点,因为其需要几千台机器来去解决一个问题,成本过高。


另外两个选择中,一个是宏观特征和复杂模型,也就是深度神经网络今天所走的路,这个网络的输入项可能只有几百个变量,但是网络的深度比较深,我们可以通过人去调试,来最后得到一个好的效果。


另外一条路其实是像谷歌、百度走的方向,是微观特征和简单模型。例如我们依然使用逻辑回归的算法,但是我们把一个变量的数量提升到亿级别甚至几十亿级别,这样通过变量的组合,同样可以用线性模型表达非线性的问题,从而得到比较好的效果。




基于此,第四范式自主研发了大规模分布式并行计算框架GDBT(General Distributed BrilliantTechnology)。我们自主研发机器学习框架的目的,是因为像Tensorflow这类的机器学习框架面向的是“深”,就是我们前面所讲的左上角的象限,它可以接受比较小的数据输入,但要做比较复杂的结构,就需要非常多经验丰富的机器学习专家,针对一个问题要花费三个月甚至是更长时间才能调出一个好的模型。



第四范式的GDBT可以用数据本身的组合去进行一些破解。这样对使用者来说,对数学等概念性的理解要求降低,只需对数据有一定的了解。


GDBT也开发了很多标准的算法优化,其中有一个算法叫做逻辑回归,一般开源的框架里面也有逻辑回归,但是在特征维度、数据兼容性上、样本数据、是否要抽样等方面与我们有本质的区别。



另外在算法当中,有一个树的算法是GBDT,由于底层有一个大规模的分布式框架的支持,所以在先知平台内部,样本数量和特征数量其实是没有限制的,由平台的结点规模而定,这样我们可以多棵树进行迭代。



再向大家介绍一下高性能的特征工程框架。我们原始有一个二维表,比如说做一个新闻推荐,我们就会有用户的相关信息,比如手机型号、浏览器型号。如果把它转为一个高维稀疏的高维矩阵的话,其实就成了用户手机型号、屏幕大小、用户位置及时间、新闻标题等,我们会这些数据转化成一个个特征值,整个矩阵就变成了高维稀疏的模型,这个过程中要对数据的每一行进行大量的组合。


这个过程中,我们需要高性能的特征工程框架。在解决性能问题时,第四范式主要做了以下几点工作。首先我们前面所讲到的人其实可以写一些伪代码,机器自动翻译成脚本,并把它转译成JVM底层的代码,通过一些缓存的方式,来做到整体的过程优化。这个过程的优化,几千万条、数十TB的原始数据,可以在几个小时之内,形成一个25亿维的高维的特征矩阵。


其次还有一个面向机器学习特征的蓄水池,这个主要解决什么问题呢?我们有一个重要的特征,叫做用户前三次、前五次、前七次交易的平均交易金额,通常我们会用Storm做一个预先计算,但是对机器学习的问题来讲,由于这个特征非常多,所以预先计算会变得特别复杂。所以我们不是预先去计算这些变量,而是我们选择一个实时的数据库,可以迅速的获取一千条数据,然后实时的衍生这些特征。这就需要一个高性能的在线实时数据库,先知中便包含了非常高性能的实时特征运算组件。


此外还有线上服务的支撑,我们刚才讲到用Web层去做的先知的流图,其实它在转化成线上的DAG图的时候,通常要做一些数据拼接、特征工程、特征转换等工作。先知有一个模型工厂、模型仓库的概念,从线上到线下JAVA程序的转变是自动完成的。



先知本质上来讲,在Web上做的UI提交的任务,可以通过一个Kubernetes的架构,它会翻译成一个Spark的任务或者GDBT的任务。也就是说,我们在界面上拖拖拽拽的结果中间会转换成图,然后进行一定的优化和执行。所以说先知里面其实是有一个比较高层次的任务执行工作流引擎。



可以说先知整体是一个容器化的部署,既可以部署在像金融机构等注重绝对安全的企业中,也可以在公有云上运行。我们在设计这个平台架构的时候,其实用的是混合云的架构。但是在企业里面由于一些内核或是运维的原因,特别是银行对于这些基础技术的运用比较谨慎,我们实现了一个符合的应用,其实K8s是用docker和network来完成网络和安全的。我们做了一个轻量级容器,能够把network调度到端口层面来运行,这样就可以做到在企业内部,甚至不需要Root权限,也可以做到应用的高可用。


总结上来讲,先知作为一个平台的目标是使计算的生产力易于获取,我们尽量让大家用GUI和简单的脚本形式,表面上看起来和传统用SaaS做一个模型是一样的,背后实际上是一个高维度的机器学习的框架。对于机器学习来讲,计算是第一生产力——调参的过程就意味着将一个机器学习的过程做几十次或者上百次,而先知的GDBT框架比Spark可以快上数百倍,这就意味着在同等时间内、同样的计算资源下,先知能有探索更高维度模型的机会,最终减少对使用者的需求。



此前,我们运用先知平台在金融领域和互联网领域完成了一些成功案例。在实际的运用过程当中,不需要专业的人员不停调整模型的结构,我们采用一种比较统一的高维度的若干组机器学习,或者基于树的逻辑回归算法,同时辅以大量的数据和机器学习的过程来完成这些案例



最后,我们还是回到前面讲到的点餐的问题。这个问题如果放在先知上应该怎么做呢?首先要准备过程数据(食客的属性、食客点了什么菜、系统给他推荐的菜他是否接受等),整个数据盘算一下,三个月的过程数据大概有几百GB规模,可以引入到先知平台上。接下来我们采用自动特征组合、自动调参等功能,在三种不同的算法当中进行不同的选择,大概要经历三个72小时自动训练的时间,之后就能够得到一个API,这个API可以嵌入到实际的点餐系统中,就可以为食客推荐他最喜欢的菜品,而且每一个用户都能够看到当前餐馆里面厨师已经做好的菜里面他最喜欢哪一个,体验上也更加人性化、个性化。


综上所述,今天的人工智能,当业务问题满足了五大要素,并且有了一个好的机器学习平台,背后有非常强大的计算能力的情况下,已经可以较为通用的解决一些行业的问题。




延展阅读:应用 AI 之前,你必须了解的 10 项准备工作


这篇文章对你的人工智能和机器学习项目进行分解,讨论其各个部分所带来的影响,从而帮助你确定公司是否真正准备利用机器学习、深度学习或人工智能。


编译 | Rik R 藤子
来源 | CIO


不是每一个问题都可以通过机器学习来解决,且不是每一个公司都准备应用人工智能。本文会告诉你,你的公司是否有利用人工智能的条件,以及在那之前如何才能实现它。


首先,你知道自己想要预测或检测什么吗?你有足够的数据进行分析以建立预测模型吗?你有定义模型和训练模型所需的人员和工具吗?你已经有了统计或物理模型来作为一个预测基准吗?


这篇文章对你的人工智能和机器学习项目进行分解,讨论其各个部分所带来的影响,从而帮助你确定公司是否真正准备需要利用机器学习、深度学习或人工智能。


你拥有大量的数据


足够的相关数据是预测和特征识别的必要条件。有了它,你可能会成功;没有它,则注定失败。那么你需要多少数据呢?你尝试纳入模型的因素越多,所需要的数据就越多,无论你是在做普通的统计预测、机器学习还是深度学习。


以销售预测中常见的问题为例,比如,为了避免延迟交货,且不会占用太多金钱和现货货架空间,那么你下个月将在迈阿密出售多少海军蓝短袖衬衫?以及你需要在迈阿密店和亚特兰大仓库中储备多少存活?零售是强季节性行业,所以你需要从多年的历史数据中总结出有统计学意义的月度数据,从而修正月度销量波动,并建立一个年化趋势——这还只是一个标准的时间序列分析。机器学习比统计模型需要更多的数据,而深度学习模型是它的好几倍。


统计模型会分析你的全国连锁店在 5+ 年间的衬衫月销量,并使用这一数据来预测下个月的衬衫销量,可能有几十万(假设是 30 万)。然后你可以预测迈阿密的衬衫销量占全国销量的百分比(假设是 3%),并单独预测出蓝色短袖上衣销量所占衬衫性销量的百分比(假设是 1%)。该模型会指出,下个月蓝色短袖衬衫总销量的 90% 左右将售于迈阿密。你可以通过对比不同产品的年度同店销量来核实预测结果,同时分析它们之间的差异程度。


现在,假设你想要考虑一些外部因素,比如天气和流行趋势。短袖衬衫在热天或晴天时是不是比阴雨天时卖的更好?可能如此。你可以将历史气象数据纳入到你的模型中来做预测,虽然这样做有点笨拙,因为你需要做一个时间序列的统计模型,所以你可能会决定使用回归森林,顺便再试试其它 7 种回归机器学习模型,然后将每个模型测得的「cost」(一个归一化误差函数)与去年的实际结果相比较,从而找到最佳模型。


相比于去年同时段的海军蓝衬衫销量,下个月会更好还是更差?你可以看看海军蓝服装所有的月度销量,并预测出年度流行趋势,然后将其纳入到你的机器学习模型中。或者你可能需要来自时尚媒体方面的信息对模型进行手动校正。(「为以防万一,假设下月销量会提高 20%。」)


也许你想建立一个深度神经网络来完善这个模型。你可能会发现,每添加一个隐藏层,就可以将回归误差提高几个百分点,直到某一时刻,再添加隐藏层也无济于事,此后收益递减。这种情况可能是因为模式中没有更多的特征可供识别,或者更可能的原因是,已经没有足够多的数据来支持模型的深入改进。


你有足够的数据科学家


可能你已经注意到,单个人需要独自建立上面讨论的所有模型。其实不是这样,建模型不仅仅是把数据倒在漏斗中然后按个按钮这么简单。不管你使用哪种工具——尽管供应商可能对此会有要求,它需要经验、直觉、编程能力和良好的统计学背景,这样才能轻松驾驭机器学习,从而实现你的想法。


尤其是某些厂商往往声称,「任何人」或「任何业务角色」都可以使用商家预先训练过、可应用的机器学习模型。如果该模型正好可以解决手头的问题,这话不假,比如将正式的魁北克法语文本翻译为英语,但更常见的情况是,现有的训练过的机器学习模型并不适用于你的数据。既然你已经训练了模型,你就需要数据分析师和数据科学家来指导训练,这更像是一门艺术,而非工程或科学。


在招聘数据科学家时,最奇怪的事情之一就是对工作岗位的要求,尤其是与受聘者的实际技能相比。广告上经常说「招聘:数据科学家。STEM 博士。20 年经验。」第一个怪事是,该领域的发展历程还未足 20 年。第二件怪事是,公司雇佣 26 岁的硕士毕业生——也即除学术界外没有任何工作经验,与 20 年经验的要求相去甚远——偏好那些已经有相关经验的人,因为他们担心高级人员太贵,尽管他们的要求是 20 年工作经验。是的,这很虚伪,且十之八九是非法的年龄歧视,但现实情况就是这个样子。


你跟踪或获得那些重要的因素


即使你有大量的数据和很多数据科学家,你也可能无法拥有包含所有相关变量的数据。以数据库术语的话说,你可能有大量的行,但缺少一些列。统计学上来说就是,你可能有无法解释的方差。


一些独立变量的测量(比如天气观测)很容易获得并被合并到数据集中,甚至可在事后被合并。其它一些变量的测量或获取过程可能较为困难,比如不切实际或成本高昂,即使你知道这些变量是什么。


举一个化学领域的例子。当你在铜上镀铅时,你可以测量氟硼酸镀液的温度和浓度,并记录阳极电压,但如果溶中没有适宜数量的肽链,那么你就不会得到很好的结果。如果你没有称量放入溶液中的肽链,就无法知道这种关键催化剂的剂量,那么你将无法使用其它变量来解释电镀质量的变化。


你有清理和转换数据的方法


数据几乎总是那么嘈杂。测量过程可能会丢失一个或多个值;单个值可能会超出范围,或与同一计量过程中的其它值不相称;电子测量可能由于电噪声而变得不准确;回答问题的人可能并不理解问题本身,或是编造答案;诸如此类。


在任何分析过程中,数据过滤步骤通常需要消耗最多设置时间——是根据我的经验,它占到总分析时间的 80% 到 90%。有些公司在它们的 ETL(提取、转换和加载)过程中清理数据,这样分析师应该永远都看到不良数据点了,而其它公司则将数据与 ETL(以及最后一步的转换步骤)过程放在数据仓库或数据湖中。这意味着,即使是最容易过滤掉的脏数据也会被保存下来,理论上,过滤器和转换步骤需要随着时间的推移而进行改进。


即使是过滤后的精确数据可能也需要在分析前做进一步的转换。与统计学方法一样,只有当每种可能的状态都有相似的行数时,机器学习模型的效果才最好,这意味着,那些最受欢迎的状态数可能会由于随机抽样而减少;同样,当所有变量的范围都被标准化后,机器学习模型才能达到最佳效果。


例如在微软的一篇博文中,微软小娜分析了特朗普和克林顿的竞选捐款,说明了准备机器学习数据集的方式:创建标签、处理数据、设计附加功能以及清洗数据。这种分析用 SQL 和 R 语言做了几个转换,以确定与克林顿或特朗普相关的各种委员会和竞选资金,并基于捐赠者的姓名来确定他们的性别,以及纠正拼写错误,并修复类之间的不平衡性(数据集中有 94% 都是克林顿的捐款,且大部分是小额捐款)。


你已经对数据做了统计分析


在分析数据和解决问题时,最应该避免的就是一个劲地往前冲。在你能够弄清楚发生的事情及其原因之前,你需要退后一步,看一看所有的变量及其相互之间的关系。


探索性的数据分析可以快速显示出所有变量的范围和分布,比如变量对是趋向于彼此依赖还是各自独立、簇位于何处,或哪些地方可能会有离群值。当你的变量高度相关,往往减少分析过程中的某个变量是很有用的,或进行一些类似于逐步多元线性回归的方法来确定最佳的变量选择。并不是说最终模型是线性的,但是在引入困难问题之前,尝试一些简单的线性模型很有用;如果你的模型条件太多,那么你可以以一个超定组(overdetermined system)收尾。


你测试许多方法来找到最佳模型


对于一个给定的数据集,找到最佳模式的方法只有一种:全部试一遍。如果你的建模对象之前已经有很多人做过,但仍具挑战性,比如摄影特征识别和语言识别,你可能不由得只想尝试大赛中的「最佳」模型,但不幸的是,那些模型往往是最为计算密集型的深度学习模型,比如图像识别需要卷积层,语音识别需要长短期记忆层(LSTM)。如果你需要训练那些深度神经网络,你可能需要比日常办公所需的更多的计算能力。


你有足够的计算能力来训练深度学习模型


你的数据集越大,你的深度学习模型就需要越多的层,训练神经网络的时间也就越多。拥有大量的数据可以帮助你训练出一个更好的模型,层数多可以帮助你识别更多特征,但它们也会由于训练时间的增加而对你产生不利的影响。你可能等不了一年的时间来训练每一个模型;一周是比较合理的,特别是因为你将很有可能需要调整几十次模型。


解决训练时间问题的一个方法是使用通用图形处理器(GPGPU),比如使用英伟达公司生产的芯片,来做有关神经网络层的向量和矩阵计算(也称为线性代数)。相比于仅仅使用一张 CPU,同时使用一张 GPU 和一个 CPU K80 往往可以提升 5 到 10 倍的训练速度,如果你能将整个网络的「核(kernel)」输入到 GPU 的本地存储器中的话,而如果使用一张 P100 GPU,则可以将训练速度提升 100 倍。


在一张 GPU+一张 CPU 的组合之外,你还可以建立多个 CPU 和 GPU 的协调网络,以便在更短的时间内解决更大的问题。除非你全年都在训练深度学习模型,且有一个巨大的资本预算,否则你会发现,租赁云端 GPU 的使用时间会是性价比最高的选择。一些深度学习框架,包括 CNTK,MXNet 和 TensorFlow,支持 CPU 和 GPU 的并行计算,对于有着适宜性能 GPU 的大型虚拟机(virtual machine,VM)网络来说,它们已被证明拥有合理的缩放系数(在一个测试中大约为 85%)。你可以找到这些框架,并且它们正越来越多地被安装到由主要云提供商上支持的 GPU 虚拟机中。


你的机器学习模型优于你的统计模型


简单的统计模型为你的机器学习和深度学习项目奠定了基础。如果你不能提升一个给定的模型的性能,那么你就应该对其进行调整或尝试不同方法。一旦你知道你在做什么,你就可以在一个超参数优化算法的控制下,同时为许多模型设置训练参数,然后用最好的结果指导你的下一步行动。


你可以部署预测模型


最终,你将希望实时应用你所训练的模型。预测模型可以运行在服务器、云端、个人计算机或电话上,这取决于应用程序的不同需要。深度学习框架提供了各种选项来将模型嵌入到网页和移动应用程序中。亚马逊、谷歌和微软都是通过生产能理解语音的消费级设备和智能手机应用程序来证明其实用性。


你能够定期更新你的模型


如果你已经利用自己的数据训练好了模型,你会发现该模型的误差率(假阳性和真阴性)会随着时间的推移而增加。基本上,这是因为数据会随着时间的推移而漂移:你的销售模型、竞争对手、风格和经济都会改变。为了适应这种影响,大多数深度学习框架都有一个选项,可以在新数据上对旧模型进行再训练,并用新模型替换预测服务。如果你每月都这样做,应该能够保证你不会受到数据漂移的影响。如果你不能,那么你的旧模型最终将变得不足为靠。


回到本文开头的那些问题,你知道自己想要预测或检测什么吗?你有足够的数据进行分析以建立预测模型吗?你有定义模型和训练模型所需的人员和工具吗?你已经有统计或物理模型来作为一个预测基准吗?


如果已万事俱备,那你还在等什么? 



新一代技术+商业操作系统:

AI-CPS OS

     

新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利AI-CPS OS形成字化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生,在行业、企业和自身三个层面勇立鳌头。


  • 分辨率革命种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品控制、事件控制和结果控制。

  • 复合不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

  • 边界模糊化:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。


给决策制定者和商业领袖的建议:

  1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

  2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

    评估未来的知识和技能类型;

  3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

    发过程中确定更加明晰的标准和最佳实践;

  4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

    较高失业风险的人群;

  5. 开发人工智能型企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。





产业智能官  AI-CPS



新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能),在场景中状态感知-实时分析-自主决策-精准执行-学习提升认知计算机器智能实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链




长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


新技术“云计算”、“大数据”、“物联网”、“区块链”、“人工智能新产业:智能制造”、“智能驾驶”、“智能金融”、“智能城市”、“智能零售新模式:案例分析”、“研究报告”、“商业模式”、“供应链金融”、“财富空间”






本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com





登录查看更多
0

相关内容

第四范式是国际领先的人工智能技术与服务提供商、迁移学习领先行业 10 年的数据驱动应用创新者。第四范式具备国际先进的机器学习技术和经验,能够对数据进行精准的预测与挖掘,揭示出数据背后的规律,从而帮助企业提升效率、降低风险,获得更大的商业价值。 第四范式团队的学术研究一直走在前沿,由两届 KDD Cup 冠军得主、国际人工智能协会首位华人院士杨强院士担任首席科学家;获得过 ACM 国际竞赛全球总冠军、也曾是中国成功的机器学习系统总设计师、迁移学习领域领军人物戴文渊先生为 CEO;此外,第四范式还具有卓越的工匠精神,团队汇聚了做过中国机器学习系统的架构师、上线过世界个商用深度学习系统的科学家等,他们将尖端的 AI 技术转换成了真正可落地的产品;此外,团队成员还包括来自高盛、德勤、Bloomberg、招商银行的行业专家和资深顾问,将深厚的专业积淀与行业痛点进行嫁接,实现为企业量身定制解决方案。
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
136+阅读 · 2020年3月1日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
301+阅读 · 2019年12月23日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
78+阅读 · 2019年10月12日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
解读2018:13家开源框架谁能统一流计算?
AI前线
3+阅读 · 2018年12月17日
Arxiv
4+阅读 · 2018年7月4日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
3+阅读 · 2018年2月12日
Arxiv
6+阅读 · 2018年1月11日
Arxiv
7+阅读 · 2018年1月10日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
136+阅读 · 2020年3月1日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
301+阅读 · 2019年12月23日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
78+阅读 · 2019年10月12日
Top
微信扫码咨询专知VIP会员