随着大数据时代的到来,以云计算、大数据、移动互联网、智能终端、物联网为代表的新一代信息技术普及速度不断加快发展,使得数据的采集、存储、计算和分析能力得到的大幅度提升,传统的对于数据的查询、处理和统计分析已经不能满足于人们对于数据应用的需要,迫切希望能够对其进行更高层次的分析以便更好地利用这些数据,进而获取能指导未来行为的规律和模式,并提高企业、社会、组织和机构的效益以及效率。计算机处理数据的速度很快,但是从海量数据中挖掘规律并不是简单的操作,因此需要有行之有效的分析算法来完成在数据中“沙里淘金”的过程,因此数据挖掘技术也就应运而生了。
在数据挖掘应用中,较为知名的商业案例是“啤酒+尿布”,这个故事实际上向我们揭示了零售业未来的获利及生存模式。它凸显了零售卖场中一个全新的管理理念,即商品之间是具有关联关系的,发现并利用这些商品之间的关联关系,可以在无法大幅增加门店客户数的前提下,通过增加购物篮中的商品数量达到增加销售额的目的,从而获得更大的经营收益。另外,Google通过分析5000万条美国人最频繁检索的词汇并结合美国疾病中心数据构建数学挖掘模型,成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。2012年11月奥巴马大选连任成功的胜利果实也被归功于大数据,因为他的竞选团队进行了大规模深入的数据挖掘。
数据挖掘就是指从大量的数据中自动搜索隐藏于其中的有特殊关系性的信息和知识的过程。面对现在海量的、不完整的、模棱两可的数据,运用数据挖掘算法对数据进行查找,找出人们所不知道的、有实用价值的信息,这一过程就是数据挖据。数据挖掘的基本任务包括分类、回归、聚类、关联分析等。数据挖掘还利用了人工智能、模式识别中的搜索算法和建模技术,吸纳了最优化、信息论、信息处理、可视化和信息检索等领域的思想。从商业角度来看:数据挖掘作为一种新型的数据处理技术,它的主要特征是从数据库中提取数据,对数据进行分析并模型化处理,从而挖掘出重要的有意义的数据作为商业决策。目前数据挖掘已被拓展到文本挖掘、图像挖掘等领域,成为一个标准术语,包括文本挖掘、图像挖掘、Web挖掘、预测分析,以及海量数据处理技术等众多内容。
互联网+以及诸多IT新技术的出现,企业逐步开展系统升级和转型,引入云计算、大数据等新兴信息技术,引领了信息化建设的潮流,并迅速向传统企业扩散。企业信息化向3.0时代迭代,数据价值不断凸显,成为当今时代企业信息化建设的核心。
随着人工智能、大数据、云计算技术的蓬勃发展,以及商业市场竞争格局的日益激烈,在这个数据智能的时代,越来越多的企业已经认识到,数据是企业重要的战略资产,海量的数据能给我们带来丰富的信息、知识、与智慧,而这些关键商业洞察,以及智能化的技术,将帮助我们的企业更好的应对风险与竞争
在企业客户关系管理过程中的应用有效应用数据挖掘,对企业客户的行为特征进行科学、合理的描述与分析,进而进行系统化的预测,帮助企业优化客户关系的管理步骤,最终实现客户关系管理的科学化与最优化。数据挖掘还能够通过对企业客户以往的消费信息的统计分析,对未来客户消费行为的发生进行一定的预测,并依据预测结果,针对具有消费潜力的客户及特定的客户提供个性化、定向产品服务,进而提高企业的营销业绩。数据挖掘在企业市场预测过程中的应用可以有效地对企业在未来的发展趋势及发展行为进行分析,帮助企业进行前瞻性较强的商业活动。
远在“新零售”概念火热之前,数据挖掘技术已经在零售行业得到了广泛应用,关联分析的Apriori算法最早被应用于超市营销里面。超市营销系统中采用Apriori算法发掘潜藏在商品中的某些关系,细化商品的布局和摆放。超市对销售数据进行分析,能够统计商品的销售情况,找出商品间存在的内在关联,预测新商品是否畅销。根据顾客购买记录,使用序列模式挖掘顾客的消费变化,分析顾客的忠诚程度。电商平台基于用户的基本属性(年龄、性别)、购买能力、行为特征、兴趣爱好,使用数据挖掘技术构建客户画像,实现精准营销。
物联网的快速发展,为智能制造发展带来更多创新可能。在制造领域,数据挖掘技术可以在生产、装配、质检、维修等多个环节来帮助企业解决传统管理与技术难以的解决的问题。基于产品生产工艺流程和缺陷分析,找出生产过程影响生产质量的因素,从而通过重点改进相关环节及工艺,来提高企业的生产效率,保障产品质量。通过设备故障数据分析,发现影响设备故障的因素,提前进行故障预测,实现预测性设备检修维护。以及最优的设备装备方案、最佳产品生产工艺参数组合、产品质量分析与问题追溯——数据挖掘已经深入到生产制造的各个环节,是制造行业智能化转型的核心基础支撑。
金融的精准营销、智慧运营、风控管理等都是数据挖掘应用的典型场景。以银行为例,他们存储了大量的客户交易信息,可对客户的收入水平、消费习惯、购买物品等指标进行挖掘分析,找出客户的潜在需求;结合对各个理财产品交叉分析,找出关联性较强的产品,从而对客户进行有针对性的关联营销,提高产品销售业绩。根据客户基本属性特征、交易特征、理财产品使用等数据,利用决策树算法构造客户流失预警模型,在客户还未流失前进行挽留,稳定客户。利用知识图谱技术通过分析客户交易记录实现反欺诈预警,进而保障客户财产安全。
基于智慧交通、智慧政务、智慧旅游……等多领域数据分析与挖掘技术应用的智慧城市建设,已经成为当今时代的主题。政府在城市规划中,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供强大的决策支持,强化城市管理服务的科学性和前瞻性; 在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。通过对近年来各地的降雨、气温、土壤状况和历年农作物产量的综合分析,可以预测农产品的生产趋势,指导政府进行激励措施、农作物存储和农业服务政策的制定。大数据时代下的电子政务具备海量繁复的数据资源,而数据挖掘则是提升数据利用价值,为舆情管控、业务创新提供支撑的核心所在。
大数据分析为许多医学难题的解决提供了新途径,改变了一些疾病诊断方式。基于历史相似病例的海量数据学习,通过分析这些诊断数据,对疑难杂症进行快速判别。当流行病发生时,可以对疾病已有的扩散趋势和感染人数进行建模,对每一个时间节点的数据进行分析处理,从而对流行病进行统计研究,预测病情的扩散趋势,为疾病防治提供参考。利用大数据可将患者的全部诊疗信息、体检信息整合,并结合历史数据、当下病情等加以分析,从而针对该患者制定出个性化的医疗服务和精准治疗方案。
THE END
要实现对数据价值的深度发掘,数据挖掘技术无疑是最有效的手段之一。对于企业来说,要开展数据挖掘项目,就必须要了解数据挖掘项目是区别于传统的软件开发类项目,其呈现出复杂性高、周期长、不确定高等特点,特别是不确定性高,是其最典型的特点,主要体现在数据的不确定性、结果的不确定性和方案的不确性等方面,这样就导致整个数据挖掘项目管控难度高,因此一个行之有效的数据挖掘方法论(明确的流程模型)是非常有必要的。
长期以来,随着数据挖掘市场的发展和成熟,由不同的组织机构提出过很多的方法论,如CRISP-DM、SEMMA、5A等,其中CRISP-DM、SEMMA是应用最为广泛。CRISP-DM (cross-industry standard process for data mining),即为“跨行业数据挖掘过程标准"。此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%。排在其后的是由SAS公司提出的SEMMA。SEMMA更偏重于数据挖掘的建模过程,与SAS的EM工具进行整合,其模型管理部署部分则体现在另外的工具套件中。CRISP-DM是从一个数据挖掘项目执行的角度谈方法论,CRISP- DM的考虑的范围比SEMMA 要大。CRISP-DM强调,数据挖掘不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。因此,从一个项目的管理实施完整流程来说,CRISP-DM更适用一些,本文后续主要以CRISP-DM为主进行详细介绍。
CRISP-DM方法论将一个数据挖掘项目的生命周期分为六个阶段,其中包括业务理解(business understanding),数据理解 (data understanding),数据准备(data preparation),建立模型(modeling),评估模型(evaluation)和结果部署(deployment)。这六个阶段的顺序是不固定的,我们经常需要前后调整这些阶段。这依赖每个阶段或是阶段中特定任务的产出物是否是下一个阶段必须的输入。图中箭头指出了最重要的和依赖度高的阶段关系。
业务理解,指从业务角度来理解项目目标和要求,接着把这些理解知识转换成数据挖掘问题的定义和实现目标的最初规划。
在这个阶段,主要通过业务需求调研,明确要解决的业务问题,如果业务问题一开始不明确,就需要从整个企业的内部不同业务板块(如营销、生产、管理等)或从企业与上下游产业链之间的关系来切入与业务专家进行研讨,形成分析主题库,同时需要对每个业务问题的产生背景、业务流程、业务价值、传统解决方法及效果、相关数据资源、涉及哪些部门及领导等内容,调研一定要充分,基于这些调研内容可以对于主题库中的分析主题从可行性、价值性、难易度等多方面进行衡量,为分析主题开展的优先级提供指导。业务目标确定后,一方面需要从业务角度确定成功的标准,这个有利于最后判定结果的有效性和价值性,另一方面也需要确定数据挖掘目标、初步方案和成功标准,在成功标准度量指标这里需要结合当前传统方式的效果和历史建模经验综合来确定,同时也必须要保障该标准具备可验证性,这也是最后保障项目验收成功的重要依据,很多项目最终失败,都是忽略了这个环节,一定要慎重。
数据理解,指从数据收集开始,然后接着是一系列活动,这些活动的目的是:熟悉数据,甄别数据质量问题、发现对数据的真知灼见、或者探索出令人感兴趣的数据子集并形成对隐藏信息的假设。
在这个阶段,主要的工作就是基于业务理解阶段梳理的数据需求,收集原始数据,同时对于数据的数据量(维度和样本大小)、数据的质量(缺失值、异常值、不一致性等),数据的分布规律(各种统计指标)等进行初步探索,初步判断该数据是否具备初步分析的可行性,形成一份数据质量分析报告。同时对于预测性问题,如分类、回归等问题,需要明确目标变量,很多目标变量可以不是通过单一变量直接获取,需要通过多个变量结合业务进行确定,如确定一个用户是否是欠费用户,则需要从欠费次数和欠费金额两个维度确定欠费用户的判定规则,规则定义的严苛程度,需要与建模的正负样本分布、业务的认可度、数据的分布等多个方面综合制定。
数据准备,指从最初原始数据构建最终建模数据的全部活动。数据准备很可能被执行多次并且不以任何既定的秩序进行。包括为建模工作准备数据的选择、转换、清洗、构造、整合及格式化等多种数据预处理工作。
在这个阶段,最终目标是要基于业务理解阶段的建模方案构建建模所需的宽表,即将多个表信息进行整合,包括表之间的联接,明细数据的汇总加工等,同时在过程中需要对于数据的质量问题(包括缺失值、异常值等)进行处理;对数据的字段进行变换,如规范化和标准化,或都将数据进行映射变换,如Log变化,数值型按区间转换成名词型字段等多种加工策略;在特征工程这里,一方面需要从业务角度加工新的计算指标,另一方面需要进行自动特征构建、特征选择、特征降维等方面的工作,来提升模型的性能。数据准备阶段的工作,经常会随着模型性能的评估结果进行反复调整和优化,以便为建模提供更高质量的数据。
建立模型,指选择和使用各种建模技术,并对其参数进行调优。一般地,相同数据挖掘问题类型会有几种技术手段。某些技术对于数据形式有特殊规定,这通常需要重新返回到数据准备阶段。
在这个阶段,主要基于业务理解阶段确定的建模方案,选择相应的建模算法,开始建模和评估模型。这个阶段在建模算法的选择方面,需要注意两个问题,一是算法和参数的选择上,可以按照经常选择常用的方法和参数来调试,也可以使用自动学习类的方法,如自动择参/分类/回归/聚类/时序等方面,来自动选择算法和参数,降低在这个阶段的尝试成本,提升效率。二是需要结合建模的精度,对于建模方案进行优化,最为典型的就是开始定位为某一类数据挖掘问题,可以转换成另一类数据挖掘问题的方式来解决,如回归问题,可以转换成分类问题来解决,当然前提是对于数值预测的单值准确性要求不高。时序问题,可以转换成回归问题来解决等方面,这个更依赖于个人的建模经验。
评估模型,指在此阶段,需要从技术层面判断模型效果以及从业务层面判断模型在实际商业环境当中的实用性。
在这个阶段,已经从建立模型阶段获取了从理论上性能表现更好的模型,需要结合业务阶段确定的数据挖掘模型的成功标准,回归到实际业务中进行模型性能的实测,可以采用A/B测试的方案进行评测。这个阶段的工作,是需要有相关的业务部让或营销部来来配合的,所以需要提前在项目计划中确定需要协调的资源和评测的方案,评测的对比方案一定要得到客户方认可才行,以便降低反复评测的风险。
结果部署,指将其发现的结果以及过程组织成为可读文本形式或将模型进行工程化封装满足业务系统使用需求。
在这个阶段,已经得到的理论和实际验证后的模型,需要将模型的成果书面化,从六个阶段进行总结,形成数据分析报告,在这个过程中,也是对整个分析流程的再度审查,保障模型成果的真实性和准确性。如果涉及到工程化应用,还需要将模型发布成不同方式(调度、同步/异步服务API、实时服务等),供其它业务系统进行整合,形成最终的决策应用系统,指导实际业务的开展。最后,对于模型上线后的性能需要定期进行监测,以便后期对于模型性能进行持续性的优化工作。
以上,是我结合个人实际项目经验对于数据挖掘项目实施方法论的理解与总结,希望能给企业决策者、数据分析师和项目管理人员有一定的启发和收获,最后,我想强调的一点是,数据挖掘项目的特点决定了它是有失败的风险的,方法论可以降低的项目失败的风险,但我们必须要正确看待失败,因为项目的探索过程中沉淀的知识和成果是对于企业来说是也非常宝贵的,因此从企业的管理层来说,必须要有足够的耐心和信心对于这类项目以足够支持。
来源:美林数据
先进制造业+工业互联网
产业智能官 AI-CPS
加入知识星球“产业智能研究院”:先进制造业OT(自动化+机器人+工艺+精益)技术和工业互联网IT技术(云计算+大数据+物联网+区块链+人工智能)深度融合,在场景中构建“状态感知-实时分析-自主决策-精准执行-学习提升”的机器智能、认知计算系统;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
版权声明:产业智能官(ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源,涉权烦请联系协商解决,联系、投稿邮箱:erp_vip@hotmail.com。