本内容编辑自阿里巴巴数据技术及产品部高级技术专家王伟在2017云栖大会阿里大数据分论坛上的演讲,转载请备注来源!
点击AliData关注阿里数据第一时间了解我们!
2017云栖大会-阿里大数据分论坛,我们通过串联7个演讲,将阿里十余年在大数据领域 沉淀的技术能力和应用实践对外分享,系统性介绍我们是如何构建一个从底层的数据采集、处理,到挖掘算法、应用、产品服务的全链路、标准化的大数据体系,使得超过EB级别的海量数据能够高效融合,并以秒级的响应速度,服务并驱动阿里巴巴的业务和外部千万用户的发展。
D
阿里巴巴数据资产管理
分享人:王伟(阿里巴巴高级技术专家)
背景
阿里巴巴在做数据资产管理时,最初面临难解的问题核心有3个:
第一, 资产黑盒。面对海量数据资产,从决策者到数据研发角色,其实是不知道我们到底有哪些数据资产,也不清楚对于这些数据资产用在了什么地方?
第二, 高成本。这些数据资产,每天消耗大量成本,做数据治理的时候往往通过人肉方式去做,导致数据资产治理效率低、人工成本高。
第三, 链路断层。这么多的数据,究竟被哪些产品用了?服务了哪些客户?也是一笔糊涂账。
阿里巴巴数据资产分析体系
在数据资产分析体系中,首先需要解决的问题,就是盘点;要知道数据是做什么用的,数据的业务属性是什么,所以在盘点过程中,我们需要对数据打上标签。
在资产盘点中,我们会有一个标签分类体系,先化整为零:分析每一个数据的业务属性后结合资产分类来重新组织和定义标签;接下来通过领域专家基于业务了解,一起来构建阿里巴巴规范的数据资产类目。
有了标签,有了数据的业务属性,如何把标签和业务的分类、数据的分类关联起来?这里就存在数据挂载的问题。
目前我们有人工挂载以及自动化挂载:人工挂载只是辅助方式,我们希望能尽量减少人工干预,所以目前大多已由算法来自动优化挂载。
对于资产活性来讲,通过连接度和贡献度可以构建这样的一个模型:对于连接度低且贡献度低的数据,我们把它称为孤岛型数据,对于孤岛型数据要做是跟踪数据的生命周期,实施数据消亡或者减少数据生命周期,同时对这样的数据还需要进行冷备;对于连接度高且贡献度高的这部分数据资产,是价值非常大的,沉淀为阿里巴巴核心数据资产。
除了做好分析和评估还需要知道数据资产带来的价值:阿里巴巴仅ODPS上数据资产己超
EB级,这些数据资产同时也构成了巨大的成本中心,对它们进行治理和管控,达到
——低成本、高效率。
对于降本来说,大量数据资产消耗的核心部分是计算和存储的成本,就需要在这一块下功夫;对于提效来说,打通闭环:实现从数据分析到现状分析、问题诊断、优化、处理管理优化,一直到效果反馈,构建这样的闭环则是核心。
怎么去做治理?采用的方法和策略是什么?首先通过个人,下影响到BU,上带动集团,以个人优化来带动全局优化,这是基本策略。对于个人资产来讲,核心就是基于个人的任务和表,对于治理的策略,构建了这样一个数据资产管理的闭环。
同时做数据资产治理,不是人工去治理,而是通过自动化、智能化资产工具来治理,形成治理闭环,构建个人资产治理中心,提供治理工作台以及相关力量和资源监控,最终实现对用户做数据资产管理的赋能。
目前,数据资产治理体系在提效降本上效果明显:每年节省数亿元成本,治理效率提升50%以上。同时,这一体系的价值还体现在规则统一和智能优化上。
1、规则统一 :统一对所有的资产用户来说,要统一这样的衡量标准,于是构建了资产健康分,由分数来衡量数据资产治理程度如何、效果如何;另外统一了成本评估,因为每个人的名下数据资产可能成千上万张表和任务接点,你带来的成本消耗有多大,带来价值收益有多少?要统一成本计量模型;
2、智能优化: 通过提供自动化、智能化工具,而非人工的方式,来实现智能优化。
阿里巴巴数据资产应用管理体系
数据资产的核心价值还是在于使用:只有用到产品服务、触达用户才能最大化发挥价值。
对于数据产品PD来讲,产品的数据出现问题,很难定位这么长链路中到底是哪个环节出现了问题;
对于数据管理者来说,海量数据每天消耗大量成本,价值体现在哪里?
对研发者来说,在成千上百链路下怎么能精准的定位到问题症结
其实这些问题最终指向了同一问题:数据资产的应用,正向难追踪、反向难溯源,那么如何做到追踪溯源,这就是资产应用管理要解决的核心问题。
解决资产应用的最后一公里的问题,形成了全链路端端互通的技术体系:从数据的采集、生产加工、到数据的服务端,再到产品端全链路打通。
阿里巴巴数据资产应用管理体系
对产品端来说,它服务于整个阿里体系内外客户;对于服务端来讲,我们大量的数据采取不同的异构数据存储,服务不同的产品;对于数据端来说,除了有ODPS还有其他的数据加工引擎、计算引擎。只有真正把链路打通才能实现从数据采集端到生产端到服务端全链路打通。
那么,基于全链路打通后,对我们来讲有哪些方面提升呢?
总的来说,阿里巴巴的数据资产管理体系在产品保障、资产盘点、资产评估、资产治理这四个方面都体现了较好的价值:
1. 产品保障:消除链路断层,实现端端互通,最终打通数据产品——从数据采集端到服务端到消费端,整个全链路的打通。基于全链路打通,实现数据生产、消费,以及管控的全链路闭环。
2. 资产盘点:清晰盘点出属于资产的应用场景,用在了什么地方,被哪些产品消费,哪些用户来使用。
3. 资产评估:基于全链路端端互通,才能构建出全链路成本计量模型,以及和业务评估模型、价值评估模型相匹配,最终来实现ROI评估。
4. 资产治理:基于数据应用场景反向追溯数据资产治理,让数据资产变得更加有的放矢。
最终为产品PD、数据消费者、数据管理者提供全链路、全景洞察分析以及全链路管控与保障。
图片不清怎办?文字看完不过瘾怎么破?
点击阅读原文,进入官网查看高清PPT
END
阿 里 数 据
赋能商业 创造价值