EB级数据资产如何管理 ——云栖大会阿里大数据分论坛精彩演讲3

2017 年 10 月 23 日 AliData 王伟

本内容编辑自阿里巴巴数据技术及产品部高级技术专家王伟在2017云栖大会阿里大数据分论坛上的演讲,转载请备注来源!

点击AliData关注阿里数据第一时间了解我们!





2017云栖大会-阿里大数据分论坛,我们通过串联7个演讲,将阿里十余年在大数据领域 沉淀的技术能力和应用实践对外分享,系统性介绍我们是如何构建一个从底层的数据采集、处理,到挖掘算法、应用、产品服务的全链路、标准化的大数据体系,使得超过EB级别的海量数据能够高效融合,并以秒级的响应速度,服务并驱动阿里巴巴的业务和外部千万用户的发展。

D

阿里巴巴数据资产管理

分享人:王伟(阿里巴巴高级技术专家)

1

4

背景


阿里巴巴在做数据资产管理时,最初面临难解的问题核心有3个:

第一, 资产黑盒。面对海量数据资产,从决策者到数据研发角色,其实是不知道我们到底有哪些数据资产,也不清楚对于这些数据资产用在了什么地方?

第二, 高成本。这些数据资产,每天消耗大量成本,做数据治理的时候往往通过人肉方式去做,导致数据资产治理效率低、人工成本高。

第三, 链路断层。这么多的数据,究竟被哪些产品用了?服务了哪些客户?也是一笔糊涂账。

阿里巴巴在做数据资产管理的时候,遵循的方法整体可以归纳为:首先,要盘清数据资产的一本账、也就是要做数据资产的盘点;盘清后需要进行成本评估。对于前者,也就是数据资产盘点,先要理解全部的数据资产、业务属性到底是什么;同时还需要构建标准规范的阿里巴巴数据资产类目;对于评估环节,最基础也是最核心环节就是如何去构建追踪数据应用的全链路,最终将数据成本、业务收益做到清晰透明可评估。

2

4

阿里巴巴数据资产分析体系



在数据资产分析体系中,首先需要解决的问题,就是盘点;要知道数据是做什么用的,数据的业务属性是什么,所以在盘点过程中,我们需要对数据打上标签。

在资产盘点中,我们会有一个标签分类体系,先化整为零:分析每一个数据的业务属性后结合资产分类来重新组织和定义标签;接下来通过领域专家基于业务了解,一起来构建阿里巴巴规范的数据资产类目。

有了标签,有了数据的业务属性,如何把标签和业务的分类、数据的分类关联起来?这里就存在数据挂载的问题。

目前我们有人工挂载以及自动化挂载:人工挂载只是辅助方式,我们希望能尽量减少人工干预,所以目前大多已由算法来自动优化挂载。

类目和标签挂载完成后,生成阿里巴巴全局的数据资产版图。这里我们就已经做到数据资产可视化——所见即所有:清楚了解有哪些资产、还缺哪些资产、要建设和接入哪些数据资产,同时对于数据资产的使用者来说:通过资产地图来帮助大家快速清晰查找你所用的数据资产、哪些是核心、它被使用到哪里以及最终的业务价值。
盘点结束后,我们构建了资产评估模型,此模型有三个核心要素:第一个,连接度。来衡量数据的连接使用情况,实际使用频度;第二个,贡献度。评估数据资产赋能阿里巴巴业务生态,价值如何去衡量、贡献度大小是多少?我们有贡献度指标来评估;第三个ROI。数据使用后对内外客户,消耗的成本是多少,最终带来的价值是多少?也需要通过ROI来进行评估。

对于资产活性来讲,通过连接度和贡献度可以构建这样的一个模型:对于连接度低且贡献度低的数据,我们把它称为孤岛型数据,对于孤岛型数据要做是跟踪数据的生命周期,实施数据消亡或者减少数据生命周期,同时对这样的数据还需要进行冷备;对于连接度高且贡献度高的这部分数据资产,是价值非常大的,沉淀为阿里巴巴核心数据资产。

3

4

阿里巴巴数据资产治理体系




除了做好分析和评估还需要知道数据资产带来的价值:阿里巴巴仅ODPS上数据资产己超

EB级,这些数据资产同时也构成了巨大的成本中心,对它们进行治理和管控,达到

——低成本、高效率。

对于降本来说,大量数据资产消耗的核心部分是计算和存储的成本,就需要在这一块下功夫;对于提效来说,打通闭环:实现从数据分析到现状分析、问题诊断、优化、处理管理优化,一直到效果反馈,构建这样的闭环则是核心。

怎么去做治理?采用的方法和策略是什么?首先通过个人,下影响到BU,上带动集团,以个人优化来带动全局优化,这是基本策略。对于个人资产来讲,核心就是基于个人的任务和表,对于治理的策略,构建了这样一个数据资产管理的闭环。

同时做数据资产治理,不是人工去治理,而是通过自动化、智能化资产工具来治理,形成治理闭环,构建个人资产治理中心,提供治理工作台以及相关力量和资源监控,最终实现对用户做数据资产管理的赋能。

目前,数据资产治理体系在提效降本上效果明显:每年节省数亿元成本,治理效率提升50%以上。同时,这一体系的价值还体现在规则统一和智能优化上。

1、规则统一 :统一对所有的资产用户来说,要统一这样的衡量标准,于是构建了资产健康分,由分数来衡量数据资产治理程度如何、效果如何;另外统一了成本评估,因为每个人的名下数据资产可能成千上万张表和任务接点,你带来的成本消耗有多大,带来价值收益有多少?要统一成本计量模型;
2、智能优化: 通过提供自动化、智能化工具,而非人工的方式,来实现智能优化。

4

4

阿里巴巴数据资产应用管理体系


数据资产的核心价值还是在于使用:只有用到产品服务、触达用户才能最大化发挥价值。

但我们经常会面对下述问题:
对于数据产品PD来讲,产品的数据出现问题,很难定位这么长链路中到底是哪个环节出现了问题;
对于数据管理者来说,海量数据每天消耗大量成本,价值体现在哪里?
对研发者来说,在成千上百链路下怎么能精准的定位到问题症结
其实这些问题最终指向了同一问题:数据资产的应用,正向难追踪、反向难溯源,那么如何做到追踪溯源,这就是资产应用管理要解决的核心问题。

解决资产应用的最后一公里的问题,形成了全链路端端互通的技术体系:从数据的采集、生产加工、到数据的服务端,再到产品端全链路打通。

阿里巴巴数据资产应用管理体系

对产品端来说,它服务于整个阿里体系内外客户;对于服务端来讲,我们大量的数据采取不同的异构数据存储,服务不同的产品;对于数据端来说,除了有ODPS还有其他的数据加工引擎、计算引擎。只有真正把链路打通才能实现从数据采集端到生产端到服务端全链路打通。

那么,基于全链路打通后,对我们来讲有哪些方面提升呢?

第一个,可以做全链路保障。 原来往往是做数据资产治理,经过单节点和单任务单表来做数据资产治理;现在全链路打通,我们可以基于数据场景进行反向推动,做到全链路的分析保障。
第二个,数据资产应用的评估。 如果链路出现断层,很难去追踪数据到底服务哪些产品,带来哪些价值;从数据源端开始,定位到数据的消费端,做到数据全链路互通,才能真正落地ROI评估。
第三个,安全管控。 每天有大量数据被使用,这些数据安全等级不同,有些可公开,有些不可公开;如果全链路不打通,不知道数据到底用到了哪些产品、哪些模块、哪些页面,用了哪些数据也不知道,做安全质量的管控,是无从谈起的。
最后,数据追踪。 基于关键路径能够做到数据时效性和稳定性的保障;以及基于链路衡量产出时间,可以制定优化方案;全链路上某环节出现问题,通过关键路径分析,精准定位和识别。

总的来说,阿里巴巴的数据资产管理体系在产品保障、资产盘点、资产评估、资产治理这四个方面都体现了较好的价值:

1.   产品保障:消除链路断层,实现端端互通,最终打通数据产品——从数据采集端到服务端到消费端,整个全链路的打通。基于全链路打通,实现数据生产、消费,以及管控的全链路闭环。

2.   资产盘点:清晰盘点出属于资产的应用场景,用在了什么地方,被哪些产品消费,哪些用户来使用。

3.   资产评估:基于全链路端端互通,才能构建出全链路成本计量模型,以及和业务评估模型、价值评估模型相匹配,最终来实现ROI评估。

4.   资产治理:基于数据应用场景反向追溯数据资产治理,让数据资产变得更加有的放矢。

最终为产品PD、数据消费者、数据管理者提供全链路、全景洞察分析以及全链路管控与保障。

图片不清怎办?文字看完不过瘾怎么破?

点击阅读原文,进入官网查看高清PPT

END

阿 里 数 据

赋能商业 创造价值







登录查看更多
3

相关内容

商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
36+阅读 · 2020年4月26日
德勤:2020技术趋势报告,120页pdf
专知会员服务
190+阅读 · 2020年3月31日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
最佳实践:阿里巴巴数据中台
AliData
26+阅读 · 2019年7月26日
用户研究:如何做用户画像分析
产品100干货速递
44+阅读 · 2019年5月9日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
业务中台:如何在互联时代,快速响应用户需求?
互联网er的早读课
24+阅读 · 2018年12月26日
干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山?
阿里巴巴数据库技术
10+阅读 · 2018年12月12日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
一篇文章读懂阿里企业级数据库最佳实践
阿里巴巴数据库技术
5+阅读 · 2017年12月20日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2018年1月31日
Arxiv
3+阅读 · 2017年12月14日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关资讯
最佳实践:阿里巴巴数据中台
AliData
26+阅读 · 2019年7月26日
用户研究:如何做用户画像分析
产品100干货速递
44+阅读 · 2019年5月9日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
业务中台:如何在互联时代,快速响应用户需求?
互联网er的早读课
24+阅读 · 2018年12月26日
干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山?
阿里巴巴数据库技术
10+阅读 · 2018年12月12日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
一篇文章读懂阿里企业级数据库最佳实践
阿里巴巴数据库技术
5+阅读 · 2017年12月20日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
Top
微信扫码咨询专知VIP会员