分享嘉宾:吴永明 阿里云 高级技术专家
编辑整理:Taylor 东南数据实验室
出品平台:DataFunTalk
导读:随着大数据的深入发展,数据越来越成为公司的重要资产,但围绕数据流的全链路管理工作细致且技术复杂,数据的治理越来越成为DT时代数据资产化、价值化的关键核心,该如何成体系地构建数据治理框架?今天将介绍阿里巴巴在数据治理上的一些实践和总结。主要包括以下两方面内容:
数据治理概念和需求层次
企业数据治理痛点与阿里巴巴数据治理实践
01
数据治理概念和需求层次
数据以及数据领域经过多年的发展,行业已经沉淀了较为完善的理论体系,比如数据管理协会DAMA推出的数据十大职能领域、DCMM推出的数据管理能力成熟度评估,以及国内信通院推出的数据资产管理实践白皮书。这些指导标准,不但有利于产业发展的高度,同时也使得行业朝着更加规范、健康的方向发展。
国际上的标准更加侧重于对完整的数据生命周期进行管理,而国内则更加注重从组织、制度、流程、技能角度,对数据进行不同视角下的解读和处理。
2. 数据治理的概念和需求层次
在数据的管理过程中,要保证一个组织已经将数据转换成有用的信息,在这个过程中所需要的流程、工具就是数据治理的主要内容。
随着数据行业的发展,数据治理的内涵也逐步泛化,涵盖了更多的方面和层次,比如数据发现可用,数据及时稳定产出,数据质量保障,数据安全合规,数据生产的经济性等。对于企业的不同发展阶段,数据治理的需求也存在着差异。
质量:主要从数据自身属性和特点的角度,来衡量数据可靠的一些标准,包含了准确性、完备性、唯一性、一致性、有效性等。
可用:数据的接入和加工完成后,就是数据发挥价值的环节,即数据要容易被查询到,并且能够被理解。另外一个比较重要的点是可复用,复用可以放大数据价值。
安全:谈到数据,就会涉及安全性,主要包括数据权限的管理,敏感数据的处理与应用,以及满足各种数据政策和法规的要求。
经济:在数据的生产、处理,以及价值挖掘等环节相对完善之后,围绕数据体系的经济特性,将会是企业的重点考虑方向。
02
企业数据治理痛点、阿里巴巴数据治理实践
1. 企业数据治理的典型痛点
随着国家数字化政策的引导和推动,企业越来越重视数据,但企业的数据治理成效方面依然进展缓慢,数据问题依旧存在,其中缺少系统化的工具平台支撑治理落地和效果展现是关键原因之一。
数据治理咨询成果落地不足:数据治理产出成果,比如各类规范和管理办法,包括数据字典,多以“纸面文件”的形式流转与企业中,与实际业务和数据没有紧耦合,能满足“我有”,但是没能做到“我执行”。
自动化服务程度不高:业务人员使用数据更多需要数据和技术人员的贴身服务,按照IT建设的模式提出数据加工需求或者取数需求,以被动支持的方式满足业务需求,没有形成数据资产目录、数据服务目录。
数据治理在线管理能力不足:依赖贴身服务,业务人员难以借助工具自行完成。缺少灵活友好的数据治理在线管理工具来支持数据治理全流程工作,数据治理与数据原仓之间没有打通“数据的描述”和“数据的记录”两张皮。
数据治理成效可视度低:缺少量化方式来评估数据治理成熟度水平,数据治理工作的推动成效无法体现,变成了纯手动的脏活累活,严重影响数据治理工作的开展推进。
治理中的痛点有很多,往往是由于认识不足导致的,尤其是思维方式。信息技术的飞速发展,使得信息的架构已经从传统基于需求的IT架构发展为基于数据的DT架构,思维方式也需要相应地升级到围绕数据资产化、数据价值释放为核心的新模式。
2. 阿里巴巴数据治理新模式
不同模式下思考和解决问题的方式存在着很大的区别,模式的改变主要包括以下三个方面:
变思维:转变传统思维定式,从IT思维向DT思维转型
变模式:工具和技术是生产工具,数据才是核心,IT流程不是核心
变定位:摆脱成本中心泥潭,通过运营数据资产,探索如何成为利润中心
基于DT架构的思维模式,结合数据发展的阶段不同,阿里巴巴形成了一套自己的数据治理模式:
数据稳定性与质量治理:解决数据产出及时性和准确性问题
数据规范治理:解决数据口径一致性问题
数据安全治理:解决数据权限控制与数据共享交换问题
数据成本治理:解决数据计算和存储成本高昂问题
阿里巴巴每天有千万级大数据计算任务产生海量数据,千万级任务的调度情况下,调度依赖关系复杂程度远超过人工处理程度,阿里推出了智能基线监控机制确保高优先任务高保障产出。
智能识别(DAG)关键路径,合理设定告警阈值
任务异常产生事件,自动评估事件影响范围,通知相应人员
灵活告警方式配置,支持钉钉群机器人、电话
② 数据质量治理
数据质量直接影响数据价值和加工效率,高质量的数据对完整性、有效性、准确性、唯一性、一致性、合理性等特性有很高的要求。阿里巴巴将这些特性封装成灵活的规则,然后将规则应用到具体的任务,通过调度平台,进行规则巡检和规则执行,并对有问题的任务进行告警或者阻塞处理。其关键特点如下:
质量监控与调度挂钩,第一时间发现问题,避免上游脏数据污染下游数据,大大减小影响面。
40+规则&自定义规则,精细化质量控制。
无需设定阈值,算法自动判断异常值。
故障快速恢复。
③ 数据规范治理
数据在实现层面以表为单位进行,阿里巴巴围绕数据生产使用全生命周期,在指标体系设计、数据模型设计、数据处理任务开发、数据服务开放等环节的每个关键阶段都设计具体标准、流程及规范,同时抽象核心公共层,进行强管控:架构评审,发布管控,建设评估,持续改进。而对核心以外的部分,采取轻约束的方式推进。
④ 数据标准管理
数据的标准,主要是落实到开发层面的具体规范约束,比如制定各类数据实体(元素、码表、模型分层、模型等)的设计约束,规范每类业务实体包含的属性,属性是否必须,属性内容约束等规则。
具体如图所示:
随着数据安全问题频发,人们对数据的安全意识越来越强烈,数据安全治理也越来越关键。阿里巴巴通过基础的数据分级、权限控制来达到规范安全使用数据的目的,并通过敏感数据发现与脱敏,与第三方协作时构建可信计算环境(即联邦建模),以及数据的风险审计来搭建数据安全的完整体系。
其中对数据的分类,面向阿里庞大的数据体量,使用人工的方式很不现实,阿里自建了一套自动的数据打标工具,集合人工调整的方式,更合理地管理数据的分类分级体系。
通过设立组织大的成本目标,然后通过培养个人的成本意识,在数据的计算与存储、治理与运营层面建立具体目标去细化和落地,来推进数据治理方面的成本管理。比如阿里巴巴2020年成本治理的目标:数据成本增速不能超过业务增速。
3. 阿里巴巴数据治理的成功关键
数据治理是一个非常庞大且细致的工作,阿里数据治理方面的成功主要源于上图三个方面。
DT时代的核心思维就是数据的资产化,阿里将数据的资产化以及围绕数据资产的价值的挖掘作为治理的核心目标。
从自上而下来看,站在全公司的高度来顶层设计,着手解决数据的管理问题,提供足够的授权和支持。
从下而上来看,通过构建强大的技术平台支撑和完善的运营体系两个方面促进治理的切实落地。
阿里构建了以数据管理团队负责人、业务线数据负责人、数据平台负责人为核心的虚拟数据治理小组,从组织上划分清洗数据治理的权责边界, 并且从管理办法、管理流程、技术规范及模板等建立起完整的数据治理制度保障。
一部数据资产管理方法论:按照数据运营思想贯穿数据建设的全过程。
一组平台工具支撑
强大的平台能力支撑是治理落地的核心保障,技术的创新和演进是数据治理落地的坚实基础。阿里自研了DataWorks和MaxCompute两个平台,支撑全司的数据治理落地。
MaxCompute:自研、全托管、EB级大数据存储和计算引擎,阿里自研的安全可靠、高效能、低成本、从GB到EB级别按需弹性伸缩的在线大数据计算服务,致力于海量结构化、半结构化数据的存储和计算服务,提供数据仓库的解决方案及分析建模服。
运营落地
组织、制度、平台有了之后,推动数据治理落地最后一公里的治理运营是成功的关键因素。阿里巴巴构建了量化的治理的评价体系(健康分)、日常治理运营推送和专项整治活动密切结合。
构建量化的数据治理评价体系,日常治理运营和专项整治相结合,促进治理工作持续落地改进。
今天的分享就到这里,谢谢大家。
在文末分享、点赞、在看,给个3连击呗~
分享嘉宾:
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“数据治理” 就可以获取《数据治理资料大全》专知下载链接