阿里妹导读:为了应对众多业务部门千变万化的数据需求和高时效性的要求,阿里巴巴首次提出了数据中台的概念,经过众多项目的实践已经沉淀出了标准化的流程和方法论。如何构建一个数据中台?一个好的数据中台需要具备哪些功能?原盒马在线数据平台研发负责人欢伯向大家分享新零售企业如何基于DataWorks构建数据中台的经验心得,从商业模式及业务的设计,到数据中台的架构设计与产品选型,再到数据中台构建的最佳实践,最后利用数据中台去反哺业务,辅助人工与智能的决策。
文末福利:七天玩转MongoDB训练营来了!
业务产品技术架构图
新零售数据中台团队介绍
新零售数据中台整体架构
新零售数据中台技术架构
基于DataWorks构建新零售数据中台
数据中台的目标
数据集市整体模型架构 - 总体分层
数据集市整体模型架构 - 功能定位
ADS一定要是面向业务的,不是面向开发的,这部分数据让业务能最短的时间去理解,甚至直接使用。
DWS必须是指标,也是刚才前面讲的指标体系的一个承载体,都由DWS去做,DWS汇总基本上就是ADS的支撑。
DWD就是明细层,明细层怎么建呢?我们建议采用的是维度建模的方式,企业有维表,有事实表,维表也有很多层级维度,比如枚举维度,事实表有周期快照。当然在这里有一个点就是DWD的字段必须是可被直接理解的,不要有二义性,一旦有二义性的时候,DWS使用的时候会有问题,会导致整个上游应用都有问题。
ODS基本上大家理解应该都保持一致,就是业务数据直接同步过来。但是现在有一些架构的演变,大家喜欢在ODS做一个初步的ETL处理,这样会导致ODS的数据跟企业业务的数据不一致。其实我们建议是不这样做,原因很简单,我们要保证ODS跟业务库保持一致,这样当出现问题的时候,我们能很快定位到问题的原因。一旦做了ETL,有可能ETL的过程是有bug的,会导致两边数据不一致。所以如果企业是严格要求从业务库的数据到ODS不允许做任何的逻辑的处理,那么出现问题的时候,只能是中间件或者是其他的任何存储出了问题导致的,不应该是业务逻辑导致的。
DataWorks数据开发平台
数据开发 - 数据同步
建议所有业务库的数据都是统一同步hm_ods项目进行统一存储管理
从节约存储考虑,同一份数据只能同步一份。
从数据回溯与审计需要考虑,数据生命周期设置为永久保存。
数据开发 - 数据加工代码开发
数据处理过程就是业务逻辑的实现过程。
既要保证业务逻辑的正确性,又要保证数据产出的稳定性、时效性。
数据开发 - 代码功能示例
业务逻辑会尽量收口在数据明细层,目的是保证了数据的一致性,也简化了下游的使用。
源头上的变化,也可以通过代码或格式等的转换保证明细层结构的稳定性,避免给下游带来过多的变更。
好的模型,也需要与上游业务系统协同开发,一要业务系统有合理的设计,二是变更能及时的感知。
数据开发 - 任务调度配置
数据运维&治理 - 数据质量监控
数据质量监控的目的是保障数据资产产出的正确性。
监控的范畴包括表大小变化、表行数变化、字段枚举值变化(如新增“外卖”类务类型)、主键冲突(同一SKU出现两行)、非法格式(如email格式)等。
异常值会触发报警或中断数据处理过程,让值班人员有机会介入。
数据运维&治理 - 业务基线管理
基线的目的是保障数据资产产出的及时性。
优先级决定了系统硬件资源的保障力度,也决定了运维人员值班的保障力度。
重要任务都纳入了基线管理;核心任务优先级为最高级别8级。
数据运维&治理 - 数据资产治理
主要目标是优化存储与计算,降低成本,提升资源利用效率。
技术团队有多个project,治理需要技术团队一起配合完成。
手段有无用应用下线,表生命周期管理、重复计算治理、暴力扫描治理等手段。
数据运维&治理 - 数据安全管理
数据安全有四层保障:平台(Maxcompute)级、项目(Project)级、表级、字段级。
外包人员除了安全规章学习与考试外,还需要特别审批及签保密协议。
员工离职权限会自动进行权限回收。
数据中台如何支撑业务
阿里云和 MongDB 官方联合打造
带你七天玩转 MongoDB
点击“阅读原文”,快去报名吧~