根据您的理解,数据治理有两方面比较大的问题:数据质量问题和成本问题,我们今天围绕这两方面聊聊。
徐波:数据从生产到消费链路比较长,涉及的系统和角色众多,而这些系统和角色又分散在各个组织,协作复杂度很高。
数据质量长效保障流程相对较重与短期效率容易产生矛盾,难以长期坚持。所以数据质量在各大公司都是个普遍问题。这里的挑战主要有以下几方面:
与协作团队目标未对齐。比如业务系统和客户端团队的目标是保障业务功能质量,容易忽略与数据团队联动,引起一些数据质量问题;
缺乏统一指标命名、管理规范与信息同步机制,局部各自定义,全局指标膨胀,五花八门;
缺乏合理的指标生命周期管理流程与角色设计,指标质量无人长期负责;
缺乏指标管理平台,定义散落在文档。阶段性对齐, 难以长期保障口径准确清晰;
核心数据多出生产,各自对外服务,容易产生不一致;
缺乏全局监控手段,容易受到业务系统变更,局部数据变更等因素引起数据故障。
徐波:快手的质量保障主要通过:组织、流程、规范,系统这四个方向来实现数据质量的持续收敛。
1. 组织上分两层。对外,我们与协作团队(客户端,业务系统,质量保障,分析师)共识数据质量的重要性,并且与他们共识质量目标与各自的职责,以定期复盘和通晒的方式来持续加强大家的质量意识和一定的资源投入;对内,明确每个业务线以及公司级的指标管理员,对指标口径和生命周期负责,做到口径变化有人审批,版本变化可追溯。
2. 在规范上,建设了指标定义规范与数据监控规范。首先是指标定义规范,明确基础,衍生,符合指标原则,对指标进行了极大的收敛。使用词根叠加命名方式来替代人工命名让指标更加规整;其次是数据监控规范:明确核心指标上线必须要加上 DQC,对常见的监控项予以覆盖,额外还加了一些补充规则,如:
多表间相同指标维度一致性监控,且覆盖历史半年数据,保障仓内的数据一致性;
指标之间的业务规则监控(比如有效订单 = 提交订单 - 取消订单,分渠道有效订单汇总 = 总有效订单);
历史数据分区的变更监控,防止历史数据局部刷新引起的不一致;
业务系统核心维表变更监控,防止业务系统分类变化带来的数据波动不可解释;
3. 流程机制上建设了:
指标生命周期管理流程,明确各角色职责和指标变更审批与信息同步公示机制;
监控值班机制,这点最为关键,也最难以坚持。数据问题往往不是没有被监控发现,而是告警了没人看,没人跟进。我们要求每天必须看,当天问题当天解决,各业务的数据 Leader 负责监督。
4. 在系统上,建设了指标管理系统和全链路监控系统,让流程规范能在系统中高效的运作起来。
徐波:质量保障,除了上面说的一些方法外,了解到美团和阿里都有数据建模工具,打通了数据指标管理与数据生产链路,并将一些建设规范集成到数据建模工具上,从源头上让数据生产更加规范,这是一种很好的事前规避的方法。相比于事后监控发现,这种方法效率更高。
徐波:快手是一个强用户交互型的产品,每天会有亿级的用户在 App 上产生万亿级的数据,并且随着业务的发展,数据会持续增加,在存储和计算成本上挑战巨大。
数据治理成本主要体现在以下几个方面。
资源使用方,缺乏资源节约意识,没有动力进行治理优化;
生命周期管控不规范,大量数据被无差别对待进行历史封存,持续占用资源;
数据上报字段设计不够精细,宁愿多报不愿少报,数据冗余;
因为历史原因多套模型并存,重复计算占用大量资源;
数据血缘不完整,无法从业务使用价值层面评估资源使用合理性,造成浪费。
我们的优化方向主要有以下几方面:
通过内部成本账单体系,归一和量化资源使用,全面推进资源“市场经济”落地,提升大家成本意识。用 Qutoa(资源配额)与定期通晒建立优化抓手;
明确数据生命周期定义,与生产环节打通,从源头控制持续占用资源的数据量;
打通数据建设与消费全链路血缘,从数据使用价值评估 ROI,倒逼优化;
建设丰富的元数据与分析治理工具,辅助资源方做字段级精细化优化;
迭代技术能力,降副本不降可靠性及更低廉的存储介质来降低成本;
我们也对一些成熟公司做了些调研与学习,发现大家的困难与解决思路,在不同的阶段都比较类似,在程度和侧重点上有些差异。
徐波:分两个问题来看,在质量上,我觉得在资源有限的情况下,先建设执行流程规范,性价比更高。可以参考成熟公司的一些流程规范和方法,跟进自己业务特点及规模做适当的裁剪,先能线下人工跑通质量管理、监控的全链路。
充分验证后,再投入做系统建设。质量是个复杂问题,不能寄希望于某个系统或者某几个人就可以把公司整体的质量提升。
在成本控制上,我认为第一要素是公司要自上而下有成本意识,让每个资源使用方都能把自己当做是公司的一号位来思考,把公司当做创业公司来看。初期可以参考成熟公司的经验,投入建设数据血缘和元数据工具并对元数据进行认真的分析,从数据价值来评估资源的投入 ROI。
快手的质量与成本治理工具,我们也在考虑对外开放,将我们内部实践过的流程方法沉淀到工具上,帮助一些中小企业提升质量与控制成本。
徐波:快手的大数据治理平台包括质量,成本,安全,建设规范等方面,我以成本治理为例,简单讲讲治理平台在成本方向发展的三个阶段。
“计划经济下搞运动”:从平台视角人工零散发现一些明显问题(数据长期无访问,数据生命周期设置不合理等),平台与业务沟通确认,帮助治理。这个阶段的痛点是:因为业务发展初期,资源由平台统一分配,业务迭代效率更高,所以大家对资源感知弱,也没有动力和方法做治理,只能靠平台。平台在初期能力不足,对业务数据也理解不深,只能用一些小工具和基础方法反复和业务沟通来做,效率和效果都不高。
“市场经济下建平台”:业务有了资源意识,开始主动寻求平台支持做优化,倒逼平台能力提升。由于我们发现如果业务没有资源意识,做治理举步维艰,所以我们与 CTO 充分沟通,自上而下推动公司资源从平台分配转向业务申请,由过去的“计划经济”转向“市场经济”。同步建设资源管理与治理平台,以“租户”为资源隔离单元,对每个租户上了“Qutoa(资源配额)”,同时以在治理平台上,以租户为视角呈现数据资源状态和治理项。通过与业务的不断磨合,也有了更丰富的元数据与工具能力。
“市场经济下自治理”:公司系统运营团队对各类资源全面定价,用内部账单体系全面归一和量化资源用量,业务侧对资源治理主动性更强,治理平台借助这个时机,与账单体系打通,实现了业务对资源的可感,可控。业务完全从平台手中接过了资源治理的交接棒,进入了,主动自行治理的良性循环。当然实现这样的结果,主要的原因还是因为公司自上而下对资源“市场经济”全面彻底的落地。
徐波:在成本治理的三个阶段,我印象最深,也是最难的还是在第一个阶段往第二个阶段发展的过程中,从“计划经济”转向“市场经济”改变原来业务资源使用习惯时遇到的挑战。从无限制到被约束,业务肯定有反弹,也会带来团队服务满意度下降,甚至对资源问题的投诉。
我们的解法是“走上层路线”,因为这种变化是一种机制和理念的变化,必须要得到公司高层的理解与支持,不然无法落地。
我们对当时的资源进行了充分的分析,对方案做了充分的讨论与设计,也学习了其他大公司的经验,与 CTO 汇报沟通,论述了这种机制的变化会带来什么样的优势,以及过渡方案。最终得到了 CTO 的认可。
在具体落地与业务协作时,对于每个业务,先基于资源现状协助做资源单元(租户)初始化,然后根据业务实际情况做人员与资源单元的映射,明确资源管理员,最后上 Qutoa(资源配额),让大家明确职责,各司其职。
徐波:统一的数据治理平台带来的优势主要体现在治理效率上,治理平台与数据生产,管理,监控平台打通后,可以在统一平台上看到各团队数据资产的状态与治理项,可以很方便的一站式发现问题,并驱动解决问题。同时能将一些原来需要事后治理的策略提前到生产环节,从治理项变成约束项,从源头提升规范性。
除了统一数据治理平台我觉得快手数据治理最大的优势还是来自于组织红利,快手的数据团队是一个中台化非常彻底的组织,这样的组织形态下极大的提升了我们的协同效率,能快速目标一致,方法一致,步调一致快速拿到结果。
徐波:除了在利用元数据在数据建模提升研发效率与建模规范化,元数据追踪数据消费链路合理控制成本,以及利用元数据构建 OneService 数据服务,实现一处生产多处调用从系统架构上提升质量外。目前我们在探索用元数据进行组织和项目治理:利用元数据全面量化呈现数据团队各领域建设投入,各产品模块对业务的数据分析效率及业务目标提升情况。将这些数据全面量化监控与分析,用以指导团队人力和项目规划。
我们认为数据也是个业务,操盘数据团队和操盘业务团队类似,都是需要从商业视角来看,尤其在当前提质增效的大背景下,更要关注 ROI。比如有些类似差异不大的工具,用户分布分散,需要投入大量人力和机器资源去运营,原来没有这些数据时,大家很难有动力进行同类项的合并,有了这些数据我们就可以很容易的发现,在某个领域,应该重点发力哪个产品,应该合并哪些产品,在与业务和客户沟通时,也有了更有说服力的数据支撑。
徐波:首先从治理的范围上,我觉得会从基础的质量,成本,安全往数据建设效率以及团队管理和项目规划上拓展;
同时大家会越来越重视元数据的建设与分析,通过对元数据的分析来发掘在各个领域可以优化的点以及用元数据来作为资源和方向投入的决策依据。数据驱动不仅在业务侧发挥价值,对数据团队本身来说也会发掘巨大价值;
另外随着治理的逐渐深入,对于一些成熟的治理领域,比如质量,成本治理,与相关系统的打通会做的更好,把治理的工作前置,把事后治理项转变成事前约束项,提升效率。
嘉宾介绍:
徐波 快手数据平台部负责人,拥有十余年大数据建设与应用相关经验,于 2019 年加入快手,带领团队全面落地了数据生产、治理、分析、应用等数据中台产品,建设了快手全业务数据内容与服务体系。目前专注于使用元数据驱动数据生产、服务、治理的方向应用与探索。
在 3 月 24-25 日,ArchSummit 全球架构师峰会即将落地北京,【LakeHouse 架构演进与数据治理实践】专题出品人徐波将亲临现场与你一起面对面交流。本次专题我们邀请了快手数据中台数据服务负责人刘一凡和美团大数据平台技术专家周邦涛,两位专家将会分别从数据质量、数据成本方面来分享他们在快手和美团的数据治理实践,希望对从事数据治理的工作者有所启发。
于此同时,在此会议上我们还策划了微服务治理之基础架构、微服务治理之业务架构、架构师成长、客户端架构设计、数据库与存储技术、云原生技术应用、质效度量体系和测试平台建设、低代码实践与应用、领域驱动设计方案落地、高并发架构设计等专题,届时欢迎你的参与。