【数据治理】数据治理怎么做?这篇万字长文终于讲清楚了!

2020 年 6 月 16 日 产业智能官


前言

股份制改革对我国银行业来说只是一个开始,企业在风险管理、创造价值等方面还有很长的路要走。风险管理要求提供精准的数据模型、创造价值要求充分银行数据资产,这是数据治理的外部推动因素。此外,随着第三次工业革命的到来,银行业也需要进入定制化时代,以更低的成本,生产多样化的金融产品,从而满足不同顾客的不同需求。对数据本身而言,业务发展加快了数据膨胀的速度,也带来了数据不一致等问题,业务部门的频繁增加和剥离同样会对数据治理提出挑战。这些日益复杂的内外因决定了我国银行业对数据治理的超高标准要求,而目前对应的经验能力却稍显薄弱。



数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如我们的数据该怎么进行规范,元数据又该怎么来管理,每个过程需要哪些系统或者工具来进行配合呢?这些问题都是数据治理过程中最实际的问题,也是最复杂的问题,今天我们将从数据治理的各个核心领域来解答这些问题。



银行数据治理核心领域


每个数据治理的领域都可作为一个独立方向进行研究治理,目前总结的数据治理领域包括但不限于一下内容:数据标准、元数据、数据模型、数据分布、数据存储、数据交换、数据生命周期管理、数据质量、数据安全以及数据共享服务。


同时各领域之间需要有机结合,如数据标准、元数据、数据质量等几个领域相互协同和依赖。通过数据标准的管理,可以提升数据合法性、合规性,进一步提升数据质量,减少数据生产问题;在元数据管理的基础上,可进行数据生命周期管理,有效控制在线数据规模,提高生产数据访问效率,减少系统资源浪费;通过元数据和数据模型管理,将表、文件等数据资源按主题进行分类,可明确当事人、产品、协议等相关数据的主数据源归属、数据分布情况,有效实施数据分布的规划和治理。



数据治理领域是随着银行业务发展而不断变化的,领域之间的关系也需要不断深入挖掘和分布,最终形成一个相互协同与验证的领域网,全方位的提升数据治理成效。



数据治理核心领域


1.数据模型


数据模型是数据治理中的重要部分,合适、合理、合规的数据模型,能够有效提高数据的合理分布和使用,它包括概念模型、逻辑数据模型和物理数据模型,是数据治理的关键、重点。数据模型包含三个部分,数据结构、数据操作、数据约束。


数据结构。数据模型中的数据结构主要用来描述数据的类型、内容、性质以及数据间的联系等。数据结构是数据模型的基础,数据操作和数据约束都基本是建立在数据结构的之上的。不同的数据结构有不同的操作和约束。


数据操作。数据模型中的数据操作主要用来描述在相应的数据结构上的操作类型和操作方式。


数据约束。数据模型中的数据约束主要用来描述数据结构内数据间的语法、词义联系、他们之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和相容。


2.元数据管理


元数据分为业务元数据、技术元数据和操作元数据,三者之间关系紧密。业务元数据指导技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为两者的管理提供支撑。


业务元数据。业务元数据是定义和业务相关数据的信息,用于辅助定位、理解及访问义乌信息。业务元数据的范围主要包括:业务指标、业务规则、数据质量规则、专业术语、数据标准、概念数据模型、实体/属性、逻辑数据模型等。


技术元数据。它可以分成结构性技术元数据和关联性技术元数据。结构性技术元数据提供了在信息技术的基础架构中对数据的说明,如数据的存放位置、数据的存储类型、数据的血缘关系等。关联性技术元数据描述了数据之间的关联和数据在信息技术环境之中的流转情况。技术元数据的范围主要包括:技术规则(计算/统计/转换/汇总)、数据质量规则技术描述、字段、衍生字段、事实/维度、统计指标、表/视图/文件/接口、报表/多维分析、数据库/视图组/文件组/接口组、源代码/程序、系统、软件、硬件等。技术元数据一般以已有的业务元数据作为参考设计的。


操作元数据。操作元数据主要指与元数据管理相关的组织、岗位、职责、流程,以及系统日常运行产生的操作数据。操作元数据管理的内容主要包括:与元数据管理相关的组织、岗位、职责、流程、项目、版本,以及系统生产运行中的操作记录,如运行记录、应用程序、运行作业。


3.数据标准


数据标准是银行建立的一套符合自身实际,涵盖定义、操作、应用多层次数据的标准化体系。它包括基础标准和指标标准(或称应用标准)。与数据治理其他核心领域具有一定的交叉,比如元数据标准、数据交换和传输标准、数据质量标准等。商业银行的数据标准一般以业界的标准为基础,如国家标准、监管机构(如国家统计局、中国人民银行、工信部)制定的标准,结合商业银行本身的实际情况对数据进行规范化,一般会包括格式、编码规则、字典值等内容。良好的数据标准体系有助于商业银行数据的共享、交互和应用,可以减少不同系统间数据转换的工作。数据标准的主要由业务定义、技术定义和管理信息三部分构成。


数据标准的主体构成



业务定义。业务定义主要是明确标准所属的业务主题以及标准的业务概念,包括业务使用上的规则以及标准的相关来源等。对于代码类标准,还会进一步明确编码规则以及相关的代码内容,以达到定义统一、口径统一、名称统一、参照统一以及来源统一的目的,进而形成一套一致、规范、开放和共享的业务标准数据。


技术定义。技术定义是指描述数据类型、数据格式、数据长度以及来源系统等技术属性,从而能够对信息系统的建设和使用提供指导和约束。


管理信息。管理信息是指明确标准的所有者、管理人员、使用部门等内容,从而使数据标准的管理和维护工作有明确的责任主体,以保障数据标准能够持续的进行更新和改进。


4.数据质量管理


数据质量管理已经成为银行数据治理的有机组成部分。高质量的数据是商业银行进行分析决策、业务发展规划的重要基础,只有建立完整的数据质量体系,才能有效提升银行数据整体质量,从而更好的为客户服务,提供更为精准的决策分析数据。



制度和规范。从技术层面上,应该完整全面的定义数据质量的评估维度,包括完整性、时效性等,按照已定义的维度,在系统建设的各个阶段都应该根据标准进行数据质量检测和规范,及时进行治理,避免事后的清洗工作。


数据质量评价维

明确相应的管理流程。数据质量问题会发生在各个阶段,因此需要明确各个阶段的数据质量管理流程。例如,在需求和设计阶段就需要明确数据质量的规则定义,从而指导数据结构和程序逻辑的设计;在开发和测试阶段则需要对前面提到的规则进行验证,确保相应的规则能够生效;最后在投产后要有相应的检查,从而将数据质量问题尽可能消灭在萌芽状态。数据质量管理措施,宜采用控制增量、消灭存量的策略,有效控制增量,不断消除存量。


商业银行数据质量管理流程


5.数据生命周期管理


任何事物都具有一定的生命周期,数据也不例外。从数据的产生、加工、使用乃至消亡都应该有一个科学的管理办法,将极少或者不再使用的数据从系统中剥离出来,并通过核实的存储设备进行保留,不仅能够提高系统的运行效率,更好的服务客户,还能大幅度减少因为数据长期保存带来的储存成本。数据生命周期一般包含在线阶段、归档阶段(有时还会进一步划分为在线归档阶段和离线归档阶段)、销毁阶段三大阶段,管理内容包括建立合理的数据类别,针对不同类别的数据制定各个阶段的保留时间、存储介质、清理规则和方式、注意事项等。


数据生命周期中各参数间的关系


从上图数据生命周期中各参数间的关系中我们可以了解到,数据生命周期管理可以使得高价值数据的查询效率大幅提升,而且高价格的存储介质的采购量也可以减少很多;但是随着数据的使用程度的下降,数据被逐渐归档,查询时间也慢慢的变长;最后随着数据的使用频率和价值基本没有了之后,就可以逐渐销毁了。


6. 数据分布和存储


数据分布和存储主要涵盖了数据如何划分和存储,总行系统以及总分行数据如何分布,主数据及参考数据(也称为副本数据或者辅数据)如何管理。只有对数据进行合理的分布和存储,才能有效的提高数据的共享程度,才能尽可能的减少数据冗余带来的存储成本。


通常情况下,综合数据规模、使用频率、使用特性、服务时效等因素,从存储体系角度,可以将商业银行的数据存储划分为四类存储区域,即交易型数据区、集成型数据区、分析型数据区、历史型数据区。


1)交易型数据区。交易型数据区包括渠道接入、交互控制、业务处理、决策支持与管理等各类联机应用数据;存储客户自助或与银行操作人员在业务交互办理过过程中产生的原始数据的存储,包括业务处理数据,内部管理数据和一些外部数据,其存储的是当前状态数据。


2)集成型数据区。集成型数据区包括操作型数据(OLTP)和数据仓库型数据(OLAP)。


3)分析型数据区。分析型数据主要是用于决策支持与管理的各类集市应用的数据。为了对业务执行情况进行深入分析,需要对原始数据进行进一步汇总统计分析,统计分析结果用于最终的决策展示,因此分析型数据区存储了这些统计、分析模型结构的指标数据。


4)历史数据区。这里存储了所有近线应用、归档应用、外部审计数据平台应用等的数据,主要满足各种历史数据归档后的数据保管和数据查询服务。


数据存储布局



7.数据交换


数据交换是银行进行数据交互和共享的基础,合理的数据交换体系有助于银行提高数据共享程度和数据流转时效。一般商业银行会对系统间数据的交换规则制定一些原则,比如对接口、文件的命名、内容进行明确,规范系统间、银行系统与外部机构间的数据交换规则,指导数据交换工作有序进行。建立统一的数据交换系统,一方面可以提高数据共享的时效性,另一方面也可以精确掌握数据的流向。


8.数据安全


商业银行的重要且敏感数据大部分集中在应用系统中,例如客户的联络信息、资产信息等,如果不慎泄露,不仅给客户带来损失,也会给商业银行带来不利的声誉影响,因此数据安全在数据管理和治理过程中是相当重要的。


数据存储安全。包括物理安全、系统安全存储数据的安全,主要通过安全硬件的采购来保障数据存储安全。


数据传输安全。包括数据的加密和数据网络安全控制,主要通过专业加密软件厂商进行规范设计和安装。


数据使用安全。需要加强从业务系统层面进行控制,防范非授权访问和下载打印客户数据信息;部署客户端安全控制工具,建立完善的客户端信息防泄漏机制,防范将客户端上存储的个人客户信息非授权传播;建立完善的数据安全管理体系,建立数据安全规范制度体系,组建数据安全管理组织机构,建立有效的数据安全审查机制;对于生产及研发测试过程中使用的各类敏感数据进行严密管理;严格与外单位合作中的个人客户信息安全管理等。


9.数据服务


数据的管理和治理是为了更好的利用数据,是数据应用的基础。银行应该以数据为根本,以业务为导向,通过对大数据的集中、整合、挖掘和共享,实现对多样化、海量数据的快速处理及价值挖掘,利用大数据技术支持产品快速创新,提升以客户为中心的精准营销和差异化客户服务能力,增强风险防控实时性、前瞻性和系统性,推动业务管理向信息化、精细化转型,全面支持信息化银行的建设。


建立结构化数据处理分析平台。数据仓库建设能够实现企业异构数据的集成,企业按照分析主题重组数据,建立面向全行的一致的信息视图。下图是一个典型的银行数据仓库服务体系:


银行典型的数据仓库服务体系


数据资产视图。在建立了数据仓库之后,需要建立统一的分析和可视化平台,解决数据在哪里,数据怎么用的问题。一个典型的应用是建立全行统一客户视图,包含客户信息统一视图、客户信息风险视图和网点业绩视图。


数据资产视图示例


数据治理的展望


数据治理不是一个临时性的运动,从银行业务发展、数据治理意识形成、数据治理体系运行的角度,需要一个长效机制来进行保证。 在大数据时代,经过数据治理的银行数据可以发挥更大的作用。


1.利用大数据挖掘技术分析各类海量信息,发现市场热点与需求,实现产品创新服务


可以将大数据应用到产品生命周期,深入挖掘客户需求,把握客户痛点,推动产品创新。利用大数据技术对社交网络信息、在线客户评论、博客、呼叫中心服务工单、用户体验反馈等信息进行深度挖掘和分析,充分洞察客户,分析客户的情绪,了解客户对产品的想法,获知客户需求的变化趋势,从而对现有产品进行及时的调整和创新,事情贴近客户的生活场景和使用习惯。


基于大数据创新产品评价方法,为产品创新提供数据支撑。通过大数据分析,改变目前以规模、总量为主的业务评价方式,建立一整套完整的以质量、结构为主的全新的评价方式,以引导全行真正追求有质量、有效益的发展。


2.加强内外部信息联动,重点利用外部信息提升银行风险防控能力


进一步加强与税务、海关、法院、电力部门、水务部门、房产交易登记中心、环保部门以及第三方合作机构的数据互联共享,有效拓宽信息来源渠道,深度挖掘整合系统内外客户信息、关联关系、交易行为、交易习惯、上下游交易对手、资金周转频率等数据信息,利用大数据技术查找与分析不同数据变量间的关联关系,并建立相应的决策模型,提升银行风险防控能力。


在信用风险方面,可以结合外部数据,完善信用风险防范体系,基于可视化分析有效防控信用风险的传导。引入大数据理念和技术,统一信用风险模型管理,构建覆盖信用风险训练、模型管理、日常预警、评分评级、客户信用视图以及业务联动控制的信贷大数据平台,建立多维度、全方位的缝隙爱你预警体系。


在市场风险方面,基于市场信息有效预测市场变动,基于大数据处理技术提升海量金融数据交易的定价能力,构建定价估值引擎批量网格计算服务模式,支持对海量交易的实时定价,有效提升银行风险管控与定价能力,为金融市场业务的发展提供有力支撑。


在操作风险方面,依托大数据信息整合优势,有效防控操作风险。通过可视化技术,从业务网数据中发现识别风险线索,实现由“风险监控”向“业务监控”模式转变,提升风险的提前预警能力。加强跨专业风险监控模型的研发,通过由点带线、由线及面的矩阵式关联监控,提前识别风险交织趋势,防范风险传染。


3.利用大数据技术提升经营管理水平,优化业务流程,实现精细化经营决策


在经营决策方面,通过外部数据的补充和整理,实现经营分析外延的拓展,从市场和经营环境的高度分析各级机构的发展方向、竞争压力,制定更合理、更有效的经营策略。同时,应用大数据可视化技术,实现复杂分析过程和分析要素向用户的有效传递,增强分析结果说服力和指导性,向经营人员提供有力的信息支撑。


在资源配置方面,依托大数据采集和计算能力,提升测算的敏感性和有效性,加强财务预测的可靠性和有效性,为总体资源配置提供更好的信息支撑,实现对具体资源配置的动态管理。


在过程改进方面,优化业务流程,对交易、日志的专业挖掘,探索当前业务处理流程节点的瓶颈,寻求最有的解决方案。比如通过分析客户从排队到等候完成全部交易的流程合理性,提出过程改进方法,提升网点整体运营效率和客户体验。


在运维保障方面,基于流数据处理技术,搭建准实时的应用交易级监控平台,实现交易运行情况的即时监控,保障业务运行稳定高效。


--------------------- 

作者:数据工程师金牛 

来源:CSDN


先进制造业+工业互联网




产业智能官  AI-CPS


加入知识星球“产业智能研究院”:先进制造业OT(自动化+机器人+工艺+精益)和工业互联网IT(云计算+大数据+物联网+区块链+人工智能)产业智能化技术深度融合,在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的产业智能化平台;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。


产业智能化平台作为第四次工业革命的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎; 重构设计、生产、物流、服务等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生 新技术、新产品、新产业、新业态和新模式; 引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。

产业智能化技术分支用来的今天,制造业者必须了解如何将“智能技术”全面渗入整个公司、产品、业务等商业场景中, 利用工业互联网形成数字化、网络化和智能化力量,实现行业的重新布局、企业的重新构建和焕然新生。

版权声明产业智能官(ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源,涉权烦请联系协商解决,联系、投稿邮箱:erp_vip@hotmail.com。




登录查看更多
14

相关内容

数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。数据治理是一种数据管理概念,涉及使组织能够确保在数据的整个生命周期中存在高数据质量的能力。一个数据管家是确保数据治理流程遵循,指导执行,并建议改进数据治理流程的作用。
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
159+阅读 · 2020年5月14日
德勤:2020技术趋势报告,120页pdf
专知会员服务
186+阅读 · 2020年3月31日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
194+阅读 · 2020年3月8日
新时期我国信息技术产业的发展
专知会员服务
68+阅读 · 2020年1月18日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
105+阅读 · 2020年1月2日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
292+阅读 · 2019年12月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
【机器学习课程】机器学习中的常识性问题
专知会员服务
72+阅读 · 2019年12月2日
关系图谱在贝壳找房风控体系的应用与实践
DataFunTalk
49+阅读 · 2020年2月12日
【数据中台】什么是数据中台?
产业智能官
17+阅读 · 2019年7月30日
如何做数据治理?
智能交通技术
15+阅读 · 2019年4月20日
【干货】电商数据中台如何构建?
AliData
9+阅读 · 2019年4月4日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
【大数据】工业大数据在石化行业的应用成功“落地”
【工业大数据】一文带你读懂《工业大数据白皮书》
产业智能官
14+阅读 · 2018年1月20日
威胁情报浅析
计算机与网络安全
7+阅读 · 2017年11月15日
数据工程师的没落
大数据文摘
4+阅读 · 2017年9月20日
Arxiv
99+阅读 · 2020年3月4日
Arxiv
10+阅读 · 2018年2月9日
VIP会员
相关VIP内容
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
159+阅读 · 2020年5月14日
德勤:2020技术趋势报告,120页pdf
专知会员服务
186+阅读 · 2020年3月31日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
194+阅读 · 2020年3月8日
新时期我国信息技术产业的发展
专知会员服务
68+阅读 · 2020年1月18日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
105+阅读 · 2020年1月2日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
292+阅读 · 2019年12月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
【机器学习课程】机器学习中的常识性问题
专知会员服务
72+阅读 · 2019年12月2日
相关资讯
关系图谱在贝壳找房风控体系的应用与实践
DataFunTalk
49+阅读 · 2020年2月12日
【数据中台】什么是数据中台?
产业智能官
17+阅读 · 2019年7月30日
如何做数据治理?
智能交通技术
15+阅读 · 2019年4月20日
【干货】电商数据中台如何构建?
AliData
9+阅读 · 2019年4月4日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
【大数据】工业大数据在石化行业的应用成功“落地”
【工业大数据】一文带你读懂《工业大数据白皮书》
产业智能官
14+阅读 · 2018年1月20日
威胁情报浅析
计算机与网络安全
7+阅读 · 2017年11月15日
数据工程师的没落
大数据文摘
4+阅读 · 2017年9月20日
Top
微信扫码咨询专知VIP会员