随着企业信息化、数字化的发展,对于数据管理者提出了更高的要求。自服务数据共享与服务架构是为了更好的解决数据管理者对数据管理中的数据的交换、资源的管理、数据的共享以及带动业务创新而提出的数据管理框架。自服务数据共享与服务架构的目标是实现对企业级的数据和资源进行管理,推动业务创新带动企业业务拓展。在自服务数据共享与服务架构中提出以元数据为核心,自动采集数据信息进行数据分类管理,并建立了自助式数据交换和数据共享通道,制定了数据交换中所常用的数据交换标准,提供了对数据的全生命周期的监控和预警功能。
一、数据交换与共享的现状分析
二、什么是自服务数据共享与服务架构
三、普元自助式数据共享服务平台产品
四、总结
我们先以政府中的数据为例讲一下企业中数据共享的必要性,之前没有进行数据共享时,各部门之间的数据不能互相连通。造成让群众多跑路,去到各个部门开具很多的证明。办事流程繁琐。群众的“一站式”服务需求难以得到满足和实现,其它行业也同样存在数据共享的需求。
例如在电信行业,金融行业等各种行业存在有大量数据,但这种数据并没有被共享,没有合理的利用起来,造成新业务的发展停滞。随着大数据时代的发展这种情况还在加剧,这些企业随着数据共享的发展也在思考如何转变,如何从一个数据的管理者变为数据资产的经营者,带来新的业务。这里整理出了部分行业对于数据的核心需求:
电信
持有大量用户数据,对数据资产的售出,将成为行业的 新增长点。
金融
各行业的金融信息流可结合第三方数据,更 深入分析 客户情况。
制造
从传统制造到互联网 + 的转型,大数据是 核心 动力。
政府
大数据已经成为国家战略,政府机构大数据将能够更好的 治理 社会。
电力
大数据资产已经成为电力行业的关注重点,利用大数据在生产,营销,物资等多方面 提高效率。
用自助服务将业务数据结合第三方数据或其他数据来带动业务的创新,这都离不开数据共享的支撑。
在传统信息系统架构模式下,各个组织或各个部门根据各自的业务需求的需要,在不同的时期不同的技术环境下建设出各自的信息系统系统,从而出现了一个个“孤岛”式应用。为了解决这些问题,企业不得不花费大量的时间和成本去修改、或者新开发、或者做集成,企业投入过多的精力专注与 ETL、ESB、Hadoop 等各种技术,这样一来企业最大的损失是时间、机会和成本。
接下来我们再来看一下传统数据交换共享方式存在的问题。这里大体罗列了一下有下面一些问题比如说过程不可控、数据不开放、缺乏共享等。这些问题出现的核心是管和用没有解决好。
传统的交换方式只关注了存和采,造成管的不准和用的不畅。他们没有对数据资产的管理、对大数据的分析应用,缺少对数据运营的监控。下面我们通过三个问题来看一下管和用场景中的问题。
这里我们遇到的主要有下面几个问题,我们需要的数据在哪里,我该找谁要这些数据,假如说我找到了这些数据,那么这些数据具体的业务含义又是什么。
在这里自服务数据共享与服务架构给出了一些建议:
自动化获取元数据信息
通过自动化采集与解析手段,建立技术、业务、过程元数据的注册输入,标明数据方位。
标明数据方位,整理业务属性
将数据资产按业务属性编目,梳理数据的属性、共享方式、特性、映射。
建立业务数据服务目录
以数据资产为驱动方式,实现数据集成和共享。建立数据服务目录。
这里我们遇到的主要有下面几个问题,企业中业务数据繁多如何去进行批量的数据交换减少重复性劳动,另外是如果遇到实时性要求较高的共享应该怎么变,最后是如果有很大的非结构化数据怎么处理。
在这里我们也提出一些建议:
梳理数据交换需求
梳理数据集成、交换需求。按技术特征划分为实时、准实时、批量等。
数据资产与服务对接
基于数据资产的数据开发,实现资产与数据服务的对接。通过服务目录直接获取所需数据。
这里我们遇到的主要有下面几个问题:
数据不一致怎么处理
数据量异常波总怎么办
数据源变更我们要怎么处理
在这里我们也提出一些建议:
明确重要监控指标
梳理数据平台、MPP、Hadoop 平台的重要数据监控指标与监控需求。
建立多渠道监控方式
对接数据监控平台,以以邮件、短信等通知方式告警。
根据前面讲的一些问题,我们归纳一下我们需要什么样的数据共享与服务的架构?
可以灵活扩展支撑业务变化,保证业务数据保质量、标准化
基于模型的数据获取数据,基于数据模型管理,可以让技术与业务人员通过平台可以迅速找到对应的数据资源。
支持现有主流的大数据技术平台的对接
可对接现有的大数据 Hive,Spark,Strom 流数据等主流的数据结构,分为实时数据和批量数据的对接方式。
数据获取方式灵活多样,可支持配置化数据订阅管理
支持灵活的数据订阅方式,以支推,拉的数据订阅数据与服务接口对接。可以快速的获取到想要的数据活文件。
支持多种数据预警机制,随时发现数据任务执行过程中所遇到的问题
支持执行任务的全过程监控,执行数量监控,数据波动、数据到达预警监控等,并支持多种信息通知方式,如短信、邮件等。
传统数据共享交换,多种交换工具和多种交换方式并存,不易维护管理。企业需要将传统的离散工具数据交换方式向服务平台转型。服务平台数据共享交换,支持对多源、多类型数据共享交换的统一管控,帮助企业屏蔽底层技术平台的差异,保护投资。
传统的数据获取方式,业务人员想要拿到数据需要技术人员在开发后才能获取到。而在自服务数据共享架构中通过自助化的数据准备让业务人员能自己获取到数据,减少数据获取的时间。
自服务数据共享架构用快速的数据平台基础设施,为决策者提供任何想要的数据,整个过程分为四步:数据获取、数据准备、数据服务开发和数据共享发布。
这里自服务数据共享架构改进了四个地方:
是将找到数据变为自助化,业务元数据与技术元数据对接,自助化数据申请和订阅。
是将提供数据变为自动化,基于数据目录的数据服务开发,在线编辑数据模型,生成作业。
是让使用数据规范化,数据服务标准应用方式,数据通道提供平台支撑。
是让数据治理可视化,基于数据地图运行态全链路监控,事前、事中、事后的数据质量检查。
接下来我们通过 5 个场景来讲一下自服务架构带来的变化。
这里分了三个角色进行资源管理。
第一:是数据提供者角色,它主要负责对数据源信息进行注册
第二:是数据管理者,他主要是对资源进行按主题分类对共享数据进行管理
第三:是消费者它是共享资源的使用者,主要是查询想要的数据对共享资源进行申请或订阅
主要包括接口、文件和数据库三种类型的共享资源, 通过对三种资源的管理控制能够全面覆盖企业中的数据服务要求。
这里以销售合同为例,消费方要获取到销售合同分为 7 步
消费者整理需求进行营销分析,需要公司前三年的销售合同信息
在服务目录搜索合同相关资源
消费方提交申请
管理员了解需求并审批
开发人员接收任务,按要求开发作业
管理员 / 运维人员作业调度
开发任务完成后,进行服务发布
自服务数据共享架构下通过自动化采集,自动形成全数据链路,能够形成数据服务共享的全貌图。
消费方申请数据时能够及时发现资源在使用过程中的质量问题,消费方通过平台对实体进行血统分析,发现与其相关的上游数据。通过血统分析定位可能的问题路径,分析并解决数据质量问题。
消费方申请数据时能够及时发现资源在使用过程中的质量问题,通过血缘分析能够确认拿到的是自己想要的数据,验证开发正确性。
通过对以上五个场景的分析得出,自服务数据共享架构不仅仅是工具的集成,更是重要的数据的运营平台,通过自服务数据共享架构,降低业务对技术依赖,充分发挥业务创新潜能。
根据前面所讲的内容我们分析得出自服务数据共享与服务逻辑架构,主要分为三个层面底层是数据资产,中间是数据开发层,顶层是数据共享层,数据的共享是一个自底向上的过程。数据消费者在使用数据是是通过申请或订阅拿到数据共享层中的数据。
先来看一下普元自服务大数据治理平台功能架构。
这个功能架构主要分为 4 部分:
上面 的这一部分是数据服务平台,它主要的作用是对资源的共享和使用;
下面 的是数据开发平台,它的作用是进行数据交换任务的开发;
左边 的是数据资产平台用于对数据资产进行管理;
右边 的数据监控平台基于服务规范对运行的任务进行全链路监控。
接下来看一下自服务大数据治理平台的服务流程:
首先是数据资产管理数据提供方通过数据资产管理进行数据资产的信息录入,对资源进行分类产生主题数据。
然后是消费方通过数据资产应用查找所需要的数据,通过申请或订阅来获取资源。
在消费方申请或订阅的申请通过审批后数据开发人员进行共享数据交换的开发将数据提供给消费方。
整个交换任务的执行过程通过都能够通过监控管理查看。
我们在交换任务的事前、事中和时候都提供时数据资源管理来保证数据交换的质量。
自服务大数据治理平台以元数据为核心,通过共享、使用、管理和开发实现数据资产的闭环管理,全面支撑大数据应用。
然后我们看一下普元自助服务平台建设的 4 项基本原则。
提供一站式服务,通过普元自助服务平台能够处理企业中所遇到的大部分数据交换共享需求。
提供两种服务模式,在进行业务较为简单的交换共享时使用简单模式,在进行复杂的交换共享时使用复杂模式。
提供三个应用特性来保证实施效果。
灵活拓展四个子平台,即:资产平台、开发平台、监控平台和服务平台。
通过使用普元的自服务大数据治理平台实现自动化的元数据采集,使数据管理者能够清楚看到大数据资源状况。平台提供了 web、文件、数据库、流数据四种服务开发能力,有效的支撑起企业的数据应用服务。另外平台建立数据服务申请流程和机制,规范了资源管理过程,实现从需求 -> 设计 ->开发 ->发布的 C2C 闭环管理。
接下来看一下我们平台中的三个应用特性:
通过三方面进行来支撑企业数据服务的:
第一是数据标准模型管理与检索应用,通过图形化的手段能够看清数据的解构,快速找到所需数据的位置。
第二是数据服务目录,通过对数据服务目录的管理能清楚的了解资源使用的状况,根据资源的使用做出相应的业务调整,合理利用数据资源。
第三是元数据的管理,通过对元数据的管理建立对业务员数据和技术元数据的映射关系。使业务人员能够读懂数据的含义。
这里包含三方面的内容:
第一对于业务分析人员提供了面向业务的查询分析,通过 Web 图形化的手段配置数据查询。通过查询能够查询到月级到分钟级的数据。
第二提供了数据统一共享使用的能力,这里面统一了数据的访问方式,建立数据访问权限,指定数据标注和规范。降低了服务接入成本,使服务使用可量化。是数据应用设计上变得松耦合。
第三对于数据分析师提供了可视化的工具帮助数据分析师进行数据探索和自助分析,基于可视化工具,提供数据处理流设计支持,实现从数据源定义、大数据集获取、数据处理、BI 分析、结果输出的全过程工具。
这里能够通过“一张图”看清数据处理全过程,通过闭环的数据质量管控与量化应用监控数据任务的执行,保证数据的质量。再就是对于数据资产的创建、变更和注销能够进行全生命周期的管理。
最后我们来看一下我们的自服务大数据治理平台的实施效果,平台通过对数据来源、数据标准化到数据共享整个过程实现了数据流整体监控以及数据的资产化,资产的服务化,以及数据服务的共享和监控。
自服务数据共享与服务架构未来一定是企业数据治理,业务创新以及数据资产化的基础框架。通过自服务数据共享与服务架构将原先企业中的离散数据工具通过以元数据为核心统一进行科学、合理的整合,并且用自动化的能力把服务化的数据治理做好。为企业的业务创新、数据治理打开新的管理思想,让数据发挥出最大价值。
宋华, 普元大数据产品部 Primeton DI 产品负责人,一直专注于企业数据交换和数据管理的工作。曾主持参与了 Primeton DI 和 Primeton ESB 的产品研发工作,并参与了航天三江集团主数据交换项目、山东联通数据交换项目、数字化校园、广州海关数据交换项目、等多个项目。
PS:本文转载自微信公众号 EAWorld,已获得转载授权。
期望得到更多优质技术干货,欢迎加入 EAWorld 社区,与近万名技术人一起成长。入群暗号:404
如果喜欢我们的文章,欢迎大家在阅读后随手点赞,给编辑鼓励一下吧~