数据太多、太乱、太杂?你需要这样一套数据治理流程

2019 年 9 月 26 日 机器之心

机器之心原创

作者:思

数据作为机器学习的基础,从 GB、TB 到 PB 已经增长了无数倍,现在大一点的业务场景,没有 TB 级数据都提供不了高效的体验。 那么数据怎么治理才好,怎样与模型、算力结合才算妙? 在本文中,我们将看看什么是 HAO 数据治理模型,看看公安数据到底是如何规范处理的。
最近,明略科技与合肥工业大学的研究者在中文核心期刊《软件学报》上发表了一篇关于数据治理的论文。 它介绍了数据治理的概念,并对数据清洗、交换和集成等进行具体分析,从而提出了一种新型大数据治理框架「HAO 治理」模型。


论文地址:http://www.jos.org.cn/1000-9825/5854.htm



数据治理真的很重要?


智能是基于数据的,而数据又是基于大量人工与工程努力的,所以人工智能还有相当一部分「人工」。 数据收集需要人工确定数据源,或者手动写爬虫; 数据处理则需要观察数据,并手动写整个清洗过程; 数据标注则要根据具体业务,看看怎样给数据打标签才好。


这些过程都会耗费大量精力,有时候如果处理路径不明确,甚至会导致重复或冗余的人力工作。 因此事先确定一个具体的处理流程,明确数据该怎样治理、算力该怎样分配、模型又该如何部署,那么整个开发过程能减少很多人力成本与工程负担。


作为论文一作,明略科技集团首席科学家、明略科学院院长吴信东教授表示: 「数据治理的本质是对一个机构(企业或政府部门)的数据从收集融合到分析管理和利用进行评估、指导和监督的过程,通过提供数据服务创造价值。 数据治理可对数据战略资产进行管理,通过从收集汇聚到处理应用的一套治理机制,提高数据质量,实现数据共享和价值最大化。


既然那么重要,就需要一套框架,就像 DL 模型最开始都是手动写,但成为主流后就需要 TensforFlow 这样的框架。 吴信东等研究者详细分析了数据治理中的各种模块,并表示数据治理从来都不是一次性的程序,每个组织必须采取许多小的、可实现的、可衡量的步骤来实现长期目标。


因此,如果我们想降低数据治理的成本,最优地调配数据、模型及算力,那么就需要一个成熟的框架。 如下我们重点介绍「HAO 治理」模型的概念与过程,并从公安数据治理的角度看看该框架在实际应用中是什么样的。


什么是 HAO 治理模型


前面介绍过数据治理是从数据收集到应用处理的管理机制,而框架则规定了有关数据的流程、原则或定义。 比如说我们现在有一堆图像数据集,那么从图像源、图像采集到图像储存,我们先要确定数据的接入方式是什么。


随后,因为这些图像不止用于一个任务,所以需要确定标准化的形式,并做一些清洗与预处理; 当然,标注还是根据任务来确定的。 最后,这些图像数据还应该统一地提供给不同的模型与任务,从而构建不同的服务,这一部分也是该统一管理的。


而明略科技设计的「HAO 治理」模型会从大数据开始,为「HI」(人类智能)、「AI」(人工智能)和「OI」(组织智能)三者协同的智能提供数据治理支持。 下面举个 HAO 的例子:



其中 HAO 智能的输入不仅有各种传感器,还有人类的主观感受。 后面的雾计算会分析所有信息,并将机器运算/推理结果与人的分析相匹配,形成概率化与规则化有机协调的优化判断。 人类、机器和组织三者结合,它们的数据与判断相互协助,这样才能最大化地利用数据的能力。


整个人机协同系统是非常复杂的,那么这就要求有一套成熟的治理框架来规范数据与算力的分配。


这样的系统应该需要满足很多要求,例如全面的数据接入机制、标准化的数据处理流程、多元集成的数据组织模式和多种数据服务模式。 其中数据服务模式可以向使用者提供查询检索和比对排序等基础数据服务,也可以面向专业人员提供挖掘分析和专家建模等智能数据服务。


如下展示了 HAO 智能的蓝图设计,它主要包括感知、认知和行动三部分。



总体而言,整个过程会从大数据环境开始,并根据大数据、人类专家系统、人工智能和组织智能生成对应的知识图谱,从而将大知识应用到人机协同中。 此外,「HAO 治理」是一种实用系统,因此也就要求模块化数据源和治理功能,它需要更快速与灵活地搭建新特性。


「HAO 治理」模型是什么样的


「HAO 治理」模型主要包含三部分,即数据接入模块、数据治理模块和数据服务模块。 其中数据接入需要采集、汇聚等操作,从而构建异质的大数据。 其次数据治理模块主要对数据进行一系列预处理过程,从而构建更加容易建模的数据。 最后的数据服务模块则通过分析与加工,为外部提供各种新的能力。


1. 数据接入


一般而言,现实世界的数据主要分为结构化或非结构化,而这些图像、文本等各种数据都应该进行统一的接入与管理。 对于数据源之上的接入模块,它主要完成不同类型的抽取汇聚任务配置,包括异构数据库之间数据传输汇聚,不同类型的文件数据和服务接口间相互传输。



2. 数据治理


接入后的数据都是比较杂乱的,它本身带了一些冗余或缺失的信息。 因此,数据治理模块主要包括对汇聚库中的数据进行数据清洗和数据规范,必要时进行主题划分和数据关联,然后进行数据集成。 治理完成后的数据汇聚到数据共享中心中,并用于后续的建模。



其中我们比较熟悉的就是数据清洗,它会对数据进行审查和校验,从而过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换。


3. 数据服务


数据治理的目标是提供一个可直接使用且方便管理的数据库,它最终还是要为各种模型提供学习基础。 而模型,最终也是要提供各种智能服务,因此这一部分也应该得到规范的管理。


基于数据治理模块,数据服务模块最开始会根据数据共享中心构建知识图谱,它不仅向使用者提供模型管理、模型探索、数据探索等数据服务,同时还向专业人员提供挖掘分析、专家建模等智能数据服务。



其中核心的知识图谱是由节点和边组成的巨型知识网络,节点代表实体、边代表实体之间的关系,每个实体 还通过键值对来描述实体的内在特性。 领域专家们可以根据知识图谱中的实体和关系等核心数据进行建模,并进行高层次的数据挖掘分析和加工。


统一数据接入、治理和服务模块,就能构造出「HAO 治理」模型,它规定了最一般的处理流程。 吴信东教授说: 「只有通过多维感知,利用数据治理技术,将高质量的数据连接起来,才能进行知识的智能抽取,基于知识图谱、暴力挖掘对知识进行多维度分析推理,构建决策模型,完成从数字化、网络化到智能化的跃迁。


公安的数据治理应该是什么样的


上面介绍了「HAO 治理」模型的主要概念,那么它应用到现实世界中又是怎么样的,它能进一步降低人工成本吗? 在论文的最后一部分,研究者以公安数据治理为例,介绍了整体流程与框架到底是什么样的。


先来看张图,如下图 13 描述的是公安数据治理框架,平台架构主要包括数据存储、数据计算、数据管理、数据应用四部分。 它将不同的数据按照应用分到了不同的主题或专题库,例如常住人口专题库或企业信息专题库等等。 与此同时,不同的数据也能最终组成知识图谱,相当于构建了一种庞大的背景知识。



看上去这张图非常复杂,但其实也就分为储存、计算、管理和应用四部分。


  • 数据存储:基于分布式的大数据存储平台;

  • 数据计算:这是数据治理的最主要部分,包括数据的探查、提取、清洗、转换、集成等;

  • 数据管理:对集成后的数据统一维护与管理;

  • 数据应用:这是数据价值最直接的体现,我们可以通过自然语言处理等技术,对数据进行深度分析。


从上图我们可以看到整个工作流大概从预处理到分析挖掘分为 7 个部分,其中不同的部分会调用不同的数据知识库,最后的分析挖掘则是我们希望获得的结果。


在整个流程中,我们除了对数据进行各种操作与处理外,还要创建新的知识表示方式。 例如将数据按照一定主题进行关联来构造一个模型,公安数据治理分别以人、物、时空、组织、虚拟标识、 案件等作为主题来建立模型。



除此之外,知识图谱按照目标数据可以分为实体、事件、关系三种类型,从而建立数据之间的关联关系。 如下在公安场景中,我们能以人为中心实体构建的一个简单的知识图谱。 其中我们需要建立人与电话号码所属关系、人与护照所属关系及人与人的关系等等。



以上就是公安数据治理的简要结构了,吴信东教授说: 「明略科技提出这样的数据治理框架,希望通过数据在线、分析洞察、闭环智能「三步走」战略,构建从感知到认知再到行动的反馈闭环,将人类、机器、组织的智能三位一体,为企业和组织提供具有分析决策能力的高阶人工智能应用。



文为机器之心原创,转载请联系本公众号获得授权
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com
登录查看更多
3

相关内容

数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。数据治理是一种数据管理概念,涉及使组织能够确保在数据的整个生命周期中存在高数据质量的能力。一个数据管家是确保数据治理流程遵循,指导执行,并建议改进数据治理流程的作用。
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【天津大学】知识图谱划分算法研究综述
专知会员服务
107+阅读 · 2020年4月27日
专知会员服务
123+阅读 · 2020年3月26日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【数据中台】什么是数据中台?
产业智能官
17+阅读 · 2019年7月30日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
如何做数据治理?
智能交通技术
18+阅读 · 2019年4月20日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
业务中台:如何在互联时代,快速响应用户需求?
互联网er的早读课
24+阅读 · 2018年12月26日
【机器学习】如何通过机器学习预测维护设备?
产业智能官
16+阅读 · 2018年7月9日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
我们为什么需要一个时序数据库?
大数据杂谈
3+阅读 · 2017年7月6日
Deep Co-Training for Semi-Supervised Image Segmentation
Arxiv
3+阅读 · 2019年3月1日
Arxiv
21+阅读 · 2018年5月23日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
4+阅读 · 2018年4月29日
Arxiv
6+阅读 · 2018年3月29日
VIP会员
相关资讯
【数据中台】什么是数据中台?
产业智能官
17+阅读 · 2019年7月30日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
如何做数据治理?
智能交通技术
18+阅读 · 2019年4月20日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
业务中台:如何在互联时代,快速响应用户需求?
互联网er的早读课
24+阅读 · 2018年12月26日
【机器学习】如何通过机器学习预测维护设备?
产业智能官
16+阅读 · 2018年7月9日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
我们为什么需要一个时序数据库?
大数据杂谈
3+阅读 · 2017年7月6日
相关论文
Top
微信扫码咨询专知VIP会员