从数据采集、数据治理,再到知识挖掘与推理,一个家谱数据中台到底是怎样炼成的?
说起「数据中台」,很多人都不会感到陌生。但究竟如何定义「数据中台」?也许就会难倒一大批人了。
「数据中台」是近年来比较火热的一个技术概念,最早源于国内的科技公司。简单来说,就是利用数据技术对海量数据进行采集、存储、计算、加工、统一表示,形成标准后的数据 API,进而提高数据的共享能力。
目前数据中台的建设尚处于起步阶段, 还没有统一的数据中台建设标准、规范以及评价指标,且没有统一规范的定义,其英文译法也多种多样:Middleware、Middle Platform、Middle Office 或 Platform ,甚至包括中文拼音「Zhongtai」,但这些名字都不能很好地体现其数据共享和数据价值最大化的实质。
近日,来自合肥工业大学、明略科技、北京大学等机构的研究者在《自动化学报》上介绍了关于构建家谱知识图谱的数据中台实践。经过广泛研究,研究者在这篇论文中给出了关于「数据中台(Central-Platform)」的正式定义:
数据中台将一个机构 (企业、事业、或政府部门) 的数据作为战略资产进行管理,是从数据收集到处理应用的一套管理机制, 以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化。数据中台建设覆盖数据的逻辑管理和物理管理, 逻辑管理包括数据结构的设计和数据之间相关性的分析, 如数据仓库; 物理管理包括数据的存储和检索。
此外,以华谱系统为例,这篇文章整体介绍了关于「数据中台」的定义、功能模块、关键技术、挑战问题以及相应的解决方案。研究者利用知识图谱构建和推理技术,从海量家谱数据采集、汇聚开始,在数据治理、数据开发、数据资产管理等模块建设过程中辅以 「HI」 (人类智能)、 「AI」 (人工智能) 和 「OI」 (组织智能) 三者的交互和协同,创建了一个标准、可复用的家谱数据中台架构。
下图展示了华谱数据中台的架构 Huapu-CP,我们以该架构为例,来分析一下
家谱数据中台系统核心模块的主要技术以及要解决的问题。
具体而言,Huapu-CP 数据中台架构特点可分为三个层面:
1) 基于
数据的逻辑管理和物理管理
,建设了家谱领域数据管理体系,提高数据服务效率,加速数据价值变现过程,打破了信息之间的屏障。
2) 基于
HAO (Human intelligence,artificial intelligence and organizational intelligence) 智能体系
,采用数据规范、数据清洗等数据治理技术形成了包括家谱人物数据、人物关联数据、社交数据、日志数据等的数据体系,更好地赋能于华谱系统前台业务。
3) 融合
知识图谱
技术,以家谱知识图谱作为数据中台架构的数据底座,从业务的角度组织数据。完成传统数据模式无法支持的节点关联分析、社区发现、用户推荐等复杂计算和挖掘任务。
首先,从
数据的物理管理层面
看,Huapu-CP 选择了图数据库集群的方式,将数据分布存储到多个机器上,并进行实时同步,以保障数据的安全性、一致性及性能的可扩展性。如图 2 所示:
针对图数据规模较大、图数据分析与挖掘耗时较长的问题,通过对大数据计算算法和框架的对比研究,华谱系统采用 Spark 分布式计算框架,在上层应用 (如子图模式查询、同名人物识别) 中,利用图划分算法将原始的图数据拆分为多个子图,基于分布式计算并行处理,以节省整体计算时间、 提高计算效率。
Huapu-CP 的数据采集方式包含 4 种,其数据采集架构如下图所示:
在数据的逻辑管理阶段,华谱系统将知识图谱技术、专家智能、组织智能等技术融入数据表示、数据治理等子模块中,协调逻辑管理整个流程。
Huapu-CP 利用 HAO 数据治理构架进行数据规范、数据清洗、数据交换和数据集成等数据治理工作。
除此之外,家谱数据和家谱服务需要一系列资产管理和用户关系管理算法支撑,Huapu-CP 已形成较为完善的算法开发体系。在数据安全和隐私保护上,Huapu-CP 架构也从用户权限管理和应用权限管理两个层面进行了设置。
针对
用户权限管理
,Huapu-CP 架构中提出了基于图数据库的 「粗细粒度结合」的权限管理方法,并提出了基于 HAO 模型的权限管理闭环架构。
「粗细粒度结合」的权限管理方法。粗粒度表示该用户所拥有的角色,细粒度指针对数据层面的权限管理。
如上图所示,基于 HAO 模型的用户权限管理闭环架构的主要流程为: 由领域专家 (HI) 和组织智能 (OI) 设计用户的权限体系, 由人类专家 (HI) 审核后在权限控制中心提供接口, 最后基于日志的智能分析 (AI) 提供权限调整方面的反馈, 并再由 HI 或 OI 审核、优化 。其中, 为了实现闭环权限控制,系统应实时地采集、存储用户行为数据和用户操作数据,并设计智能的日志分析算法。
针对
应用权限管理
,研究者通过设置应用读取数据的权限,避免恶意修改读取数据程序而导致的数据泄露问题; 同时,加入 HAO 模型实现应用权限管理的闭环,便于应用的改进和升级。
在 Huapu-CP 架构中,开发新应用的权限管理流程如下: 首先,由于每个应用只需部分数据的读取权限,为了系统中数据资产的安全性与隐私性, 应限制数据访问权限为该应用所需的最小集合。因此,「HI」与 「OI」可基于该应用的实际需求设计该应用所具备的最大权限集合。其次,由于应用的需求可能存在变化, 该应用交付使用后可针对用户行为数据分析或用户反馈数据分析 (AI) 得出该应用改进方向和内容, 反馈至专家 (HI) 和组织 (OI) 重新设计应用权限, 形成权限管理的闭环。
Huapu-CP(https://www.zhonghuapu.com/)对数据中台建设进行了一个成功的尝试,目前已有千万级数据节点,能提供秒级数据服务。但数据中台技术尚处于起步阶段,还面临着技术不成熟、框架验证标准不一、技术人员缺乏等困难和挑战。新一代的数据中台技术,在融合数据的基础上,更需要关心是否能够很好地沉淀行业知识。研究者表示,知识图谱技术相对于传统的二维表使用图描述实体与关系,其复杂的图结构更有利于探索数据之间的关联关系和获取知识。
本文为机器之心报道,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com