项目名称: 数据质量管理中的完整性约束关键技术研究
项目编号: No.61370101
项目类型: 面上项目
立项/批准年度: 2013
项目学科: 自动化技术、计算机技术
项目作者: 金澈清
作者单位: 华东师范大学
项目金额: 73万元
中文摘要: 完整性约束管理是大数据质量管理的关键内容之一,在医疗卫生、企业信息管理等领域中意义重大。面向大数据的完整性约束管理模式已从"数据更新前检验约束条件"模式发展到"数据更新与约束检验相对独立"阶段,其难点在于如何在海量、分布、增量的数据库上高效管理近似唯一性约束、(条件)函数依赖等全局型(holistic)完整性约束,且支持自动检测与修复。本项目拟从四个方面进行探索,包括:1)设计面向集群的并行算法以提高系统的吞吐率;2)设计面向分布式网络环境的概要数据结构以降低网络传输开销;3)设计增量更新方法以避免每次监控时均要扫描全部数据集合;4)设计自动修复算法(或半自动修复算法)以避免过多采用人工干预。同时,采用理论分析、完整的实验测试来检验新方法与现有方法的差异性。相关研究成果预计将为大数据质量管理提供新的解决思路、显著提升数据的可用性,因而具有重要的理论与实践意义。
中文关键词: 数据质量;条件函数依赖;函数依赖;完整性约束;数据修复
英文摘要: As a critical component of big data quality management, integrity constraint has been widely used in many applications, such as health information management, enterprise information management, and so on. Nowadays, big data oriented integrity constraint m
英文关键词: data quality;conditional functional dependency;functional dependency;integrity constraint;data repair