项目名称: 面向用户的数据质量管理方法研究

项目编号: No.61472263

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 自动化技术、计算机技术

项目作者: 周晓方

作者单位: 苏州大学

项目金额: 83万元

中文摘要: 在大数据时代,高质量的数据已经成为个政府、企业、研究机构和社会的重要资源与财富。但是随着数据规模的持续高速增长,人们在获取更加丰富、多样的数据同时,也必须面对数据质量管理方面的一系列全新挑战,因此亟需研究能够适应海量、动态、多源、异构数据并贯穿整个数据生命周期的数据质量管理,特别是以用户需求为中心的差异化数据质量保证机制。本项目拟研究一种面向用户自定义需求的通用化数据质量管理机制,重点研究具有通用性和可伸缩性的数据数质量管理机制与方法,使其能够柔性适配不同领域、不同要求的数据质量标准,支持用户对个性化数据质量要求的灵活、非过程化描述;对大规模动态复杂数据,拟采用数据挖掘技术从底层数据出发生成各种与数据质量相关的数据特征表述和度量,并从高层数据质量定义对数据进行约束检验和数据清洗,最终提供诸如关系数据库中的约束条件保证的数据质量保证。

中文关键词: 数据质量管理;数据库;数据质量评估;数据溯源;大数据

英文摘要: High quality data has become valuable resources and assets in the big data age, for government, research organization and society. With the proliferation of large scale data in every walk of life, people can access and use diversed data service nowadays, but on the other hand, the issue of data quality is now exposed at a much wider and critical level. It is thus important to investigate the data quality management for massive dynamic heterogenous data in the whole data cycle, particularly adapt to the specific data quality requirements from users. This project aims to investigate the generalized data management mechanism in big data age, and the goal is to find data management solutions with superb capability in terms of generalization and scalability. In this way, different data quality standerds and requirements from different application domain can be adapted in an automatic and smooth way. Particularly, we will design a declarative data quality specification language to support flexible and non-procedural quality description. For the scalable complex data, data mining techniques are further used to summarize the quality related key features and measurements of data. From the database level, we conduct data quality evaluation and enhancement based on the specification language, and finally achieve data quality ensurement like integrity constraint support function in relational database system.

英文关键词: Data Quality Management;Database;Data Quality Evaluation;Data Provanance;Big Data

成为VIP会员查看完整内容
4

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
《信息安全技术 云计算服务安全指南》国家标准意见稿
专知会员服务
29+阅读 · 2022年4月14日
面向数据可视化的自然语言接口: 综述论文
专知会员服务
18+阅读 · 2021年9月12日
专知会员服务
62+阅读 · 2021年7月18日
专知会员服务
107+阅读 · 2021年1月8日
专知会员服务
46+阅读 · 2020年11月20日
深度学习模型终端环境自适应方法研究
专知会员服务
31+阅读 · 2020年11月13日
专知会员服务
189+阅读 · 2020年10月14日
专知会员服务
44+阅读 · 2020年8月20日
数据中心产业图谱研究报告,41页pdf
专知
2+阅读 · 2022年1月31日
从用户角度,体验产品的三个要点
人人都是产品经理
1+阅读 · 2022年1月9日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
101+阅读 · 2019年1月9日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
18+阅读 · 2018年11月27日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
23+阅读 · 2021年3月4日
Arxiv
21+阅读 · 2020年10月11日
Knowledge Representation Learning: A Quantitative Review
Arxiv
11+阅读 · 2018年9月28日
小贴士
相关VIP内容
《信息安全技术 云计算服务安全指南》国家标准意见稿
专知会员服务
29+阅读 · 2022年4月14日
面向数据可视化的自然语言接口: 综述论文
专知会员服务
18+阅读 · 2021年9月12日
专知会员服务
62+阅读 · 2021年7月18日
专知会员服务
107+阅读 · 2021年1月8日
专知会员服务
46+阅读 · 2020年11月20日
深度学习模型终端环境自适应方法研究
专知会员服务
31+阅读 · 2020年11月13日
专知会员服务
189+阅读 · 2020年10月14日
专知会员服务
44+阅读 · 2020年8月20日
相关基金
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员