项目名称: 大数据错误检测与修复关键技术的研究

项目编号: No.61472099

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 自动化技术、计算机技术

项目作者: 王宏志

作者单位: 哈尔滨工业大学

项目金额: 82万元

中文摘要: 大数据在当前的应用中广泛存在,成为数据管理研究的热点之一。由于其规模性、高速性、多样性的特点,大数据中有更大可能出现错误,即存在不一致、过时、不完整、不精确的数据或描述同一实体的数据出现冲突(简称为实体不同一)。能否有效检测和修复错误是以数据为中心的系统成败的重要因素。然而,由于可扩展性不足、缺少对多类别错误的支持、缺乏知识等原因,当前错误检测和修复技术难以应用于大数据。故本项目基于课题组的研究基础,研究大数据上检测并修复错误的关键技术。本项目拟面向大数据提出计算有效的数据质量模型,针对不一致、过时、不完整、不精确和实体不同一这五类数据错误分别提出适用于大数据的错误检测与修复算法,提出大数据上多种类型混合错误的检测与修复方法,并开发一套大数据错误检测与修复系统,验证研究结果的正确性和有效性。

中文关键词: 数据库;大数据;数据质量;数据管理;数据清洗

英文摘要: Many applications contain big data. Big data management becomes one of the hot topics in data management field. Big data contain errors in higher possibility due to the features of volume, velocity and variety. Here, error means inconsistent, outdated, incomplete, inaccurate data or conflicts in the data referring to the same entity (conflicts for brief). Detecting and repairing errors effectively are essential for data-centric systems. However, existing error detection and repair technologies could not be applied to big data due to low scalability, not supporting mixed multiple error types and lack of knowledge. Therefore, this project attempts to study key technologies of error detection and repair for big data on the basis of our existing work. This project will design computation-efficient data quality model for big data, present algorithms to detect and repair inconsistency, outdating, incompleteness, inaccuracy and conflicts in big data respectively, propose detection and repair methods for mixed errors in multiple types in big data, and develop an error detection and repair system for big data to verify the correctness and effectiveness of proposed theories and techniques.

英文关键词: database;big data;data quality;data management;data cleaning

成为VIP会员查看完整内容
2

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
军事知识图谱构建技术
专知会员服务
122+阅读 · 2022年4月8日
空间数据智能:概念、技术与挑战
专知会员服务
85+阅读 · 2022年2月3日
基于深度神经网络的图像缺损修复方法综述
专知会员服务
25+阅读 · 2021年12月18日
专知会员服务
12+阅读 · 2021年9月21日
专知会员服务
47+阅读 · 2021年9月9日
专知会员服务
124+阅读 · 2021年6月12日
基于区块链的数据透明化:问题与挑战
专知会员服务
20+阅读 · 2021年3月4日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
应用知识图谱的推荐方法与系统
专知会员服务
114+阅读 · 2020年11月23日
对抗样本生成技术综述
专知会员服务
63+阅读 · 2020年7月21日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
已删除
将门创投
12+阅读 · 2018年6月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
Arxiv
1+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月14日
小贴士
相关VIP内容
军事知识图谱构建技术
专知会员服务
122+阅读 · 2022年4月8日
空间数据智能:概念、技术与挑战
专知会员服务
85+阅读 · 2022年2月3日
基于深度神经网络的图像缺损修复方法综述
专知会员服务
25+阅读 · 2021年12月18日
专知会员服务
12+阅读 · 2021年9月21日
专知会员服务
47+阅读 · 2021年9月9日
专知会员服务
124+阅读 · 2021年6月12日
基于区块链的数据透明化:问题与挑战
专知会员服务
20+阅读 · 2021年3月4日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
应用知识图谱的推荐方法与系统
专知会员服务
114+阅读 · 2020年11月23日
对抗样本生成技术综述
专知会员服务
63+阅读 · 2020年7月21日
相关资讯
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
已删除
将门创投
12+阅读 · 2018年6月25日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员