项目名称: 基于互联网海量信息的数据库文本类型数据清洗研究
项目编号: No.61402313
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 自动化技术、计算机技术
项目作者: 李直旭
作者单位: 苏州大学
项目金额: 24万元
中文摘要: 在当今的知识经济时代,如何实现大量“脏”数据的自动清洗被公认为是数据工程领域最重要且最艰巨的课题之一。以往提出的数据清洗方法往往由于缺乏足够的信息支撑而对很多脏数据束手无策。本项目提出借助互联网中的海量信息对数据库中的文本类型脏数据进行自动清洗。项目的重点研究将包括:(1)研究借助互联网海量信息自动发现与修正数据库中的错误文本数据的技术;(2)研究从互联网中自动获取数据库中的缺失文本数据的技术;(3)基于互联网对数据库中混杂不清的文本数据进行自动统一和正确关联的技术;以及(4)服务于基于互联网的数据清洗研究的信息抽取技术。本项目的研究成果将大大缓解甚至消除很多实际数据库中文本类型脏数据的错误,缺失和混杂不清问题。本项目的研究为数据清洗领域做出新的积极探索,将为基于互联网的数据质量研究奠定理论基础并提供关键技术支持。
中文关键词: 数据质量;互联网;数据清洗;数据融合;
英文摘要: In this knowledge economy era, the automatic cleaning of “dirty” data was recognized as one of the most significant and tough research problems among the data engineering community. Although plenty of effort has been paid to this area, most of them cannot
英文关键词: data quality;world wide web;data cleaning;data integration;