项目名称: 基于互联网海量信息的数据库文本类型数据清洗研究

项目编号: No.61402313

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 李直旭

作者单位: 苏州大学

项目金额: 24万元

中文摘要: 在当今的知识经济时代,如何实现大量“脏”数据的自动清洗被公认为是数据工程领域最重要且最艰巨的课题之一。以往提出的数据清洗方法往往由于缺乏足够的信息支撑而对很多脏数据束手无策。本项目提出借助互联网中的海量信息对数据库中的文本类型脏数据进行自动清洗。项目的重点研究将包括:(1)研究借助互联网海量信息自动发现与修正数据库中的错误文本数据的技术;(2)研究从互联网中自动获取数据库中的缺失文本数据的技术;(3)基于互联网对数据库中混杂不清的文本数据进行自动统一和正确关联的技术;以及(4)服务于基于互联网的数据清洗研究的信息抽取技术。本项目的研究成果将大大缓解甚至消除很多实际数据库中文本类型脏数据的错误,缺失和混杂不清问题。本项目的研究为数据清洗领域做出新的积极探索,将为基于互联网的数据质量研究奠定理论基础并提供关键技术支持。

中文关键词: 数据质量;互联网;数据清洗;数据融合;

英文摘要: In this knowledge economy era, the automatic cleaning of “dirty” data was recognized as one of the most significant and tough research problems among the data engineering community. Although plenty of effort has been paid to this area, most of them cannot

英文关键词: data quality;world wide web;data cleaning;data integration;

成为VIP会员查看完整内容
0

相关内容

数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
UIUC韩家炜:从海量非结构化文本中挖掘结构化知识
专知会员服务
93+阅读 · 2021年12月30日
面向语义搜索的自然语言处理
专知会员服务
58+阅读 · 2021年12月18日
【实用书】Python数据分析手册,437页pdf带你实战数据清洗
专知会员服务
34+阅读 · 2021年8月19日
专知会员服务
122+阅读 · 2021年6月12日
专知会员服务
107+阅读 · 2021年1月8日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
42+阅读 · 2020年12月9日
专知会员服务
189+阅读 · 2020年10月14日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
电子病历文本挖掘研究综述
专知
3+阅读 · 2021年3月27日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
25+阅读 · 2020年3月1日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
37+阅读 · 2019年8月18日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
24+阅读 · 2021年1月25日
小贴士
相关VIP内容
UIUC韩家炜:从海量非结构化文本中挖掘结构化知识
专知会员服务
93+阅读 · 2021年12月30日
面向语义搜索的自然语言处理
专知会员服务
58+阅读 · 2021年12月18日
【实用书】Python数据分析手册,437页pdf带你实战数据清洗
专知会员服务
34+阅读 · 2021年8月19日
专知会员服务
122+阅读 · 2021年6月12日
专知会员服务
107+阅读 · 2021年1月8日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
42+阅读 · 2020年12月9日
专知会员服务
189+阅读 · 2020年10月14日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
相关资讯
电子病历文本挖掘研究综述
专知
3+阅读 · 2021年3月27日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
25+阅读 · 2020年3月1日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
37+阅读 · 2019年8月18日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员