项目名称: 基于众包的数据清洗关键技术研究

项目编号: No.61472198

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 自动化技术、计算机技术

项目作者: 冯建华

作者单位: 清华大学

项目金额: 86万元

中文摘要: 在信息化高速发展的今天,数据在各行各业发挥着越来越重要的地位,例如:数据分析常常可以帮助企业在市场上做出正确的商业决策。然而,如果数据不干净,那么基于脏数据所做的分析结果可能会导致完全错误的商业决策,给公司带来巨大的损失。根据益百利公司的最新调查结果表明,2011年英国的商业公司因为数据不干净的问题总共损失高达80亿英镑。为了清洗这些脏数据,基于机器算法的数据清洗技术已经得到了广泛关注,但是目前方法还不能达到满意的效果。最近几年,众包技术在工业界和学术界获得了广泛的关注,并被验证可以比精巧的机器算法获得更好的结果。受此启发,本课题研究基于众包的数据清洗技术,具体研究内容包括:(1)众包数据错误检测;(2)众包数据错误修复;(3)众包冗余数据去重;(4)众包数据清洗结果的质量控制。此外,我们还将把以上研究成果融为一体,开发一套比当前主流的数据清洗系统结果更好的众包数据清洗系统。

中文关键词: 众包;数据清洗;质量控制;数据修复;数据冗余

英文摘要: With the increasing development of information technology, data plays a more and more important role in our daily life. As an example, data analysis can help enterprises make a better decision in the market. However, if data is not clean, the analysis based on dirty data may lead to completely wrong decisions, which may cause enormous losses to enterprises. According to a recent study from Experian QAS Inc., poor customer data cost British businesses $8 billion loss of revenue in 2011. In order to clean the dirty data, machine-based data cleaning approaches have been widely studied for several decades, but still remain far from perfect. Recently, crowdsourcing has attracted significant attention in both the industrial and academic communities. It is widely validated that crowdsourcing can obtain better results than sophisticated machine-based approaches. This insight motivates us to explore crowdsourced data-cleaning approaches. In particular, in this proposal, we mainly study the following four problems: (1) Crowdsourced data error detection; (2) Crowdsourced dirty data repairing; (3) Crowdsourced duplicate data detection; (4) Quality control of crowdsourced data-cleaning results. In addition, we will develop a real crowdsourced data-cleaning system by combining all research achievements, which aims to outperform the state-of-the-art machine-based data-cleaning systems in terms of result accuracy.

英文关键词: Crowdsourcing;Data Cleaning;Quality Control;Data Repair;Data Redundancy

成为VIP会员查看完整内容
5

相关内容

【实用书】Python数据分析手册,437页pdf带你实战数据清洗
专知会员服务
14+阅读 · 2020年12月12日
企业风险知识图谱的构建及应用
专知会员服务
97+阅读 · 2020年11月6日
【CCL2020】基于深度学习的实体关系抽取研究综述
专知会员服务
52+阅读 · 2020年11月4日
专知会员服务
33+阅读 · 2020年9月25日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
基于小样本学习的图像分类技术综述
专知会员服务
148+阅读 · 2020年5月6日
最新《智能交通系统的深度强化学习》综述论文,22页pdf
专知会员服务
124+阅读 · 2020年3月26日
基于知识图谱的行业问答系统搭建分几步?
PaperWeekly
2+阅读 · 2021年11月11日
基于海量日志和时序数据的质量建设最佳实践
阿里技术
0+阅读 · 2021年10月14日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
肖仰华 | 基于知识图谱的用户理解
开放知识图谱
13+阅读 · 2017年9月29日
肖仰华 | 基于知识图谱的问答系统
开放知识图谱
28+阅读 · 2017年9月18日
论文动态 | 基于知识图谱的问答系统关键技术研究 #01
开放知识图谱
16+阅读 · 2017年8月3日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
17+阅读 · 2021年2月15日
小贴士
相关VIP内容
【实用书】Python数据分析手册,437页pdf带你实战数据清洗
专知会员服务
14+阅读 · 2020年12月12日
企业风险知识图谱的构建及应用
专知会员服务
97+阅读 · 2020年11月6日
【CCL2020】基于深度学习的实体关系抽取研究综述
专知会员服务
52+阅读 · 2020年11月4日
专知会员服务
33+阅读 · 2020年9月25日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
基于小样本学习的图像分类技术综述
专知会员服务
148+阅读 · 2020年5月6日
最新《智能交通系统的深度强化学习》综述论文,22页pdf
专知会员服务
124+阅读 · 2020年3月26日
相关资讯
基于知识图谱的行业问答系统搭建分几步?
PaperWeekly
2+阅读 · 2021年11月11日
基于海量日志和时序数据的质量建设最佳实践
阿里技术
0+阅读 · 2021年10月14日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
肖仰华 | 基于知识图谱的用户理解
开放知识图谱
13+阅读 · 2017年9月29日
肖仰华 | 基于知识图谱的问答系统
开放知识图谱
28+阅读 · 2017年9月18日
论文动态 | 基于知识图谱的问答系统关键技术研究 #01
开放知识图谱
16+阅读 · 2017年8月3日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
微信扫码咨询专知VIP会员