项目名称: 基于蚁群算法和云模型的领域无关数据清洗

项目编号: No.61371196

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 无线电电子学、电信技术

项目作者: 刁兴春

作者单位: 中国人民解放军理工大学

项目金额: 80万元

中文摘要: 数据质量问题正在严重制约信息化建设进展,数据清洗是提高数据质量的重要技术手段。基于特征相似度(FBS)的方法和基于关系的数据清洗(RelDC)是当前主要的两种领域无关数据清洗方法。FBS具有效率优势,但存在相似度函数精度低、特征选择算法性能差、不宜处理复杂数据记录等问题;RelDC具有效果优势,但实现复杂度过高,且不能实现与FBS之间的适当切换。本项目通过定义不同属性类型的相似度函数并确定其参数,引入非线性分类器设计相似重复记录分类检测流程,建立特征选择数学模型并用蚁群算法求解模型,提出FBS新方法;通过建立RelDC的路径长度限制、权重修剪阈值、约束参数选择等优化数学模型,并设计适应模型特点的蚁群算法,提出高效的RelDC实现方法;通过用云模型描述相似重复、不相似重复、疑似相似重复等概念,实现记录相似度的边缘检测,建立FBS到RelDC的切换机制,进而构建FBS-RelDC数据清洗框架。

中文关键词: 数据质量;信息质量;数据清洗;实体分辨;蚁群算法

英文摘要: Data quality issues have been restricting our informationization construction seriously, while the data cleaning is a crucial technical means for data quality improvement. At present, Feature-Based Similarity (FBS) methods and Relationship-based Data Clea

英文关键词: data quality;information quality;data cleaning;entity resolution;ant colony algorithm

成为VIP会员查看完整内容
1

相关内容

数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
专知会员服务
87+阅读 · 2021年9月4日
专知会员服务
56+阅读 · 2021年8月12日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
中科大《计算机体系结构》2021课程,附课件
专知会员服务
76+阅读 · 2021年4月4日
专知会员服务
70+阅读 · 2021年3月23日
专知会员服务
30+阅读 · 2021年2月7日
【AAAI2021】利用先验知识对场景图进行分类
专知会员服务
60+阅读 · 2020年12月3日
专知会员服务
47+阅读 · 2020年10月20日
专知会员服务
31+阅读 · 2020年9月2日
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
R语言数据挖掘利器:Rattle包
R语言中文社区
21+阅读 · 2018年11月17日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
14+阅读 · 2018年5月15日
Arxiv
15+阅读 · 2018年2月4日
小贴士
相关VIP内容
专知会员服务
87+阅读 · 2021年9月4日
专知会员服务
56+阅读 · 2021年8月12日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
中科大《计算机体系结构》2021课程,附课件
专知会员服务
76+阅读 · 2021年4月4日
专知会员服务
70+阅读 · 2021年3月23日
专知会员服务
30+阅读 · 2021年2月7日
【AAAI2021】利用先验知识对场景图进行分类
专知会员服务
60+阅读 · 2020年12月3日
专知会员服务
47+阅读 · 2020年10月20日
专知会员服务
31+阅读 · 2020年9月2日
相关资讯
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
R语言数据挖掘利器:Rattle包
R语言中文社区
21+阅读 · 2018年11月17日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员