项目名称: 基于蚁群算法和云模型的领域无关数据清洗
项目编号: No.61371196
项目类型: 面上项目
立项/批准年度: 2013
项目学科: 无线电电子学、电信技术
项目作者: 刁兴春
作者单位: 中国人民解放军理工大学
项目金额: 80万元
中文摘要: 数据质量问题正在严重制约信息化建设进展,数据清洗是提高数据质量的重要技术手段。基于特征相似度(FBS)的方法和基于关系的数据清洗(RelDC)是当前主要的两种领域无关数据清洗方法。FBS具有效率优势,但存在相似度函数精度低、特征选择算法性能差、不宜处理复杂数据记录等问题;RelDC具有效果优势,但实现复杂度过高,且不能实现与FBS之间的适当切换。本项目通过定义不同属性类型的相似度函数并确定其参数,引入非线性分类器设计相似重复记录分类检测流程,建立特征选择数学模型并用蚁群算法求解模型,提出FBS新方法;通过建立RelDC的路径长度限制、权重修剪阈值、约束参数选择等优化数学模型,并设计适应模型特点的蚁群算法,提出高效的RelDC实现方法;通过用云模型描述相似重复、不相似重复、疑似相似重复等概念,实现记录相似度的边缘检测,建立FBS到RelDC的切换机制,进而构建FBS-RelDC数据清洗框架。
中文关键词: 数据质量;信息质量;数据清洗;实体分辨;蚁群算法
英文摘要: Data quality issues have been restricting our informationization construction seriously, while the data cleaning is a crucial technical means for data quality improvement. At present, Feature-Based Similarity (FBS) methods and Relationship-based Data Clea
英文关键词: data quality;information quality;data cleaning;entity resolution;ant colony algorithm