项目名称: 面向大数据的实体解析方法及关键技术研究
项目编号: No.61402100
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 自动化技术、计算机技术
项目作者: 燕彩蓉
作者单位: 东华大学
项目金额: 24万元
中文摘要: 实体解析是数据质量管理的基本操作,也是数据价值发现的关键步骤。传统的实体解析方法研究只专注于数据的批量处理方式,其评价标准主要局限于相似度匹配算法的精度。通过分析大数据对实体解析提出的新要求,我们发现MapReduce并行计算环境下多路分块方法能够较好地应对此挑战,并抽象出几个尚待深入研究的重要问题,具体包括:1)在无状态编程环境中为增量式处理提供支持;2)消除多路分块方法带来的候选相似对冗余计算;3)基于相似度传递关系优化候选相似对并检测匹配冲突;4)通过动态划分策略减少数据倾斜对系统负载均衡的影响。本项目旨在对这一系列问题进行研究,探索增量式的基于标签的多路分块实体解析方法,以及批量和增量处理工作流融合的并行计算模型,为准确且高效的在线记录连接和重复对象检测提供理论和实践上的指导,为MapReduce模型支持流式数据在线处理提供新的思路。
中文关键词: 实体解析;大数据;并行计算;增量处理;
英文摘要: Entity resolution is the basic operation of data quality management, and the key step to find the value of data. The traditional research of entity resolution methods is focused on batch data processing and mainly aims at improving the accuracy of similar
英文关键词: entity resolution;big data;parallel computing;incremental processing;