项目名称: 面向大数据的实体解析方法及关键技术研究

项目编号: No.61402100

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 燕彩蓉

作者单位: 东华大学

项目金额: 24万元

中文摘要: 实体解析是数据质量管理的基本操作,也是数据价值发现的关键步骤。传统的实体解析方法研究只专注于数据的批量处理方式,其评价标准主要局限于相似度匹配算法的精度。通过分析大数据对实体解析提出的新要求,我们发现MapReduce并行计算环境下多路分块方法能够较好地应对此挑战,并抽象出几个尚待深入研究的重要问题,具体包括:1)在无状态编程环境中为增量式处理提供支持;2)消除多路分块方法带来的候选相似对冗余计算;3)基于相似度传递关系优化候选相似对并检测匹配冲突;4)通过动态划分策略减少数据倾斜对系统负载均衡的影响。本项目旨在对这一系列问题进行研究,探索增量式的基于标签的多路分块实体解析方法,以及批量和增量处理工作流融合的并行计算模型,为准确且高效的在线记录连接和重复对象检测提供理论和实践上的指导,为MapReduce模型支持流式数据在线处理提供新的思路。

中文关键词: 实体解析;大数据;并行计算;增量处理;

英文摘要: Entity resolution is the basic operation of data quality management, and the key step to find the value of data. The traditional research of entity resolution methods is focused on batch data processing and mainly aims at improving the accuracy of similar

英文关键词: entity resolution;big data;parallel computing;incremental processing;

成为VIP会员查看完整内容
0

相关内容

不同的数据提供方对同一个事物即实体 (Entity)可能会有不同的描述 (这 里的描述包括数据格式 、表示方法 等) ,每一个对实体的描述称为该实体的一个引用。实体解析,是指从一个“ 引用集合”中解析并映射到现实世界中的“ 实体”过程 。实体解析(Entity Resolution)又被称为记录链接(Record Linkage) 、对象识别(object Identification ) 、个体识别(Individual Identification) 、重复检测(Duplicate Detection)
军事知识图谱构建技术
专知会员服务
125+阅读 · 2022年4月8日
面向语义搜索的自然语言处理
专知会员服务
59+阅读 · 2021年12月18日
【2021新书】面向对象的Python编程,418页pdf
专知会员服务
70+阅读 · 2021年12月15日
【博士论文】大数据相似查询关键技术研究
专知会员服务
23+阅读 · 2021年12月2日
面向大数据处理框架的JVM优化技术综述
专知会员服务
16+阅读 · 2021年11月27日
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
18+阅读 · 2021年5月16日
专知会员服务
64+阅读 · 2021年5月3日
专知会员服务
45+阅读 · 2020年8月20日
专知会员服务
124+阅读 · 2020年3月26日
开源数据支撑下的人物与装备分析
PaperWeekly
4+阅读 · 2022年3月20日
已删除
将门创投
11+阅读 · 2019年4月26日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
小贴士
相关VIP内容
军事知识图谱构建技术
专知会员服务
125+阅读 · 2022年4月8日
面向语义搜索的自然语言处理
专知会员服务
59+阅读 · 2021年12月18日
【2021新书】面向对象的Python编程,418页pdf
专知会员服务
70+阅读 · 2021年12月15日
【博士论文】大数据相似查询关键技术研究
专知会员服务
23+阅读 · 2021年12月2日
面向大数据处理框架的JVM优化技术综述
专知会员服务
16+阅读 · 2021年11月27日
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
18+阅读 · 2021年5月16日
专知会员服务
64+阅读 · 2021年5月3日
专知会员服务
45+阅读 · 2020年8月20日
专知会员服务
124+阅读 · 2020年3月26日
相关资讯
开源数据支撑下的人物与装备分析
PaperWeekly
4+阅读 · 2022年3月20日
已删除
将门创投
11+阅读 · 2019年4月26日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员