FCS 11(5) 文章 | 使用多分块函数的基于 MapReduce 的实体匹配

2017 年 12 月 7 日 FCS 计算机科学前沿

导读

实体匹配已经发展了数十年,旨在从目标数据集中识别出表征相同对象的记录。为了避免在规模庞大的数据集中分别验证每一对记录,基于分块的方法仅需选取一小部分记录对进行验证,成本远低于 O(n^2),其中n代表数据集的大小。此外,独立执行多个分块函数非常关键,因为这可以找到更多匹配的记录,从而显著提高结果质量。


MapReduce(MR)框架并行地运行诸多 map (/reduce) 任务,从而显著提高查询处理性能,提升可扩展性。然而,基于 MapReduce 框架的实体匹配还需要解决负载均衡和记录对去重这两个问题。现有工作尽管可以分别处理负载均衡和记录对去重,但无法同时解决两个问题。


本文提出了一个名为 MrEm 的解决方法,它使用多分块函数来解决上述问题。理论分析和在真实数据集上的实验结果验证了该方法的高效性。






文章精要





如需阅读本期推荐文章的全文,请点左下角的「阅读原文」链接。


精彩推荐


FCS 优青论坛 | MSVL:一种类型化时序逻辑程序设计语言

Xiaobing WANG, Cong TIAN, Zhenhua DUAN, Liang ZHAO

FCS 优青论坛 | 神经网络加速器研究综述

Zhen LI, Yuqing WANG, Tian ZHI, Tianshi CHEN

专题 | Smart Cities and Urban Computing

专题 | Deep Learning Applications in Computer Vision

专题 | Advances of Orange Technologies

Perspectives | Lifelong machine learning: a paradigm for continuous learning

Bing LIU

Perspectives | Urban computing: enabling urban intelligence with big data

Yu ZHENG

Perspectives | Computer Graphics 2.0: towards end-user-generated contents

Kun ZHOU




Frontiers of Computer Science



Frontiers of Computer Science 是由教育部主管、高等教育出版社和德国 Springer 公司共同出版的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为李未院士,执行主编为熊璋教授和周志华教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。




长按二维码关注Frontiers of Computer Science公众号


登录查看更多
1

相关内容

17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
171+阅读 · 2020年2月13日
【华侨大学】基于混合深度学习算法的疾病预测模型
专知会员服务
96+阅读 · 2020年1月21日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
基于统计关系学习的自动数据清洗
FCS
7+阅读 · 2019年3月1日
基于差分隐私的地理社交网络发布
FCS
9+阅读 · 2019年2月22日
卷积自适应降噪自动编码器
FCS
8+阅读 · 2019年1月3日
FCS 12(1) 文章 | 知识图谱综述
FCS
8+阅读 · 2018年3月12日
Arxiv
92+阅读 · 2020年2月28日
VIP会员
Top
微信扫码咨询专知VIP会员