导读
实体匹配已经发展了数十年,旨在从目标数据集中识别出表征相同对象的记录。为了避免在规模庞大的数据集中分别验证每一对记录,基于分块的方法仅需选取一小部分记录对进行验证,成本远低于 O(n^2),其中n代表数据集的大小。此外,独立执行多个分块函数非常关键,因为这可以找到更多匹配的记录,从而显著提高结果质量。
MapReduce(MR)框架并行地运行诸多 map (/reduce) 任务,从而显著提高查询处理性能,提升可扩展性。然而,基于 MapReduce 框架的实体匹配还需要解决负载均衡和记录对去重这两个问题。现有工作尽管可以分别处理负载均衡和记录对去重,但无法同时解决两个问题。
本文提出了一个名为 MrEm 的解决方法,它使用多分块函数来解决上述问题。理论分析和在真实数据集上的实验结果验证了该方法的高效性。
文章精要
如需阅读本期推荐文章的全文,请点左下角的「阅读原文」链接。
Frontiers of Computer Science
Frontiers of Computer Science 是由教育部主管、高等教育出版社和德国 Springer 公司共同出版的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为李未院士,执行主编为熊璋教授和周志华教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。
长按二维码关注Frontiers of Computer Science公众号