点击上方蓝字
关注我们
导
读
实体对齐旨在识别现实世界中不同数据源间的相同实体。跨异构数据源识别相同的实体在众多研究领域都至关重要,比如数据清理、数据集成、信息检索和机器学习研究领域。对大型数据集来说,实体对齐过程往往涉及两个甚至多个数据源的所有元组,不仅计算开销十分昂贵,而且需要能够处理异构实体属性。本文中,我们提出了一种非监督的方法:EnAli,用于匹配两个或多个异构数据源中的相同实体。EnAli基于概率生成模型,利用指数族整合异构实体属性,处理缺失值,并利用局部敏感哈希结构降低候选集数量以加速对齐过程。即使没有任何已知的标注数据,EnAli依然能保持较高的精度和效率。我们在相同数据集,不同副本的“自匹配”实验中测试了EnAli的实体识别性能,并在三个真实的数据源上测试了实体对齐的性能和效率,实验结果表明,我们提出的方法优于对比方法。
文章精要
相关内容推荐:
面向多目标事务数据发布的多维泛化 2018 12(6):1241-1254
利用局部计算的整体性子图匹配 2018 12(5):966-983
FCS 12(1) 文章 | 处理大规模索引中的查询偏斜:一种基于视图的方法
FCS 12(1) 文章 | 伪相关反馈的强度Pareto适应度分配:在MEDLINE中的应用
Frontiers of Computer Science
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。
长按二维码关注Frontiers of Computer Science公众号