点击上方蓝字
关注我们
导读
实体解析是数据集成和数据清洗研究领域的核心技术。尽管已有很多实体解析方法,但是在不同的数据集合上它们的解析效果差异很大。在没有标签数据集合的情况下,对于一个给定的实体解析任务,一方面,从众多方法中,选择一个合适的解析方法是很有挑战的,另一方面同时用多个技术处理会得到不一致的结果。本文研究了如何消除由现存的解析方法产生的匹配记录对的不一致。我们首先提出了一个通用的无标签的消歧框架,记为GL-RF。该框架不需要任何人工标记的记录对,而是从一致的记录对的状态去推断不一致记录对的状态。接着,我们形式化定义了消歧问题,并提出了一个增量的K近邻影响力算法。最后在真实的数据集合上GL-RF明显优于现有的方法。
文章精要
请长按下方二维码识别,阅读该文。
相关内容推荐:
利用局部计算的整体性子图匹配 2018 12(5):966-983
FCS 12(1) 文章 | 处理大规模索引中的查询偏斜:一种基于视图的方法
FCS 12(1) 文章 | 伪相关反馈的强度Pareto适应度分配:在MEDLINE中的应用
FCS 11(6) 文章 | 从大众分类法语料库挖掘用户偏好的概率框架
FCS 11(6) 文章 | 基于简历网络的个人信息摘要生成
Frontiers of Computer Science
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社出版、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。
长按二维码关注Frontiers of Computer Science公众号