针对无标签实体解析的不一致消歧框架

2018 年 10 月 29 日 FCS

点击上方蓝字

关注我们

导读


      实体解析是数据集成和数据清洗研究领域的核心技术。尽管已有很多实体解析方法,但是在不同的数据集合上它们的解析效果差异很大。在没有标签数据集合的情况下,对于一个给定的实体解析任务,一方面,从众多方法中,选择一个合适的解析方法是很有挑战的,另一方面同时用多个技术处理会得到不一致的结果。本文研究了如何消除由现存的解析方法产生的匹配记录对的不一致。我们首先提出了一个通用的无标签的消歧框架,记为GL-RF。该框架不需要任何人工标记的记录对,而是从一致的记录对的状态去推断不一致记录对的状态。接着,我们形式化定义了消歧问题,并提出了一个增量的K近邻影响力算法。最后在真实的数据集合上GL-RF明显优于现有的方法。

文章精要

   请长按下方二维码识别,阅读该文。

   更多详细证明信息,请参考网页上的supplementary material部分。

相关内容推荐:

利用局部计算的整体性子图匹配 2018 12(5)966-983

FCS 12(1) 文章 | 处理大规模索引中的查询偏斜:一种基于视图的方法

FCS 12(1) 文章 | 伪相关反馈的强度Pareto适应度分配:在MEDLINE中的应用

FCS 11(6) 文章 | 从大众分类法语料库挖掘用户偏好的概率框架

FCS 11(6) 文章 | 基于简历网络的个人信息摘要生成




Frontiers of Computer Science



Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社出版、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。




长按二维码关注Frontiers of Computer Science公众号

登录查看更多
1

相关内容

不同的数据提供方对同一个事物即实体 (Entity)可能会有不同的描述 (这 里的描述包括数据格式 、表示方法 等) ,每一个对实体的描述称为该实体的一个引用。实体解析,是指从一个“ 引用集合”中解析并映射到现实世界中的“ 实体”过程 。实体解析(Entity Resolution)又被称为记录链接(Record Linkage) 、对象识别(object Identification ) 、个体识别(Individual Identification) 、重复检测(Duplicate Detection)
基于深度学习的表面缺陷检测方法综述
专知会员服务
93+阅读 · 2020年5月31日
【人大】图实现算法综述与评测分析
专知会员服务
37+阅读 · 2020年4月28日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
35+阅读 · 2020年4月1日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
基于统计关系学习的自动数据清洗
FCS
7+阅读 · 2019年3月1日
基于差分隐私的地理社交网络发布
FCS
9+阅读 · 2019年2月22日
卷积自适应降噪自动编码器
FCS
8+阅读 · 2019年1月3日
论文浅尝 | 通过多原型实体指称向量关联文本和实体
开放知识图谱
7+阅读 · 2018年6月21日
FCS 12(1) 文章 | 知识图谱综述
FCS
8+阅读 · 2018年3月12日
Arxiv
14+阅读 · 2018年4月18日
Arxiv
8+阅读 · 2018年4月12日
VIP会员
相关VIP内容
基于深度学习的表面缺陷检测方法综述
专知会员服务
93+阅读 · 2020年5月31日
【人大】图实现算法综述与评测分析
专知会员服务
37+阅读 · 2020年4月28日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
35+阅读 · 2020年4月1日
相关资讯
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
基于统计关系学习的自动数据清洗
FCS
7+阅读 · 2019年3月1日
基于差分隐私的地理社交网络发布
FCS
9+阅读 · 2019年2月22日
卷积自适应降噪自动编码器
FCS
8+阅读 · 2019年1月3日
论文浅尝 | 通过多原型实体指称向量关联文本和实体
开放知识图谱
7+阅读 · 2018年6月21日
FCS 12(1) 文章 | 知识图谱综述
FCS
8+阅读 · 2018年3月12日
Top
微信扫码咨询专知VIP会员