胡伟 | 面向多实体人机协作消解的对比表生成自动化方法

2018 年 7 月 31 日 开放知识图谱

 


众包实体消解


实体消解(Entity Resolution,简称ER)旨在发现不同知识图谱中指称真实世界相同对象的实体。众包实体消解(Crowd ER)在使用机器的基础上,还使用人来完成实体消解任务。众包实体消解的一个常见流程如下图所示:



Waldo: AnAdaptive Human Interface for Crowd Entity Resolution. SIGMOD 2017

 

在众包实体消解中,存在一系列关键问题亟待解决,包括:1)如何呈现一个实体消解任务?2)如何选择合适的人来完成任务?3)如何在给定预算限制下挑选任务?等等。论文作者发现,当前研究很少关注第1个问题,即如何通过呈现一些关键信息(例如实体的重要属性和取值)来帮助单个人更高效和精准地完成一个实体消解任务。

 

一个例子


论文作者关注多实体消解任务(multi-entityresolution,简称MER),下图展示了一个包含3个实体的多实体消解任务,它们拥有了相似的属性和取值,有待人来完成消解。


相关工作


  • 基于列表的多实体消解任务呈现方式,类似于传统搜索引擎。

  • 基于成对的多实体消解任务呈现方式,每次仅比较两个实体并对齐它们间的相似属性。

考虑到属性和取值的数量可能很多,上述两类方法常通过生成摘要来提高人的消解效率。然而,这两类方法对于多实体消解任务而言,也均存在一些不足。例如,由于缺乏直接对比,基于列表的方法需要人在心里记录并比较不同实体;又如,基于成对的方法虽然能使人更加专注两个实体的比较,但是可伸缩性差。更为重要的是,这两类方法在形成列表或成对的过程中,会丢失实体消解结果间的传递性和聚类性等。

 

本文方法


论文作者提出了一种基于对比表(comparativetable)的多实体消解任务呈现方法,将实体和重要属性分别组成表的行和列头,并将重要取值填入表单元中。拟解决的关键问题是实体的属性和取值的异构性及规模性与有限的表格呈现空间之间的矛盾。方法框架如下图所示,包括3个主要步骤:



  1. 全体属性匹配,包括属性间相似度计算和属性团生成两个子步骤。

  2. 优良性评估,考虑了属性团的判别性、丰富性、语义性和多样性4个特征。

  3. 对比表生成,包括属性团的选择和取值的选择两个子步骤。

 

下图展示了根据上述例子生成的一个多实体消解任务对比表。


实验结果


论文作者从10个流行领域各选取了25DBpedia实体作为种子,并通过维基百科消歧页面为每个种子实体随机选取2 ~ 4FreebaseWikidataYAGO实体,再从中随机选择出10个实体构成一个多实体消解任务。共计250个任务,2500个实体,指称804个真实世界对象。

实验从3个方面检验了基于对比表的方法有效性,包括:1)全体属性匹配的准确性;2)属性团排序的有效性;3)通过雇佣60位研究生进行实操,从效率、精度和打分3个方面与基于列表和基于成对的两个代表性方法进行了比较。

 

[1] Jiacheng Huang, Wei Hu*, Haoxuan Li, Yuzhong Qu. Automated Comparative Table Generation for Facilitating Human Intervention in Multi-Entity Resolution. In: ACM SIGIR Conference on Research and Development in Information Retrieval. 585–594, 2018


-- End --


实验室介绍:南京大学万维网软件(Websoft)研究组在瞿裕忠教授的带领下,长期从事知识图谱(语义网)及相关技术的研发,研究组成员包括胡伟副教授、程龚副教授以及30余位博士和和硕士研究生,近期的研究方向主要包括:智能问答、知识融合和语义搜索。
联系方式:胡伟,whu@nju.edu.cn,微信号:whu1982
网站:http://ws.nju.edu.cn




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
0

相关内容

不同的数据提供方对同一个事物即实体 (Entity)可能会有不同的描述 (这 里的描述包括数据格式 、表示方法 等) ,每一个对实体的描述称为该实体的一个引用。实体解析,是指从一个“ 引用集合”中解析并映射到现实世界中的“ 实体”过程 。实体解析(Entity Resolution)又被称为记录链接(Record Linkage) 、对象识别(object Identification ) 、个体识别(Individual Identification) 、重复检测(Duplicate Detection)
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
知识图谱融合方法,140页ppt,南京大学胡伟老师
专知会员服务
142+阅读 · 2020年2月19日
技术动态 | 知识图谱上的实体链接
开放知识图谱
69+阅读 · 2019年9月8日
论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统
开放知识图谱
67+阅读 · 2019年8月27日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
论文浅尝 | 面向简单知识库问答的模式修正强化策略
开放知识图谱
3+阅读 · 2018年11月7日
论文浅尝 | 知识图谱问答中的层次类型约束主题实体识别
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
Arxiv
3+阅读 · 2018年5月28日
Arxiv
8+阅读 · 2018年3月17日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
相关资讯
技术动态 | 知识图谱上的实体链接
开放知识图谱
69+阅读 · 2019年9月8日
论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统
开放知识图谱
67+阅读 · 2019年8月27日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
论文浅尝 | 面向简单知识库问答的模式修正强化策略
开放知识图谱
3+阅读 · 2018年11月7日
论文浅尝 | 知识图谱问答中的层次类型约束主题实体识别
Top
微信扫码咨询专知VIP会员