论文浅尝 | 面向开放域的无监督实体对齐

2021 年 8 月 24 日 开放知识图谱

笔记整理 | 谭亦鸣,东南大学博士生



来源:DASFAA’21

链接:https://arxiv.org/pdf/2101.10535.pdf


概述与动机

知识图谱对齐的目的是建立两个不同知识图谱之间实体的对应关系,如图1,本文作者发现现有的实体对齐方法依赖于标注数据,且无法很好的识别出“不存在对齐”的实体。为了解决这个问题,本文提供了一个面向开放域的无监督对齐框架UEA(非监督实体对齐)。具体做法是,模型首先从图谱的边缘信息挖掘出可用特征,然后建立一个“无匹配实体”预测模块,用于过滤图谱中“不存在对齐”的实体。过滤得到的初步结果被用做“伪标注数据”,作用于一种渐进式学习框架,生成图谱的结构表示,这些结构与边缘信息的结合能够提供更加全面的对齐视图。最后渐进式学习框架基于上一迭代的对齐结果生成新的伪标注数据,并不断增强对齐模型的性能。在不依赖标注数据的情况下,本文模型在DBP15K等常规对齐数据集上取得了较好的结果。

图2描述了UEA模型的主要流程,首先模型从待对齐的两个知识图谱的边缘信息中抽取有用的特征,这里的边缘信息主要指实体命名,通过语义级别以及字符串级别的特征信息,作者构建了图谱中实体之间的距离矩阵:

其中,α是一个平衡权重的超参,Mn表示KG上实体命名的语义距离矩阵,Ml则表示字符串级别的距离矩阵。

通过这一步所获取的距离矩阵被用于建立“无匹配实体”模块,用于生成对齐结果,该对齐结果被视作伪对齐用于知识图谱结构embedding中,从而形成一个迭代过程。


非对齐实体模块

现有的对齐模型只考虑了如何建立对齐,而忽略了有些实体之间是不可能存在对齐关系的情况,例如类型不同的实体。因此这里作者采用了一个新的策略,如算法1所描述的TBNNS(带阈值双向最近邻搜索),对于一个给定的source实体u,及target实体v,如果u和v相互是最近邻,那么他们之间的相似性则低于一个给定的阈值θ,(u,v)就为一堆对齐实体组,M(u,v)是度量两者是否符合阈值的距离矩阵。

渐进学习框架

非匹配实体模块得到的伪标注被用于学习统一的KG embedding,在这里作者使用GCN用来捕捉实体的邻居信息。算法2给出了渐进学习模块对应的算法:

首先使用初始伪对齐学习KG结构embedding,并得到结构距离矩阵Ms,Ms与非匹配模块中定义的Mt矩阵共同构成精确的对齐距离信号矩阵M。利用M可用生成更多的精准匹配,而后迭代强化自身。

与其他对齐模型一样,本文的实验性能在DBP15K的三组语言对上给出,数据的相关统计信息如表1

表2的对比结果来看,该非监督方法在性能上以及接近或超过了许多已有的有监督学习的模型。

接着作者在消融实验中重点验证了是否调整阈值,是否在迭代过程中从实体集除去实体的对齐结果等等,结果如表3所展示。


 


 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
1

相关内容

实体对齐(Entity Alignment)也被称作实体匹配(Entity Matching),是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。 实体对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐。
「实体对齐」最新2022综述
专知会员服务
132+阅读 · 2022年3月15日
ACL2022 | 基于强化学习的实体对齐
专知会员服务
34+阅读 · 2022年3月15日
专知会员服务
37+阅读 · 2021年4月25日
专知会员服务
25+阅读 · 2020年12月17日
专知会员服务
193+阅读 · 2020年10月14日
【KDD2020】 鲁棒的跨语言知识图谱实体对齐
专知会员服务
26+阅读 · 2020年9月10日
【斯坦福CS520】向量空间中嵌入的知识图谱推理,48页ppt
专知会员服务
100+阅读 · 2020年6月11日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
133+阅读 · 2020年2月13日
论文浅尝 | KGNLI: 知识图谱增强的自然语言推理模型
开放知识图谱
0+阅读 · 2022年1月28日
论文浅尝 | 动态知识图谱对齐
开放知识图谱
5+阅读 · 2021年12月13日
论文浅尝 | 基于时序知识图谱的问答
开放知识图谱
7+阅读 · 2021年12月1日
论文浅尝 | 利用 KG Embedding 进行问题回答
开放知识图谱
22+阅读 · 2019年7月7日
论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型
开放知识图谱
31+阅读 · 2019年4月7日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
论文浅尝 | 基于开放世界的知识图谱补全
开放知识图谱
11+阅读 · 2018年7月3日
国家自然科学基金
22+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2010年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关VIP内容
「实体对齐」最新2022综述
专知会员服务
132+阅读 · 2022年3月15日
ACL2022 | 基于强化学习的实体对齐
专知会员服务
34+阅读 · 2022年3月15日
专知会员服务
37+阅读 · 2021年4月25日
专知会员服务
25+阅读 · 2020年12月17日
专知会员服务
193+阅读 · 2020年10月14日
【KDD2020】 鲁棒的跨语言知识图谱实体对齐
专知会员服务
26+阅读 · 2020年9月10日
【斯坦福CS520】向量空间中嵌入的知识图谱推理,48页ppt
专知会员服务
100+阅读 · 2020年6月11日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
133+阅读 · 2020年2月13日
相关资讯
论文浅尝 | KGNLI: 知识图谱增强的自然语言推理模型
开放知识图谱
0+阅读 · 2022年1月28日
论文浅尝 | 动态知识图谱对齐
开放知识图谱
5+阅读 · 2021年12月13日
论文浅尝 | 基于时序知识图谱的问答
开放知识图谱
7+阅读 · 2021年12月1日
论文浅尝 | 利用 KG Embedding 进行问题回答
开放知识图谱
22+阅读 · 2019年7月7日
论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型
开放知识图谱
31+阅读 · 2019年4月7日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
论文浅尝 | 基于开放世界的知识图谱补全
开放知识图谱
11+阅读 · 2018年7月3日
相关基金
国家自然科学基金
22+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2010年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员