从ACL 2020和ICLR 2020看知识图谱嵌入的近期研究进展

2020 年 5 月 14 日 PaperWeekly

©PaperWeekly 原创 · 作者｜舒意恒

学校｜南京大学硕士生

研究方向｜知识图谱

本文介绍三篇发表于 ACL 2020 或 ICLR 2020 关于知识图谱嵌入的近期研究进展。

1. ACL 2020 | A Relational Memory-based Embedding Model for Triple Classification and Search Personalization 用于三元组分类和搜索个性化的基于关系记忆的嵌入模型

2. ACL 2020 | A Re-evaluation of Knowledge Graph Completion Methods 知识图谱补全方法的重新评估

3. ICLR 2020 | You Can Teach An Old Dog New Tricks! On Training Knowledge Graph Embeddings 旧瓶装新酒，训练知识图谱嵌入

其中，第 1 篇文章主要使用序列模型对三元组进行建模，用于三元组分类和搜索个性化任务。第 2 篇和第 3 篇文章是实证类的研究，回顾了现有的知识图谱嵌入方法，并从独特的角度提出了质疑，对研究者在今后的研究具有一定启发意义。

R-MeN

论文标题：A Relational Memory-based Embedding Model for Triple Classification and Search Personalization

论文作者：Dai Quoc Nguyen, Tu Dinh Nguyen, Dinh Phung

论文来源：ACL 2020

论文链接：http://arxiv.org/abs/1907.06080

开源代码：https://github.com/daiquocnguyen/R-MeN

本文关键词：knowledge graph embedding; relational memory-based; triple classification; search personalization

1.1 问题

作者认为，现有的知识图谱嵌入方法通常在记忆有效三元组方面有局限。

作者主要面向的应用场景是搜索个性化和三元组分类：三元组分类旨在预测给定的三元组是否有效；搜索个性化旨在对面向用户的搜索引擎返回的相关文档进行重新排序。

作者认为，现有方法不能有效捕捉实体和关系之间的潜在依赖。从 Trans 系列的发展来看，这不是一个新问题，但作者有了新的思路。

1.2 方案

作者将其嵌入模型称为 R-MeN，它使用一个关系记忆网络来编码三元组，推断新的三元组。

具体而言，R-MeN 将每个三元组与额外的位置嵌入（positional embedding）一起转换成 3 个输入向量序列。然后，R-MeN 使用 transformer 的自注意力（self-attention）机制来引导记忆与每个输入向量进行交互，以产生一个编码向量。

最终，R-MeN 将这 3 个编码向量反馈给基于 CNN 的解码器，返回一个三元组的得分。

图中，M 表示记忆，MLP 表示多层感知机。g 表示记忆门控。CNN 表示基于 CNN 的解码器。我们可以将它理解为对三个时间步建模的序列模型。

1.3 R-MeN 模型

1.3.1 位置嵌入

对于一个三元组，作者假设之间的相对位置对于推断其本质关系是有用的，因此对每个位置添加了位置嵌入。

给定一个三元组，三个向量的序列为：

1.3.2 记忆

表示记忆的矩阵由行组成，每行是一个 memory slot。记忆矩阵通过多头自注意力机制（multi-head self attention mechanism）计算。是一个维向量，表示第个时间步的第个 memory slot。

这其中，注意力权重的计算如下：

R-MeN 进行序列建模的关键，是将与之间的残差连接馈送给 MLP 与记忆门控，来产生时间步的维编码向量和下一时间步的 memory slot 。

1.3.3 卷积

对于已编码的向量，作者使用基于 CNN 的解码器来计算三元组分数。

1.3.4 损失函数

训练使用 Adam optimizer，并使用了负采样。

1.4 实验

1.4.1 数据集

作者在两个任务上使用了三个数据集：

三元组分类：WN11 和 FB13
搜索个性化：SEARCH17

对于 SEARCH17 的实验，模型被训练为三元组 (query, user, document) 计算分数。

1.4.2 实验结果

1.4.3 消融实验

在消融实验部分，作者尝试去除位置嵌入与不使用关系记忆网络。可见，R-MeN 的主要表现提升体现在关系记忆网络上，位置嵌入发挥了次要的作用。

1.5 结论

R-MeN 基于 transformer 的自注意力机制，以 CNN 为解码器的记忆交互的形式对知识图谱学习嵌入。本文的主要贡献在于假设三元组的三个元素的相对位置信息对于三元组分类问题是有效的，并且通过序列建模取得了好的效果。

作者表示在三元组分类和搜索个性化任务上都取得了 SOTA，并计划将 R-MeN 扩展到多跳知识推理上。

KG-Reeval

论文标题：A Re-evaluation of Knowledge Graph Completion Methods

论文作者：Zhiqing Sun，Shikhar Vashishth，Soumya Sanyal，Partha Talukdar，Yiming Yang

论文来源：ACL 2020

论文链接：http://arxiv.org/abs/1911.03903

开源代码：http://github.com/svjan5/kg-reeval

本文关键词：evaluation; knowledge graph completion

2.1 知识图谱补全简介

真实世界的知识图谱通常是不完整的，启发研究者探索自动补全知识图谱的方法。一种常见方法是将知识图谱的实体和关系嵌入连续向量或矩阵空间中，并使用设计好的评分函数度量一个三元组的可能性。

现有方法可以大致分为基于平移距离的 (translation distance) 方法和语义匹配 (semantic matching) 的方法，一部分基于神经网络的方法也被提出，如使用 CNN [2-3]、RNN [4-5]、GNN [6-7]、Capsule Network [8] 等。

作者认为，其中一些方法的评估准则 (evalution protocol) 并不合理，导致表现被夸大。作者尝试对知识图谱补全方法进行重新评估，其重新评估的重点在于对评估方法的审视。

2.2 观察

作者展示了观察到的一些事实：从模型表现方面，作者观察到不同数据集上模型的提升幅度不一致；从神经网络方面，作者观察到有效与无效三元组的得分分布不正常。

2.2.1 基准测试数据集上不一致的提升

一些模型在 FB15k-237 和 WN18RR 两个数据集上的 MRR 提升并不一致。例如 ConvKB、CapsE、KBAT 等方法在两个数据集上的提升差距较大。

2.2.2 对评分函数的观察

三元组评分函数的不合理主要体现在：有效三元组和无效三元组分数的分布差异。

对于归一化的分数，58.5% 的无效三元组和有效三元组拥有一致的分数。

作者对不同方法使用的 ReLU 激活函数进行深入研究，发现对于 FB15k-237 数据集，大量神经元在 ReLU 激活函数之后变为 0. 因此，一些三元组表示在前向传播中变得非常相似，导致了相同的分数。

这是否说明，当前的方法完全没有足够的能力对三元组进行建模？从分数分布的角度看，是否体现出了典型的欠拟合？

2.3 知识图谱补全的评估准则

作者提出了新的评估准则 (protocol)，并证明不合理的评估准则是基于神经网络的嵌入方法表现异常的关键原因。

作者提出评估准则的出发点基于他们的观察，即打破三元组在同一分数上的大量重复。作者没有尝试对不同补全方法的评分函数的原理分析，或者是从如何改进 ReLU 激活函数的表现进行分析，而是从评估准则和三元组分数之间的关系进行分析。

对于一个候选的三元组集合，如果模型中对多个三元组有同一分数，我们应该选择其中一个三元组。假设三元组是以固定方式排序的，作者给出了三个不同的准则：

TOP：正确的三元组插入到的头部
BOTTOM：正确的三元组插入到的尾部
RANDOM：正确的三元组随机插入到中的一个位置

2.4 实验

数据集使用 FB15k 的子集 FB15k-237，逆关系被删除防止测试时直接从训练三元组推断。

作者将分析的模型分为两类：未受影响的和受影响的，即在不同评估准则下表现一致的模型和表现不一致的模型。

评估的指标包括：MRR（mean reciprocal rank）、MR（mean rank）和 Hit@10（H@10）.

作者表示，ConvE、RotatE 和 TuckER 的原论文使用的是 RANDOM，而 ConvKB、CapsE 和 KBAT 使用的是 TOP.

图中是 TOP 和 BOTTOM 相比于 RANDOM 的比较。TOP 相比于 RANDOM 并不能严格评估模型，表现显著偏高。而 BOTTOM 也显示出它的不公平，正确的三元组排名较低。作者认为 RANDOM 是严格且公平的。

2.5 结论

个人认为，NLP 社区应当鼓励质疑类的工作和无效探索的工作，除了了解什么样的方法是有作用的，研究者能了解什么样的方法是无效的也很重要。

本文的主要贡献在于，发现了不恰当的评估准则的使用导致模型的性能被夸大。但作者提出的疑惑并没有完全被解决，我想我们还可以进一步追问以下问题：

三元组分数重复程度严重，是否表示评分函数对三元组的区分能力有待加强？
ReLU 激活之后，许多神经元变为 0，是因为 ReLU 这个函数的不合理，还是因为神经网络结构的不合理？

KGE

论文标题： You Can Teach An Old Dog New Tricks! On Training Knowledge Graph Embeddings

论文作者： Daniel Ruffinelli, Samuel Broscheit, Rainer Gemulla

论文来源： ICLR 2020

论文链接： https://openreview.net/forum?id=BkxSmlBFvr

开源代码： https://github.com/uma-pi1/kge

这篇文章是一篇实证角度的综述。文章标题的所谓「旧瓶装新酒」，这篇文章的「旧瓶」是什么，「新酒」又是什么呢？

作者认为，不同的嵌入方法包含不同的模型架构、训练策略和超参数优化方法。作者的目标是总结和量化这些维度对模型性能的影响。

所谓「旧瓶」是现有的模型架构，「新酒」是作者实验的训练方法，包括损失函数、负样本、正则化方法、优化方法等。作者发现，对已有模型架构使用更先进的技术进行训练，可以表现出更强的性能。

作者总结了知识图谱嵌入模型和训练策略，粗体表示首次使用某种策略的文献。

3.1 嵌入模型

3.1.1 训练类型

作者根据负样本的生成方法，将训练类型分为三类：

NegSamp：对每个正样本随机打乱三元组中的 subject/relation/object 的位置，可选地验证这样的三元组是否已存在于图中。
1vsAll：忽略采样，将所有打乱（即使存在于图中） subject 和 object 位置的三元组作为负样本，比 NegSamp 代价更高，但如果实体数量有限是可以接受的。
KvsAll：从非空的行 (i, k, *) 或 (*, k, j)，而不是单个三元组，构建 batch。存在于训练数据中的标为正样本，否则为负样本。

3.1.2 损失函数

现有研究在损失函数上的使用：

三元组分数与标签（正或负）之间的均方差
TransE 使用的 hinge loss
binary cross entropy [9]
cross entropy [10]

3.1.3 对等关系

对等关系 [11-12] 的思想是对头实体和尾实体的预测分数，分别使用两个不同的评分函数。两个评分函数共享实体嵌入，但不共享关系嵌入，因而每个关系拥有两个嵌入。

3.1.4 正则化

L2 正则化是嵌入模型中最常见的正则化方法，可能是非加权的，或按实体/关系频率进行加权的归一化。
Lacroix 等人提出了 L3 正则化。
TransE 在每次更新后将嵌入归一化为 unit norm.
ConvE 在隐藏层中使用了 dropout。
除现有研究的方法之外，作者还考虑了 L1 正则化，和对实体/关系嵌入使用 dropout。

3.1.5 超参数

现有工作中的超参数有很多种类，例如学习率、batch size、负样本数量、正则化参数等。

3.2 实验

对于较老的模型，在尝试不同的训练方式之后，取得了较大幅度的提升（Ours 与 First 的对比），几乎能与最近的工作（Recent）相媲美。表明工作的进步不一定都来自于模型结构的改变，训练方式在性能提升中发挥了重要作用。

经过准随机的超参数搜索和贝叶斯优化后，验证集表现最好的模型的超参数如表所示。括号内是不使用该超参数值的最佳配置的 MRR 减少量。基本可以发现，不存在通用的最优训练方式，不同模型所需的训练方式不同。训练方式的改变对模型表现均有一定影响。

3.3 结论

从这篇文章可以见到，关于嵌入的文章创新方向不同，但某种新的训练方法可能只在新的模型上尝试，而不是对大量的其他模型进行尝试。有时我们需要重新审视，一篇新文章的新模型，其关键优势到底是什么？能为其他工作带来多少借鉴。

作者发现，当训练方法合适时，不同模型结构之间的相对性能差异往往会缩小，有时甚至出现反转。这说明，训练策略对模型表现可能有很大的影响。

三篇文章小结

知识图谱嵌入这一话题，延续之前的热度，仍然在今年的顶级会议/期刊上出现了优秀的成果。关于第 1 篇文章，再次验证了知识图谱与自然语言处理之间紧密的关系。知识图谱三元组，通过自然语言表述，在利用一些序列模型时，能在三元组分类上取得较好效果。

第 2 篇与第 3 篇文章，从实证研究的角度审视现有工作，表明即使过去数年知识图谱嵌入模型涌现了许多优秀的工作，但实际上在三元组评分、训练方式等方面的研究可能并不严谨，为我们今后评判知识图谱嵌入的工作提供了一些新的角度，并提出了研究者应当弥补的问题。

参考文献

[1] Adam Santoro, Ryan Faulkner, David Raposo, Jack Rae, Mike Chrzanowski, Theophane Weber, Daan Wierstra, Oriol Vinyals, Razvan Pascanu, and Timo- thy Lillicrap. 2018. Relational recurrent neural networks. In Advances in Neural Information Processing Systems, pages 7299–7310.

[2] Tim Dettmers, Minervini Pasquale, Stenetorp Pontus, and Sebastian Riedel. 2018. Convolutional 2d knowledge graph embeddings. In Proceedings of the 32th AAAI Conference on Artificial Intelligence, pages 1811–1818.

[3] Dai Quoc Nguyen, Tu Dinh Nguyen, Dat Quoc Nguyen, and Dinh Phung. 2018. A novel embedding model for knowledge base completion based on convolutional neural network. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pages 327–333. Association for Computational Linguistics.

[4] Yankai Lin, Zhiyuan Liu, Huanbo Luan, Maosong Sun, Siwei Rao, and Song Liu. 2015. Modeling relation paths for representation learning of knowledge bases. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 705–714, Lisbon, Portugal. Association for Computational Linguistics.

[5] Haoyu Wang, Vivek Kulkarni, and William Yang Wang. 2018. DOLORES: deep contextualized knowledge graph embeddings. CoRR, abs/1811.00147.

[6] Michael Schlichtkrull, Thomas N Kipf, Peter Bloem, Rianne van den Berg, Ivan Titov, and Max Welling. 2017. Modeling relational data with graph convolutional networks. arXiv preprint arXiv:1703.06103.

[7] Chao Shang, Yun Tang, Jing Huang, Jinbo Bi, Xiaodong He, and Bowen Zhou. 2019. End-to-end structure-aware convolutional networks for knowledge base completion.

[8] Dat Quoc Nguyen, and Dinh Phung. 2019. A Cap- sule Network-based Embedding Model for Knowledge Graph Completion and Search Personalization. In Proceedings of the 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pages 2180–2189.

[9] The ́o Trouillon, Johannes Welbl, Sebastian Riedel, Eric Gaussier, and Guillaume Bouchard. Complex embeddings for simple link prediction. In Proceedings of the 33rd International Conference on Machine Learning (ICML), 2016.

[10] Rudolf Kadlec, Ondrej Bajgar, and Jan Kleindienst. Knowledge base completion: Baselines strike back. In Proceedings of the 2nd Workshop on Representation Learning for NLP (Rep4NLP@ACL), 2017.

[11] Seyed Mehran Kazemi and David Poole. Simple embedding for link prediction in knowledge graphs. In Proceedings of Advances in Neural Information Processing Systems (NIPS), 2018.

[12] Timothe ́e Lacroix, Nicolas Usunier, and Guillaume Obozinski. Canonical tensor decomposition for knowledge base completion. In Proceedings of the 35th International Conference on Machine Learning (ICML), 2018.