【ACL2020】SEEK For 图谱Embedding

2020 年 6 月 26 日 AINLP

点击蓝色字体星标+关注

图谱Embedding：SEEK

导语：

图谱 Embedding 在推荐、问答等下游任务中扮演着重要的角色，然而，目前的方法并没有很好的权衡模型复杂度与模型高效表达之间的关系。为了缓解这样的问题，本文专注于得分函数的设计，提出轻量级的模型框架 SEEK，并在公开数据集上验证有效。

该论文目前在arxiv上面，已经被 ACL2020 接受 。

文末附代码 Github Repo。

背景与关键点

图谱 Embedding 在推荐、问答、自然语言理解等下游任务中扮演着重要的角色，然而目前存在的一些研究方法并没有很好的权衡模型复杂度与模型高效表达之间的关系，基于此，可以将目前的研究方法划分为两大类：

模型简单(复杂度低)却对信息的表达有限：以 TransE 和 DistMult 为代表，这类方法很容易应用到大规模的真实图谱中，但它们在捕获语义信息(如链接预测)方面却不尽人意。
具有高效的信息表达，但却引入过多的参数、模型复杂度高：以 TransH、TransR、TransD、Single DistMult、ConvE、InteractE 为典型代表。有研究表明，模型的高复杂性往往会导致较差的可伸缩性，由于真实图谱包含大量的三元组，这些模型很难在实践中应用。

基于上述描述，本文以权衡模型复杂度和高效信息表达为出发点，提出轻量级的 KGE 框架：SEEK，在不牺牲模型复杂度的情况下，实现了具有高度竞争力的信息表达能力。具体有以下三点：

充分的特征交互：将嵌入维度划分为多个分割段，并鼓励不同段之间的信息交互。这样，可以在不增加模型参数的情况下获得高度信息表达。
保留关系必要属性：不同关系的属性是非常重要的，特别是关系的对称性（symmetry）和反对称性（antisymmetry），在模型中考虑了这两种关系特性。
高效的得分函数：在设计得分函数时，结合 a 和 b，逐步设计出四种函数。在这些函数中，可以将以往的方法归为 SEEK 的一个特殊情况，所以 SEEK 又可称为统一的框架。

下图是 SEEK 与其他模型在各个方面的一个比较。

得分函数的Design

SEEK 在得分函数的设计中，迭代了四个版本，逐一看下。

f1: Multi-linear Dot Product：

f2: Multi-linear Dot Product Among Segments：

将嵌入维度划分为多段，考虑段与段之间的信息交互。其中 k 是段的个数，d 是维度，x 代表关系向量 r 切分后的第 x 段，y 代表头实体向量 h 切分后的第 y 段，w 代表尾实体向量 t 切分后的第 w 段。

f3: Modeling both Symmetric and Antisymmetric Relations：

考虑关系的对称性和反对称性。
说一下 f2 的问题，当给一个具有对称性的关系 r 和一个三元组 (h, r, t)，存在f2(h, r, t) = f2(t, r, h)，但是对于给定一个反对称关系 r ，仍然存在f2(h, r, t) = f2(t, r, h)，这就是不对的，因为此时的 f2(t, r, h)是一个错的三元组。
为了考虑关系的对称性和反对称性，将关系向量 r 的切割分为奇数和偶数两部分，并引入变量 S xy ，偶数部分能够捕捉对称性，并且奇数部分能够捕捉反对称性。

下面是分成 2 段的一个例子

r 的下标为偶数的情况下，考虑了对称性，都是正(+)，给定对称关系，替换头尾实体，也是一样的，这便考虑了对称关系。
r 的下标为奇数的情况下，要考虑 x + y 大于等于 2 的情况即为负(-)，【图中的一个是不是写错了，还是我哪块理解错了】，这样给定反对称关系，替换头尾实体便是不同的，也就考虑了反对称关系。

f4: Reducing Computing Overheads

下面是分成 4 段的一个例子

r 的下标为偶数的情况下，考虑了对称性，Sxy 计算和 f3 一样，都是正(+)，偶数的情况下 t 也没有变化。
r 的下标为奇数的情况下，考虑了反对称性，Sxy 计算和 f3 一样，x + y 大于等于 4 的时候为负，其余为正，t 的计算是 (x + y) % k 取余，替换尾实体，段之间的特征交互随着k的增大而增多。