SIGIR2022 | MorsE：基于元知识迁移的归纳式知识图谱表示

会员服务 ·

SIGIR2022 | MorsE：基于元知识迁移的归纳式知识图谱表示

2022 年 4 月 9 日 专知

论文题目：Meta-Knowledge Transfer for Inductive Knowledge Graph Embedding

本文作者：陈名杨（浙江大学）、张文（浙江大学）、朱渝珊（浙江大学）、周虹廷（浙江大学）、苑宗港（华为）、陈华钧（浙江大学）

接收会议：SIGIR 2022

论文链接：https://www.zhuanzhi.ai/paper/23cd15aa4dd7c2e45bfb10d45926ca95

欢迎转载，转载请注明出处

一、引言

当前，大量的大规模知识图谱（knowledge graph，KG）被提出，并应用于多种下游任务。在知识图谱的使用过程中，有各种知识图谱表示学习的方法（即知识图谱嵌入，knowledge graph embedding，KGE）被提出，用于将知识图谱中的实体和关系映射到连续的低维向量空间中。相比于传统地用离散的三元组对知识图谱进行表示，向量表示可以更好地被深度学习模型所使用。

然而传统的KGE方法只能对训练阶段已经见过的实体进行预测和应用（即transductive，直推式场景），因为传统的KGE方法是对一个固定集合的实体学习嵌入表示。所以对知识图谱表示学习来说，可归纳式（inductive）场景更具有挑战，即在测试阶段中会出现训练阶段未见过（unseen）的新实体。如图1所示，在Source KG上训练好的KGE模型无法直接用于Target KG，因为Target KG中的实体在Source KG中没有出现过。

图1. 归纳式场景下的知识图谱示例

近年来，已经有一些工作试图解决知识图谱在可归纳式场景下的问题。其中，GraIL和其后续工作，通过学习从子图结构中预测关系的能力，从而完成可归纳的关系预测。然而这一类方法并不能有效解决在归纳场景下的其他KG外的任务，如问答系统等，因为这一类方法无法得到实体的表示。这个缺陷使得当前针对可归纳式知识图谱的方法无法像传统知识图谱表示学习模型一样，可以广泛地用于多种下游任务。为了总体解决知识图谱在可归纳式场景下的问题，我们希望设计一种知识图谱表示学习模型，可以在一个集合的实体上训练，然后泛化到另一个未见过的实体集合，并可以解决多种KG内和KG外的下游任务。

二、问题定义

知识图谱定义为 $\mathcal{G}=(\mathcal{E}, \mathcal{R}, \mathcal{P})$ ，分别表示实体、关系和三元组集合。对于归纳式知识图谱表示学习问题，给定一个源KG（source KG）集合 $\mathcal{G}_{S}=\left\{\mathcal{G}_{s}^{(i)}\right.\left.=\left(\mathcal{E}_{s}^{(i)}, \mathcal{R}_{s}^{(i)}, \mathcal{P}_{s}^{(i)}\right)\right\}_{i=1}^{n_{s}}$ ，以及目标KG（target KG）集合 $\mathcal{G}_{T}=\left\{\mathcal{G}_{t}^{(i)}\right.\left.=\left(\mathcal{E}_{t}^{(i)}, \mathcal{R}_{t}^{(i)}, \mathcal{P}_{t}^{(i)}\right)\right\}_{i=1}^{n_{t}}$ 。其中目标KG中的实体都没有在源KG中出现过，但目标KG中的关系都在源KG中出现过。归纳式知识图谱表示的目标是在源KG上学习一个函数 $f$ ，该函数可以将源KG中的实体映射成向量表示，并且可以泛化到目标KG上。实体的表示可以用于辅助目标KG上的各种下游任务。需要注意的是源KG和目标KG的数量并不影响模型的设计，所以方法按照一个源KG和一个目标KG进行描述。

三、方法

如图1，我们认为传统的KGE方法就像婴儿，只能认识自己学过的实体，而inductive KGE就像成年人，可以通过将未见过实体和见过实体的周围结构模式（neighbor structural patterns）进行比对，从而认知新出现的实体。这些结构模式是与实体无关的、通用的且可迁移的，在本论文中我们将这些结构模式称为元知识（meta-knowledge）。如何建模和学习这种与实体无关的元知识是解决可归纳式知识图谱问题的关键。

我们提出一种基于元知识迁移的知识图谱表示学习方法（Meta-Knowledge Transfer for Inductive Knowledge Graph Embedding，MorsE）。

图2. 关系 $r$ 的多种表示、实体初始化示例以及元学习过程

3.1 建模元知识

这里主要考虑设计模型通过实体的周围结构模式得到实体表示。所以我们首先设计了一个实体初始化器（entity initializer），通过实体周围所连接的关系对实体进行初始化。对于关系，除了关系自身的向量表示，还有用于表示关系domain和range的向量表示，用于对实体进行初始化，如图2中（a）(b)。然而简单的初始化只能表达实体的类型信息，并不能表达实例信息。所以通过一个GNN调整器（GNN Modulator）对实体的表示进行更新。总的步骤如下

$\mathbf{E}=f_{\theta, \phi}(\mathcal{G})=\operatorname{MODULATE}_{\phi}\left(\mathcal{G}, \operatorname{INTT}_{\theta}(\mathcal{G})\right)$

3.2 在源KG上学习元知识

这一部分解决如何训练模型从而使得上述的 $f_{\theta, \phi}$ 对包含未见过实体的KG可以输出合理的表示。这里我们使用元学习中“learning to learning”的概念。在训练阶段，模型MorsE在一系列的任务上训练。具体来说，这里的任务是从源KG上进行采样的一系列sub-KG，我们假设sub-KG中的实体是没见过的实体，从而可以模拟inductive的场景。并且将每个sub-KG分为支持集（support set）和查询集（query set），支持集是用于生成实体表示，查询集用于验证实体表示的效果。整体流程如图2（c）所示。

3.2 在目标KG上适配元知识

在目标KG上对元知识进行应用的过程，就是元知识迁移的完成。这个过程也非常直接，因为我们可以直接通过训练好的 $f_{\theta, \phi}$ 生成目标KG的实体表示，从而用于各种下游任务。MorsE还提供了两种使用元知识的方式。第一种Freezing，在这种方式中，MorsE的参数固定不变，其用于生成实体的表示，并直接用于下游任务；第二种方式Fine-tuning，在训练完的基础上，MorsE中的参数可以根据不同的下游任务训练目标进行更新。