论文浅尝 | PASSLEAF：基于样本池的不确定性知识图谱嵌入半监督学习框架

2022 年 10 月 7 日 开放知识图谱

笔记整理：陈一林，东南大学硕士，研究方向为不确定性知识图谱规则与推理。

论文引用：Citation: Chen, Z.M., Yeh, M.Y. and Kuo, T.W., 2021, May. PASSLEAF: A Pool-bAsed Semi-Supervised LEArning Framework for Uncertain Knowledge Graph Embedding. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 35, No. 5, pp. 4019-4026).

动机

不确定性知识图谱（uncertain knowledge graph, UKG）含有知识的置信度信息，然而现有的大部分知识图谱嵌入（embedding）方式都忽视了这种置信度信息。UKGE是第一个针对UKG设计的嵌入方法，它的主要思想是将三元组的得分映射为置信度，并将其与真实置信度比较作损失。但是UKGE遵循封闭世界假设，将未出现的三元组均视为负样本；基于DisMult的嵌入方式，让其无法扩展到别的嵌入方式，使用概率软逻辑来构造新的训练样本的方式需要领域知识和较大的人工成本。PASSLEAF针对UKGE存在的这些问题设计了优化方式，以改善表现。PASSLEAF由两部分组成，置信度预测模型和包含自动生成含有置信度负样本的半监督模型，其中置信度预测模型可以使用不同嵌入方式的评分函数。此外PASSLEAF还构建一个样本池来收集不同时间步习得的知识。

贡献

本文的主要贡献有：

(1)提出可以处理不同嵌入方式评分函数的置信度预测模型

(2)提出半监督学习模型，改模型可以生成含有置信度的负样本

(3)构建样本池收集不同时间步模型习得的知识

方法

总体框架如图1所示，主要由不确定性预测模型和基于池的半监督学习模型组成。不确定性预测模型使用知识嵌入的评分函数来预测三元组样本的置信度，半监督学习框架能更好地处理未出现过的三元组，而不是将其直接转换为置信度为0的负样本。样本池可以进一步提高前途学习的质量。

图1 总体框架图

处理评分函数时，PASSLEAF先判断评分函数是semantic-based还是translational distance based，然后分别根据公式（1）和（5）映射为新的评分函数。

$S^{\prime}(\bar{h}, \bar{r}, \bar{t})=\frac{1}{1+e^{-(b+w S(\bar{h}, \bar{r}, \bar{t}))}} （1）$ $S^{\prime}(\bar{h}, \bar{r}, \bar{t})=\frac{1}{1+e^{-(b+w(\gamma+S(\bar{h}, \bar{r}, \bar{t})))}} . （5）$

其中， $\bar{h}, \bar{r}, \bar{t},$ 分别表示三元组中头实体、关系和尾实体的嵌入向量， $b 、 \omega$ 和 $\gamma$ 均为模型参数。最终，评分函数将会和MSE损失一起约束模型。具体的构建方式见论文给出的例子，这里不赘述。

半监督样本也是通过替换训练集中三元组的头实体或者尾实体来构造，但是每个半监督样本都会计算置信度分数而不是置0。半监督样本的MSE损失如下：

L_{s e m i}=\sum_{(\bar{h}, \bar{r}, \bar{t}, \bar{c}) \in D_{s e m i}}\|\sigma(S(\bar{h}, \bar{r}, \bar{t}))-\bar{c}\|^2 . (9)

其中，

D_{\text {semi }}

表示半监督样本。最终模型的损失函数如下：

$L=L_{\text {pos }}+\frac{1}{N_{g e n}}\left(L_{\text {semi }}+L_{n e g}\right) . (10)$

样本池保留了个最新的半监督样本。对于一个训练epoch，先生成

N_{\text {new }}

个样本并存入样本池，然后从样本池中随机取出

N_{\text {semi }}

个样本作为半监督样本，和其他样本共同训练模型。需要注意的是训练过程中对样本总数和半监督样本数量进行了约束，防止半监督样本导致模型不稳定，具体数量约束如下：

$N_{n e w}(i)= \begin{cases}N_{g e n}, & \text { if } i \geq T_{\mathrm{NEW} \text { SEMI }} \\ 0, & \text { otherwise }\end{cases}(11)$

$N_{s e m i}(i)= \begin{cases}\max \left(M_{\mathrm{SEMI}},\lfloor\alpha(i-\right. & \left.\left.\left.T_{\mathrm{SEMI} \text { TRAIN }}\right)\right\rfloor\right), \\ 0, & \text { if } i \geq T_{\mathrm{SEMI}} \mathrm{TRAIN} \\ & \text { otherwise }\end{cases}(12)$

其中，

T_{\text {NEW SEMI }}

和

T_{\text {SEMI TRAIN }}

分别表示开始生成半监督样本和开始从池中取半监督样本的epoch数。

M_{\text {SEMI }}

是每一步中半监督样本的最大数量。

实验

实验目的在于验证基于池的半监督训练是否比纯负采样更有效，基于池的设计是否加快了半监督的训练速度以及在UKG上不确定性知识图谱嵌入是否由于确定性知识图谱的嵌入方式。数据集基本情况如下表：

表1 数据集统计

设置了两个实验任务，一个是置信度预测，给定三元组，模型对此三元组进行不确定性预测，另一个是尾实体预测，给定三元组的头实体和关系，预测尾实体，并根据置信度对候选尾实体进行排序。

实验结果如下，表 2 为尾实体预测结果，其中

\text { WMR }=\frac{\sum_{(h, r, t, c) \in D^c} \cdot \operatorname{rank}_{(h, r, t)}}{\sum_{(h, r, t, c) \in D^c}}

，

\text { nDCG }=\frac{\sum_{(h, r, t, c) \in D} \frac{c}{log_2(\operatorname{rank}_{(h, r, t)}+1)}}{\sum_{(h, r, t, c) \in D} \frac{c}{log_2(\operatorname{rank}_{(h, r, t)}+1)}}

，表 3 为置信度预测结果。

表2 尾实体预测

表3 置信度预测

从实验结果来看，PASSLEAF在各项指标基本都超越了传统方法，与现有的各种知识图谱嵌入方法相比，PASSLEAF显著降低了假负样本的影响，样本池在不同数据中积累的经验是有效的，同时不确定性知识图谱嵌入方式在保留不确定性知识图谱结构方面具有良好性能。

总结

本文研究了不确定性知识图谱嵌入问题，提出PASSLEAF模型，结合不同类型的评分函数预测关系置信度分数，设计了同时使用正样本和生成负样本的半监督模型，并使用样本池作为生成样本的中继，进一步增强了半监督学习。实验结果表明，本文提出的框架在置信度评分预测和尾实体预测中都具有较高的准确率，能够学习到更好的不确定性知识图谱嵌入表示。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。