笔记整理:陈一林,东南大学硕士,研究方向为不确定性知识图谱规则与推理。
论文引用:Citation: Chen, Z.M., Yeh, M.Y. and Kuo, T.W., 2021, May. PASSLEAF: A Pool-bAsed Semi-Supervised LEArning Framework for Uncertain Knowledge Graph Embedding. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 35, No. 5, pp. 4019-4026).
不确定性知识图谱(uncertain knowledge graph, UKG)含有知识的置信度信息,然而现有的大部分知识图谱嵌入(embedding)方式都忽视了这种置信度信息。UKGE是第一个针对UKG设计的嵌入方法,它的主要思想是将三元组的得分映射为置信度,并将其与真实置信度比较作损失。但是UKGE遵循封闭世界假设,将未出现的三元组均视为负样本;基于DisMult的嵌入方式,让其无法扩展到别的嵌入方式,使用概率软逻辑来构造新的训练样本的方式需要领域知识和较大的人工成本。PASSLEAF针对UKGE存在的这些问题设计了优化方式,以改善表现。PASSLEAF由两部分组成,置信度预测模型和包含自动生成含有置信度负样本的半监督模型,其中置信度预测模型可以使用不同嵌入方式的评分函数。此外PASSLEAF还构建一个样本池来收集不同时间步习得的知识。
贡献
本文的主要贡献有:
(1)提出可以处理不同嵌入方式评分函数的置信度预测模型
(2)提出半监督学习模型,改模型可以生成含有置信度的负样本
方法
总体框架如图1所示,主要由不确定性预测模型和基于池的半监督学习模型组成。不确定性预测模型使用知识嵌入的评分函数来预测三元组样本的置信度,半监督学习框架能更好地处理未出现过的三元组,而不是将其直接转换为置信度为0的负样本。样本池可以进一步提高前途学习的质量。
处理评分函数时,PASSLEAF先判断评分函数是semantic-based还是translational distance based,然后分别根据公式(1)和(5)映射为新的评分函数。
其中,
半监督样本也是通过替换训练集中三元组的头实体或者尾实体来构造,但是每个半监督样本都会计算置信度分数而不是置0。半监督样本的MSE损失如下:
实验
设置了两个实验任务,一个是置信度预测,给定三元组,模型对此三元组进行不确定性预测,另一个是尾实体预测,给定三元组的头实体和关系,预测尾实体,并根据置信度对候选尾实体进行排序。
表2 尾实体预测
表3 置信度预测
从实验结果来看,PASSLEAF在各项指标基本都超越了传统方法,与现有的各种知识图谱嵌入方法相比,PASSLEAF显著降低了假负样本的影响,样本池在不同数据中积累的经验是有效的,同时不确定性知识图谱嵌入方式在保留不确定性知识图谱结构方面具有良好性能。
总结
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。