导 语:
图谱 Embedding 在推荐、问答等下游任务中扮演着重要的角色,然而,目前的方法并没有很好的权衡模型复杂度与模型高效表达之间的关系。为了缓解这样的问题,本文专注于得分函数的设计,提出轻量级的模型框架 SEEK,并在公开数据集上验证有效。
背景与关键点
图谱 Embedding 在推荐、问答、自然语言理解等下游任务中扮演着重要的角色,然而目前存在的一些研究方法并没有很好的权衡模型复杂度与模型高效表达之间的关系,基于此,可以将目前的研究方法划分为两大类:
模型简单(复杂度低)却对信息的表达有限:以 TransE 和 DistMult 为代表,这类方法很容易应用到大规模的真实图谱中,但它们在捕获语义信息(如链接预测)方面却不尽人意。
具有高效的信息表达,但却引入过多的参数、模型复杂度高:以 TransH、TransR、TransD、Single DistMult、ConvE、InteractE 为典型代表。有研究表明,模型的高复杂性往往会导致较差的可伸缩性,由于真实图谱包含大量的三元组,这些模型很难在实践中应用。
基于上述描述,本文以权衡模型复杂度和高效信息表达为出发点,提出轻量级的 KGE 框架:SEEK,在不牺牲模型复杂度的情况下,实现了具有高度竞争力的信息表达能力。具体有以下三点:
充分的特征交互:将嵌入维度划分为多个分割段,并鼓励不同段之间的信息交互。这样,可以在不增加模型参数的情况下获得高度信息表达。
保留关系必要属性:不同关系的属性是非常重要的,特别是关系的对称性(symmetry)和反对称性(antisymmetry),在模型中考虑了这两种关系特性。
高效的得分函数:在设计得分函数时,结合 a 和 b,逐步设计出四种函数。在这些函数中,可以将以往的方法归为 SEEK 的一个特殊情况,所以 SEEK 又可称为统一的框架。
下图是 SEEK 与其他模型在各个方面的一个比较。
得分函数的Design
SEEK 在得分函数的设计中,迭代了四个版本,逐一看下。
f1: Multi-linear Dot Product:
下图是公式,具体是计算头实体 h,尾实体 t,关系 r 之间的点乘。这个是以下公式的基础。
下面是分成 2 段的一个例子
r 的下标为偶数的情况下,考虑了对称性,都是正(+),给定对称关系,替换头尾实体,也是一样的,这便考虑了对称关系。
r 的下标为奇数的情况下,要考虑 x + y 大于等于 2 的情况即为负(-),【图中的一个是不是写错了,还是我哪块理解错了】,这样给定反对称关系,替换头尾实体便是不同的,也就考虑了反对称关系。
f4: Reducing Computing Overheads
下面是分成 4 段的一个例子
r 的下标为偶数的情况下,考虑了对称性,Sxy 计算和 f3 一样,都是正(+),偶数的情况下 t 也没有变化。
r 的下标为奇数的情况下,考虑了反对称性,Sxy 计算和 f3 一样,x + y 大于等于 4 的时候为负,其余为正,t 的计算是 (x + y) % k 取余,替换尾实体,段之间的特征交互随着k的增大而增多。
实验效果
验证效果采用的数据集是 FB15K,DB100K 和 YAGO37,FB15K 是 Freebase 的子集,DB100K 来自 DBpedia,YAGO37 来自 YAGO3,具体数据如下:
采用的评测任务是链接预测,在三个数据集上面的效果如下图,其中 k 和 d 的设置在三个数据集上面都不一致,是采用网格搜索找到的最优超参数。
论文最后做了一个 k 变化的性能影响和时间消耗,具体如图。
伴随着 k 的增大,出现拐点,并不能够伴随 k 的增大而正比例增大。
时间是线性的,但是个人认为缺少对其他模型的一个时间消耗对比
结束语
论文代码:https://github.com/Wentao-Xu/SEEK
参考资料
SEEK: Segmented Embedding of Knowledge Graphs[J]. arXiv preprint arXiv:2005.00856, 2020.
相关注明
上述图片均来自于上述参考资料。
推荐阅读
超赞!百度词法分析工具 LAC 全面升级,2.0 版在线极速体验
征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)
文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化
斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用
太赞了!Springer面向公众开放电子书籍,附65本数学、编程、机器学习、深度学习、数据挖掘、数据科学等书籍链接及打包下载
数学之美中盛赞的 Michael Collins 教授,他的NLP课程要不要收藏?
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。
阅读至此了,点个在看吧👇