论文解读 | 基于神经网络的知识推理

2018 年 3 月 8 日 PaperWeekly Britin

在碎片化阅读充斥眼球的时代，越来越少的人会去关注每篇论文背后的探索和思考。

在这个栏目里，你会快速 get 每篇精选论文的亮点和痛点，时刻紧跟 AI 前沿成果。

点击本文底部的「阅读原文」即刻加入社区，查看更多最新论文推荐。

这是 PaperDaily 的第 49 篇文章

本期推荐的论文笔记来自 PaperWeekly 社区用户 @britin。本文对基于 RNN 的从大规模知识库中进行推理进行了精度和可操作性的改善，提出的模型使用单个 RNN 就可以在多种 relation types 之间进行推理。

如果你对本文工作感兴趣，点击底部的阅读原文即可查看原论文。

关于作者：Britin，中科院物理学硕士，研究方向为自然语言处理和计算机视觉。

■ 论文 | Chains of Reasoning over Entities, Relations, and Text using Recurrent Neural Networks

■ 链接 | https://www.paperweekly.site/papers/1521

■ 源码 | https://rajarshd.github.io/ChainsofReasoning

论文动机

使用神经网络进行更为复杂的推理以增加 KB 中的条目正在引起广泛关注，这么做的一个重要原因是为了同时支持 look-up 类型的问答系统以及从 entity 和 relation 中间接推理到答案的问答系统。

KB 通常是非常不完整的，推理可以完善那些缺失的信息。见下图：

已有的方法大多是基于 symbolic 和 logical 的推理系统，比如 Universal Schema，它学习 relation type 的向量表示，包括结构化 KB 中的以及自然语言文本中的关系表示，其中的 matrix completion 机制可以进行简单的推理，但只能对单条 evidence 进行操作，比如从 microsoft-located-in-seattle 推理出 microsoft-HQ-in-seattle。

更高级的推理是从从句中得到包含三个或更多实体的 multi-hop 的知识库图路径。比如可以从 Melinda–spouse–Bill–chairman–Microsoft–HQ-in–Seattle 得到 Melinda–lives-in–Seattle。

这种推理通常用 path ranking algorithm 进行。RNN 沿着任意长度的路径组成了每条边关系的 embeddings，输出一个表示路径两端实体之间关系的向量表示。但是这些方法只能用于小型或人造数据库上，并且对于许多情况下来说还是不准确不实际。

本文提出的方法则可以对大型的多语义 KB 进行推理，本文对基于 RNN 的从大规模 KB 中进行推理进行了精度和可操作性的改善：

之前的工作只推理了 relation，没有推理组成路径上节点的 entities，本文对关系类型，实体和实体类型进行了联合学习和推理。
本文使用了 neural attention 机制对多条路径进行推理。
之前的方法最大的问题是要为每一个需要预测的 relation-type 单独训练模型。而本文只训练一个 RNN 来预测所有的 relation type。另外，由于训练的 multi-task 特性，共享了 RNN 参数，精度也显著提高了。

模型介绍

本文首先介绍了基本的 Path-RNN 的架构，本文的一切改进都是基于该模型的。

Path-RNN 的输入是两个实体之间的路径，输出推理出的二者之间的新关系。通过将关系之间的连接用 RNN 表示来进行推理。路径的表示是在处理完路径中所有的关系之后由 RNN 的最后的隐状态给出的。

架构如图所示，对每一条可能的路径用一个 RNN 来表示，将改路径每一个节点上的 entity 和连接的 relation 进行向量化后输入一个 RNN 单元，整条路径的最终向量表示就是 RNN 最后一个单元输出的 Hidden state，将改路径的向量表示和要预测的关系的向量表示求相似度，相似度最高的就是目标路径。

这个模型的缺点是每一个 relation type 都要训练一个新的模型，变量无法共享，数量巨大。另外只选择相似度最高的那一个路径可能会忽略掉其他路径所隐含的信息，还造成了计算浪费。

本文对这个模型做出的改进有：

本文共享了 relation type 的表示以及 RNN 的 composition matrices，这样同样的训练数据变量就大大减少了。训练模型的损失函数用的是 negative log-likelihood。
分别用 Top-k，average 和 LogSumExp 方法为每一条路径的相似度评分加上权重，这样就考虑了每一条路径包含的信息，而不仅仅是评分最高的那条。