【博士论文】自然语言处理的神经图嵌入方法，Neural Graph Embedding methods for Natural Language Processing

论文摘要：

图无处不在，从引文和社交网络到知识图谱(KGs)。它们是最富表现力的数据结构之一，已被用于建模各种问题。知识图谱是图中事实的结构化表示，其中节点表示实体，边表示实体之间的关系。最近的研究已经开发出几种大型知识图谱;例如DBpedia、YAGO、NELL和Freebase。然而，它们都是稀疏的，每个实体只有很少的事实。例如，每个实体只包含1.34个事实。在论文的第一部分，我们提出了缓解这一问题的三个解决方案:(1)KG规范化，即(2)关联提取，它涉及到从非结构化文本中提取实体之间的语义关系的自动化过程;(3)链接预测，它包括基于KG中的已知事实推断缺失的事实。KG的规范化,我们建议CESI(规范化使用嵌入和边信息),一个新颖的方法执行规范化学习嵌入开放KG。KG嵌入的方法扩展了最新进展将相关NP和关系词信息原则的方式。对于关系提取，我们提出了一种远程监督神经关系提取方法，该方法利用KGs中的附加边信息来改进关系提取。最后，对于链路预测，我们提出了扩展ConvE的InteractE，这是一种基于卷积神经网络的链路预测方法，通过三个关键思想:特征置换、新颖的特征重塑和循环卷积来增加特征交互的次数。通过对多个数据集的大量实验，验证了所提方法的有效性。

传统的神经网络如卷积网络和递归神经网络在处理欧几里得数据时受到限制。然而，在自然语言处理(NLP)中图形是很突出的。最近，图卷积网络(Graph Convolutional Networks, GCNs)被提出来解决这一缺点，并成功地应用于多个问题。在论文的第二部分，我们利用GCNs来解决文档时间戳问题，它是文档检索和摘要等任务的重要组成部分。

为此，我们提出利用GCNs联合开发文档语法和时态图结构的NeuralDater，以获得该问题的最新性能。提出了一种灵活的基于图卷积的词嵌入学习方法——SynGCN，该方法利用词的依赖上下文而不是线性上下文来学习更有意义的词嵌入。在论文的第三部分，我们讨论了现有GCN模型的两个局限性，即(1)标准的邻域聚合方案对影响目标节点表示的节点数量没有限制。这导致了中心节点的噪声表示，中心节点在几个跃点中几乎覆盖了整个图。为了解决这个缺点，我们提出了ConfGCN(基于信任的GCN)，它通过估计信任来确定聚合过程中一个节点对另一个节点的重要性，从而限制其影响邻居。(2)现有的GCN模型大多局限于处理无向图。然而，更一般和更普遍的一类图是关系图，其中每条边都有与之关联的标签和方向。现有的处理此类图的方法存在参数过多的问题，并且仅限于学习节点的表示。我们提出了一种新的图卷积框架CompGCN，它将实体和关系共同嵌入到一个关系图中。CompGCN是参数有效的，并且可以根据关系的数量进行扩展。它利用了来自KG嵌入技术的各种实体-关系组合操作，并在节点分类、链接预测和图分类任务上取得了明显的优势结果。

成为VIP会员查看完整内容