慕尼黑大学LMU博士论文「自然语言文本神经网络信息提取」240页pdf

2020 年 1 月 13 日 专知

导读

本文是慕尼黑大学数学、信息学及统计学院的博士生Pankaj Gupta的博士学位论文-自然语言文本神经网络信息提取，主要研究两个NLP任务：关系提取和主题建模。本文将神经网络和主题模型两种互补的学习范式结合在一个神经复合模型中，使我们能够通过主题模型在文档集合中共同学习主题结构，并通过语言模型在句子中共同学习单词关系。

作者 | Pankaj Gupta

编译 | Xiaowen

https://edoc.ub.uni-muenchen.de/24953/

慕尼黑大学自19世纪以来便是德国和欧洲最具声望大学之一，也是德国精英大学、U15大学联盟和欧洲研究型大学联盟成员，其社会科学、人文科学、物理，化学，生命科学，医学，数学等领域均在国际上享有盛名。本文是慕尼黑大学数学、信息学及统计学院的博士生Pankaj Gupta的博士学位论文。

自然语言处理（Natural language processing，NLP）涉及构建计算技术，允许计算机自动分析和有意义地表示人类语言 。随着数字时代数据的指数增长，基于NLP的系统的出现使我们能够通过广泛的应用程序，如网络搜索引擎、语音助理等，轻松地访问相关信息。为了实现这一目标，几十年来的一项长期研究一直集中在NLP和机器学习交叉的技术上。

近年来，深度学习技术利用了人工神经网络（ANNs）的表现力，在广泛的NLP任务中取得了最先进的性能。深度神经网络（DNNs）可以从输入数据中自动提取复杂的特征，从而为手工特征工程提供了一种替代方法。除了ANN之外，概率图形模型（PGMs）、图论和概率方法的耦合还具有描述系统随机变量之间因果结构的能力，并捕捉到不确定性的原则概念。考虑到DNNs和PGMs的特点，它们被有利地结合起来建立强大的神经模型，以了解数据的潜在复杂性。

传统的基于机器学习的NLP系统采用了浅层计算方法（如SVM或Logistic回归），并依赖于手工特征，这类方法耗时、复杂且往往是不够完整的。基于深度学习和神经网络的方法最近在机器翻译、文本分类、命名识别、关系提取、文本相似性等NLP任务上取得了较好的效果。这些神经模型可以从训练数据中自动提取有效的特征表示。

本文主要研究两个NLP任务：关系提取和主题建模。前者的目的是识别句子或文档中实体或名词之间的语义关系。成功地提取语义关系有助于构建结构化知识库，在网络搜索、问答、推荐引擎等下游NLP应用领域很有用。另一方面，主题建模的任务旨在理解文档集合中的主题结构。主题建模是一种流行的文本挖掘工具，它可以自动分析大量的文档集合，并在不实际阅读的情况下理解主题语义。主题建模分别生成用于文档理解和信息检索的Word集群（即主题）和文档表示。

本质上，关系提取和主题建模主要基于从文本中学习到的表示的质量。在本文中，我们提出了特定于任务的学习表示神经模型，并分别在监督和非监督机器学习范式领域进行关系提取和主题建模任务。更具体地说，我们在开发NLP任务的神经模型方面做出了以下贡献：

神经关系提取 ：首先，我们提出了一种新的基于递归神经网络的table-filling体系结构，以便在句子中联合执行实体和关系提取。然后，我们进一步扩展了跨句子边界实体之间关系的提取范围，并提出了一种新的基于依赖关系的神经网络体系结构。这两个贡献在于机器学习的监督范式。此外，我们还在构建一个受缺乏标记数据约束的鲁棒关系提取器方面做出了贡献，其中我们提出了一种新的弱监督引导技术。考虑到这些贡献，我们进一步探索了递归神经网络的可解释性，以解释它们对关系提取的预测。
神经主题建模 ：除了有监督神经体系结构外，我们还开发了无监督神经模型，以学习主题建模框架中有意义的文档表示。首先，我们提出了一种新的动态主题模型，它捕获了随着时间的推移的主题。接下来，我们在不考虑时间依赖性的情况下建立了静态主题模型，其中我们提出了神经主题建模体系结构，这些体系结构也利用外部知识，即Word嵌入来解决数据稀疏性。此外，我们还开发了神经主题模型，其中包含了使用单词嵌入和来自许多来源的潜在主题的知识迁移。最后，我们通过引入语言结构（如语序、局部句法和语义信息等）来改进神经主题建模。它处理传统主题模型中的词袋问题。本节中提出的神经NLP模型是基于PGMs、深度学习和ANN交叉技术。

在这里，神经关系提取的任务使用神经网络来学习通常在句子级别上的表示，而不访问更广泛的文档上下文。然而，主题模型可以访问跨文档的统计信息。因此，我们将两种互补的学习范式结合在一个神经复合模型中是有利的，它由一个神经主题和一个神经语言模型组成，使我们能够通过主题模型在文档集合中共同学习主题结构，并通过语言模型在句子中共同学习单词关系。

总的来说，我们在本论文中的研究贡献扩展了基于NLP的系统，用于关系提取和主题建模任务，同时具有最先进的性能。