【佐治亚理工学院博士论文】《基于图神经网络的知识推理》

推理在人类历史的各个时期都被采用，至少从两千年前就开始研究，可以追溯到著名的古希腊哲学家亚里士多德，他展示了形式逻辑推理的原理[1]。人工智能（AI）的长期目标之一是建立能够对其周围环境进行推理的系统。从传统的专家系统到现代机器学习和深度学习驱动的系统，研究人员在为各种任务建立智能系统方面做出了不懈的努力和巨大的进展。

在这篇论文中，我们对知识推理感兴趣，它要求智能系统根据输入或现有的知识来推断新的知识[2]。知识推理是从现有的事实和规则中得出结论的过程[3]，这需要一系列的能力，包括但不限于理解概念，应用逻辑，以及基于现有知识的校准或验证架构[4]。随着通信技术和移动设备的爆炸性增长，今天人类的大部分集体知识都驻留在互联网上，以非结构化和半结构化的形式存在，如文本、表格、图像、视频等。如果没有搜索引擎和问题回答系统等智能系统的帮助，人类要想浏览巨大的互联网知识是非常困难的。为了满足各种信息需求，在本论文中，我们开发了对结构化和非结构化数据进行知识推理的方法。

对于结构化数据，由于现有的大规模知识库将百科知识存储在图结构中，如Freebase[5]、NELL[6]和Wikidata[7]，我们可以通过查询知识库有效地查询感兴趣的知识。

在这篇论文中，我们研究了如何用图嵌入技术对知识图进行多跳推理。我们还研究了如何在一个一致的概率框架内进行符号推理，这可以应用于知识完成任务，根据知图谱中的现有事实推断出新的知识。

尽管做出了最大的努力，现有的知识库只能覆盖人类知识的一小部分。人类的许多知识在本质上很难用任何允许的知识库模式进行编码，如常识和程序性知识[8]。事实上，绝大多数的人类知识只能存储在非结构化文本中。为了对非结构化文本进行知识推理，在本论文中，我们利用大规模预训练语言模型（如BERT[9]，RoBERTa[10]，ALBERT[11]等）的最新进展来产生高质量的上下文文本编码，同时利用图神经网络在多个文档中传播信息。在图神经网络的帮助下，我们还开发了一种用于数字问题回答任务的方法，这是一个具有挑战性的开放问题，需要对文本段落进行数字推理。

在这篇论文中，我们研究了一个假设，即图神经网络可以帮助提高各种知识推理任务的性能，包括知识图谱的完成、知识感知问题的回答、开放域问题的回答等等。更具体地说，本论文试图回答以下研究问题：

1.如何在知识图谱上进行多跳推理？我们应该如何利用图神经网络来有效地学习图感知的表示？以及，如何系统地处理人类问题中的噪音？

2.如何在一个一致的概率框架中结合深度学习和符号推理？如何使推理对大规模的知识图谱高效且可扩展？我们能否在表示能力和模型的简单性之间取得平衡？

3.图形神经网络对于知识感知的QA任务的推理模式是什么？那些精心设计的GNN模块真的能完成复杂的推理过程吗？它们是不够复杂还是过于复杂？我们能不能设计一个更简单但有效的模型来达到类似的性能？

4.如何建立一个能够对多个检索到的文档进行推理的开放域问题回答系统？如何有效地对检索到的文档进行排序和过滤，以减少下游的答案预测模块的噪音？如何在多个检索到的文档中传播和汇集信息？

5.如何回答那些需要对文本段落进行数字推理的问题？如何使预先训练好的语言模型能够进行数字推理？

在接下来的章节中，我们对上述研究问题进行了探讨，发现图神经网络可以作为一个强大的工具，用于结构化和非结构化知识源的各种知识推理任务。在基于结构化图形的知识源上，我们在图结构的基础上建立图神经网络，为下游推理任务捕获拓扑信息。在基于非结构化文本的知识源上，我们首先识别图结构信息，如实体共现和实体编号绑定，然后采用图神经网络对构建的图进行推理，与预训练的语言模型一起处理知识源的非结构化部分。

如上所述，知识图谱并不总是可以用于各种领域的知识推理任务。即使我们能够获得现有的知识图谱作为知识源，它们也可能来自于自动知识提取（如Wikidata[7]和ConceptNet[12]），并有可能引入大量的噪音。因此，在本论文中，我们从建立能够处理噪音的强大推理框架开始。我们建立了一个端到端的可训练的QA框架，以避免级联错误；我们还设计了一个概率逻辑推理框架，利用一阶逻辑规则来调节知识图谱中的噪音。由于知识图谱的低覆盖率问题，我们在本论文的后半部分继续探索基于文本的知识推理。我们建立了开放领域的质量保证框架，只需要大规模的文本语料库，如维基百科作为知识源。此外，我们还研究了如何从文本段落中提取数字知识图谱，然后在构建的图之上进行数字推理。

1.1 贡献

本论文的主要贡献如下。

知识图谱上的多跳问题回答（第三章）。对于复杂的信息需求，许多人的问题需要在知识图谱上进行多跳知识推理。同时，当人们提出问题时，他们的表达通常是有噪声的（例如，文本中的错别字，或发音的变化），这对问题回答（QA）系统来说，在知识图谱中匹配那些提到的实体是非难事。为了应对这些挑战，我们提出了一个端到端的变异学习框架，它可以处理问题中的噪音，并同时学习进行多跳推理。我们还得出了一系列新的基准数据集，包括多跳推理的问题，由神经翻译模型解析的问题，以及人声中的问题。本章内容出现在AAAI 2018的论文集中[13]。

知识图谱的概率逻辑推理（第四章）。作为一个优雅而强大的工具，马尔科夫逻辑网络（MLN）成功地结合了逻辑规则和概率图模型，可以解决许多知识图的推理问题。然而，MLN推理的计算量很大，使得MLN的工业规模应用非常困难。近年来，图神经网络（GNNs）已经成为解决大规模图问题的高效工具。然而，GNN并没有明确地将先验逻辑规则纳入模型，而且可能需要许多标记的例子来完成目标任务。我们探索了MLN和GNN的结合，并将图神经网络用于MLN的变异推理。本章的内容出现在ICLR 2020的论文集中[14]。

图神经网络的知识推理模式（第五章）。为了接近人类复杂的推理过程，最先进的质量保证系统通常使用精心设计的基于图神经网络（GNNs）的模块来进行知识图谱（KGs）的推理。然而，关于这些基于GNN的模块的推理功能，许多问题仍然没有解决。这些基于GNN的模块真的能进行复杂的推理过程吗？对于质量保证来说，它们是不够复杂还是过于复杂？为了打开GNN的黑匣子并研究这些问题，我们剖析了最先进的用于质量保证的GNN模块并分析了它们的推理能力。我们发现，即使是一个非常简单的图形神经计数器也能在流行的QA基准数据集上胜过所有现有的GNN模块。我们的工作揭示了现有的知识感知型GNN模块可能只进行一些简单的推理，如计数。为知识驱动的质量保证建立全面的推理模块仍然是一个具有挑战性的开放问题。本章内容已提交给ICLR 2022，目前正在审核中。

多文档的开放域问题回答（第6章）。作为一个实际的应用，开放域的质量保证需要检索多个支持性文件。文档检索过程中往往会产生更多的相关但不支持的文档，这就抑制了下游的噪声敏感的答案预测模块。为了应对这一挑战，我们开发了一种方法来迭代检索、重新排序和过滤文档，并自适应地确定何时停止检索过程。重排文档是一个关键步骤，但由于问题和每个检索到的文档都是串联的，所以非常耗时。因此，我们提出了一个解耦的上下文编码框架，它有双重的BERT模型：一个在线BERT，只对问题进行一次编码；一个离线BERT，对所有的文档进行预编码并缓存其编码。本章内容出现在SIGIR 2020[15]和SIGIR 2021[16]的论文集中。

文本段落上的数字问题回答（第7章）。对文本段落的数字推理，如加法、减法、分类和计数，是一项具有挑战性的机器阅读理解任务，因为它需要自然语言理解和算术计算。我们试图使预先训练好的语言模型，如BERT，在图神经网络的帮助下进行数字推理。更具体地说，我们为这种推理所需的段落和问题的上下文提出了一个异质图表示，并设计了一个问题定向图注意网络来驱动所构建的异质图上的多步骤数字推理。本章内容出现在EMNLP 2020的论文集中[17]。

1.2 论文大纲

我们首先在第二章中对相关工作进行了概述，作为本论文的背景。接下来的5章（三-七章）分为两部分。第一部分探讨了结构化数据的知识推理，包括多跳问题回答（第三章）和概率逻辑推理（第四章），这两部分都是在现有的知识图上工作。然后，我们研究图神经网络如何为知识意识的问题回答任务进行推理（第五章）。第二部分将重点转向非结构化数据的知识推理，包括开放领域的问题回答（第六章）和数字问题回答（第七章），两者都是在非结构化文本上工作。我们在第八章中总结了论文并讨论了未来的研究方向。