【牛津大学博士论文】关系数据的学习和推理，243页pdf

2022 年 11 月 16 日 专知

关系数据在现代计算中无处不在，并驱动跨多个领域的几个关键应用程序，如信息检索、问题回答、推荐系统和药物发现。因此，人工智能(AI)的一个主要研究问题是建立以有效和可靠的方式利用关系数据的模型，同时注入相关的归纳偏差和对输入噪声的鲁棒性。近年来，图神经网络(GNNs)和浅节点嵌入模型等神经模型在关系结构的学习表示方面取得了重大突破。然而，这些系统的能力和局限性还没有被完全理解，在赋予这些模型可靠性保证、丰富它们的关系归纳偏差以及将它们应用于更具挑战性的问题设置方面仍存在一些挑战。在这篇论文中，我们研究了关系数据的学习和推理。更具体地说，我们从理论上和实证上分析了现有模型的性质和局限性，并提出了改进关系归纳偏差和表征能力的新方法。

https://ora.ox.ac.uk/objects/uuid:da7744ad-effd-4fc9-b7ab-a00b03a86a53

1. 引言

以神经网络为动力的深度学习系统已经在各种具有挑战性的任务上取得了突破性的成果，如计算机视觉[96]和机器翻译[160]。深度学习模型在最少人为干预的情况下从数据中学习模式，并在其训练集之外进行经验归纳。因此，在多个领域应用深度学习系统的兴趣越来越大。沿着这些思路，近年来一个突出的研究前沿是将深度学习应用到关系数据中。从根本上说，关系数据将信息表示为一组通过语义意义关系连接的实体。例如，可以将在线市场上的产品、卖家和用户表示为实体，并将交易描述为跨上述三种实体类型的三元关系，例如，Alice从Charlie那里购买了一个球。关系数据的一个流行的特例是图结构，其中关系最多是二进制的。在这种情况下，关系可以被视为定义(标记)图实体之间的边，这些实体本身构成了图节点。

关系表示非常通用，并且出现在各种应用程序领域中。例如，社交网络中的用户根据他们的互动(友谊、关注、点赞)成对连接，可以被视为一个图结构。这同样适用于引文网络中的论文[153,154]及其引文连接，以及分子，其中原子可以被视为实体，它们的键可以表示为二进制关系。事实上，关系数据封装了几个传统数据域。例如，图像是网格形状的图形的一种特殊情况，其中相邻的像素由一条边连接，序列是一系列实体，这些实体的边连接着连续的实体。鉴于关系数据的普遍存在和图结构的普遍存在，构建强大的关系机器学习模型是一个重要的研究问题，其分支涉及多个任务，如信息检索[182]、问题回答[20]、推荐系统[173]和药物发现[60]。广义上讲，机器学习任务可以分为三大类:

1. 节点级的任务。给定一个带有未标记或部分标记节点的输入图，节点级任务旨在预测节点属性，例如，对于没有预标记属性的节点，预测一个类或一个值。例如，在引用网络中，论文(输入图中的实体)具有内容特征，并且通过二元引用关系与其他论文相连，预测论文的主题就是一个节点分类任务。

2. Graph-level任务。给定一个输入图，图级任务寻求基于节点特征、边和整体输入图结构预测全局图属性，如类或值。这些任务在分子图中非常突出，包括几个图性质预测问题，如毒性分类和零点振动能(ZPVE)回归[140]。

3.Edge-level任务。给定一个输入图，边级任务旨在预测现有边的未知边属性，或者更常见的是，基于现有边和节点特征预测图中缺失的边。对于后一种情况，当输入图是单关系图时，该问题称为链接预测，如引用网络，当输入图是多关系图时，该问题称为知识图谱补全(KGC)。

在本文中，我们研究了关系数据(图结构和更一般的关系数据)的学习和推理，并提出了几个模型和框架，以理论分析和结果支持，以提高该领域模型的关系归纳偏差和表示能力。更具体地说，我们系统地研究现有模型，证明它们的理论属性和结果，并提出扩展和新模型，以(i)可证明地捕获和/或强加丰富的关系归纳偏差，(ii)更好地理解现有模型的表现力和表征局限性，以及(iii)将现有模型和方法扩展到与推理和推理相关的新颖的、具有挑战性的应用领域。