本文研究了超图在捕获多模态数据集中对象之间的高阶关系方面的潜力。这些关系通常用图中的成对连接来表示。因此,为了释放多模态数据集中关系信息的全部潜力,本文提出了几种用于捕获和学习高阶关系的几何深度学习方法。从幼儿到老年,人类通过对对象的分析,通过对象之间形成的心理关系来推断知识,从而获得和修正对世界的认识。对象分析的基础是感官输入,而关系是通过将这些输入上下文化而形成的。我们可以通过与之相关的原始感官数据(通常称为其内容)对物体进行推理,并将其与预先存在的知识表示或其他感官输入联系起来。这样做,我们创建了一个场景,一个活动或事件的理解。例如,一个从未见过“a house boat”或“a white peacock”的人,只要简单地解释每个单词的内容并形成它们之间的关系,就可以很容易地想象出这些组合。因此,对于进行任何推理,结合原始感官数据及其关系的结构性理解是至关重要的。
**关联对象的想法使我们通常假设关系是成对的,这就是我们在机器中通常表示关系的方式,即使用图。**图是一种数据结构,描述了一组对象(以节点表示)和它们的成对关系(以边表示)。例如,两个个体之间的简单金融交易可以表示为代表这些个体的两个节点之间的边。图已经成为最普遍的数据结构,用于表示关系并使用它们来发现数据集合中的相关信息。这是因为它们能够将节点级别的信息与底层的节点间关系结合起来。然而,在现实世界中,仅使用成对关系进行推理通常是不够的。考虑一个简单的视觉场景,“一个由椅子、桌子、人和人体解剖图组成的房间”。在这种情况下,利用人-椅子或人-办公桌之间的成对关系准确地对人做出哪怕是简单的推断都是不太可能的。但是,如果我们把所有对象都纳入其中,分析人-椅-桌与人体解剖图的群体关系,就可以对人是医生,房间是诊所做出公正的判断。这些群体关系被称为高阶关系——一次涉及两个以上的对象——对人类获得洞见至关重要。高阶关系在许多领域都很常见,例如医学(例如疾病/症状共存)、药理学(例如化学反应)、文献计量学(例如合作研究人员)、人员分析(例如一个团队)和社交网络(例如用户群和其中的帖子)。这些关系捕获了一组对象,其中每个对象可以表现出不同的属性,并且高阶关系可以随时间动态变化。因此,使用图将现实世界数据集中的关系表示为成对连接,在捕捉复杂信息方面不是最优的。使用高阶关系可以增强数据结构的表示能力。
**就像人类利用高阶关系来理解世界一样,机器也应该能够利用它们进行更好的推理。然而,如上所述,用图来建模高阶关系会导致信息丢失。**这种成对关系不能表示对象之间所有的高阶关系,也不能正确地捕捉信息的集体流动。使用超图可以更好地表示相交的高阶关系集合。超图是一种类似图的结构,它允许边(称为“超边”或“超链接”)跨越两个以上的节点。在超图中存在两种关系:超边内节点间的组内关系和超边上节点间的组间关系。为了更好地理解、学习和推断这种关系,本文提出了超图表示学习的新方法。介绍了一系列用于在超图上构造基于深度神经网络模型的表示和计算的方法。所提出的超图表示最终允许从由复杂高阶关系组成的多模态数据中学习改进泛化。本文对超图上的表示学习进行了广泛的研究。试图同时了解存储在节点上作为特征的对象的内容,以及用超边表示的对象之间的高阶关系。重点是开发超图学习框架,可以捕捉动态演变的真实世界数据集上的群体关系。
本文试图回答以下主要研究问题:**如何使用超图学习高阶关系?**2007年Zhou等人开始致力于开发超图的机器学习算法[206]。他们将最初在无向图上操作的谱聚类方法推广到超图,并进一步发展了超图嵌入和分类算法。几何深度学习领域的最新进展[30]提出了基于图结构数据的节点分类[91]、链路预测[200]或图分类[202]任务的形式。大多数早期方法不能推广到学习高阶关系的概述问题。本文主张引入和设计深度学习模型,可以准确地学习超图表示的数据集中的高阶关系。设计这样一种学习算法的一些主要挑战包括从复杂的超图结构中提取关系信息,将基于内容的信息与超图结构相结合,多模态的可扩展性,对真实世界数据集动态特性的适应性,以及模型跨多个数据域的泛化能力。