图结构数据是许多应用领域的组成部分,包括化学信息学、计算生物学、神经成像和社会网络分析。在过去的二十年中,人们提出了许多图的核函数,即图之间的核函数,来解决图之间的相似性评估问题,从而使分类和回归设置中进行预测成为可能。这篇手稿提供了对现有图内核、它们的应用、软件和数据资源的回顾,并对最先进的图内核进行了实证比较。
https://arxiv.org/abs/2011.03854
摘要:
在机器学习中常用的数据结构中,图可以说是最通用的一种。图允许将复杂对象建模为实体(节点)和这些实体(边)之间关系的集合,每个实体都可以通过元数据(如分类或矢量节点和边特征)进行注释。许多普遍存在的数据类型可以被理解为图形的特殊情况,包括非结构化矢量数据以及结构化数据类型,例如时间序列、图像、体积数据、点云或实体包等。最重要的是,许多应用程序受益于基于图形表示提供的额外灵活性。
本文共分为两部分: 第一部分是对常见图核的理论描述。在第2章简要介绍了图理论和内核之后,我们在第3章对相关的图内核进行了详细的描述、类型和分析。我们将详细介绍不同内核之间的关系,并简要介绍它们对某些类型数据的适用性。第4章的第二部分着重于对图核的大规模经验评估,以及对基准数据集的理想属性和需求的描述。在第5章中,我们概述了图核的未来趋势和面临的挑战,以此来结束我们的综述。