「图分类研究」最新2022综述

2022 年 2 月 13 日 专知

图分类研究最新综述论文

图数据广泛存在于现实世界中, 可以自然地表示复合对象及其元素之间的复杂关联. 对图数据的分类是一个非常重要且极具挑战的问题, 在生物/化学信息学等领域有许多关键应用, 如分子属性判断, 新药发现等. 但目前尚缺乏对于图分类研究的完整综述. 首先给出图分类问题的定义和该领域的挑战; 然后梳理分析了两类图分类方法—基于图相似度计算的图分类方法和基于图神经网络的图分类方法; 接着给出了图分类方法的评价指标、常用数据集和实验结果对比; 最后介绍了图分类常见的实际应用场景, 展望了图分类领域的未来研究方向并对全文进行总结.

http://www.jos.org.cn/jos/article/abstract/6323

图数据 (graph data) 广泛地存在于我们的生活中, 用于表示复合对象元素之间的复杂关系. 例如社交网络, 引文网络, 生物化学网络, 交通网络等. 不同于结构规则的欧式数据, 图数据的结构复杂, 蕴含着丰富的信息. 近年来,对图数据的研究是学术界的一个热点. 图上的研究问题包括节点分类[1,2] , 图分类[3,4] , 链路预测[5]等, 本文主要关注图分类问题. 给定一组图, 图分类的目标是学习图和对应类别标签的映射关系, 并预测未知图的类别标签. 图分类是一个重要的数据挖掘任务, 可以应用在很多领域, 例如化学信息学中, 通过对分子图进行分类来判断化合物分子的诱变性、毒性、抗癌活性等[6,7] ; 生物信息学中, 通过蛋白质网络分类判断蛋白质是不是酶, 是不是具有对某种疾病的治疗能力[8,9] . 从这个角度来看, 图分类研究具有非常重要的意义.

图分类的研究方法主要包括基于图核的方法, 基于图匹配的方法和基于图深度学习的方法. 目前已有一些针对图分类领域中某类特定方法的综述, 如图核方法综述[10,11] , 图相似度学习综述[12] . 但就我们所知, 当前还没有既包括传统方法又包括近年来快速发展的深度学习方法的图分类研究综述. 为了方便更多的研究人员, 本文梳理总结了图分类的各类研究方法和这些研究之间的相互关系. 本文将现有图分类方法总结为两大类, 第 1 类是基于相似度计算的图分类方法. 基于相似度计算的图分类是通过计算成对图的相似度对图进行分类, 包括图核方法和图匹配方法. 其中, 图核方法主要通过图核的定义来计算图的相似度, 是常见的传统图分类方法. 过去多年中已经有多种基于图核的分类方法被提出[13−15] , 它们共同的思想是将图分解为某种子结构, 通过对比不同图上的子结构来计算图的相似度进而进行图分类. 基于图匹配方法的图分类方法, 则是通过考虑一些跨图的因素来计算图之间的相似度分数进而对图分类. 早期的图分类问题主要关注于图核方法, 然而这种方法不够灵活且通常计算代价较大, 图的特征提取过程和图的分类是独立进行的, 因此无法针对具体任务进行优化.

第 2 类是基于图神经网络的图分类方法. 随着深度学习在图像, 文本等领域的成功, 研究人员开始关注用深度学习建模图数据. 基于深度学习的图数据建模方法也逐渐被应用于图分类问题[16−19] . 其中, 图神经网络应用于图分类问题时, 主要包括卷积算子和池化算子两个重要部分. 卷积算子利用结构和节点特征信息对图的特征进行提取, 池化算子对特征进行汇总得到整个图的表示用于分类. 本文从这两个角度对基于图卷积神经网络的图分类进行了总结分析. 尽管近期已有大量的基于图神经网络的方法应用于图分类任务, 但这个领域仍然存在许多问题和挑战, 例如领域内不同模型的实验设置不同导致的复现困难; 有些模型在特定数据集上表现较好, 但模型泛化能力有限; 此外, 图分类任务中对图结构信息的利用也是一个挑战. 本文从这个角度总结分析了图分类中存在的挑战和未来的研究方向.

本文第 1 节给出图分类问题定义并指出图分类领域中的问题和挑战. 第 2 节梳理了基于相似度计算的图分类方法, 其中包括基于图核方法的图分类和基于图匹配的图分类. 第 3 节介绍并分析了基于图神经网络的图分类方法. 第 4 节关注图分类方法的评价, 包括图分类的数据集, 评价指标和一些典型方法的效果对比分析. 第 5 节汇总了图分类在各个领域的应用场景并给出未来可能的研究趋势. 最后一节总结全文.

图分类问题挑战

图分类是图领域中一个极具挑战的任务, 当前图分类任务上仍然存在许多问题和难点, 主要包括以下几个方面.

(1) 图数据的复杂多样性生活中有大量的数据都可以用图这种数据结构进行表示. 例如社交网络, 化学分子结构, 生物蛋白质结构等. 每种类型的图中都包含不同的特征信息和结构信息. 这种多样的信息提高了图数据的分类难度. 此外, 图数据是非欧空间数据, 一般来说, 每个图的节点数不同, 图中节点连接方式不同, 每个节点的邻居个数也不同. 卷积、池化等在欧式数据中比较容易定义的操作, 很难直接迁移到图数据上. 图数据的复杂性和多样性, 为图数据的分类带来非常大的挑战.

(2) 图结构信息的有效建模作为非欧数据, 图的结构信息非常丰富. 图数据的结构信息是指图上节点之间的连接关系, 包括节点的一阶连接信息, 二阶信息以及高阶信息等[21] . 图上机器学习的最基础挑战之一就是找到一种可以表示、编码图结构的方法, 从而使得图结构信息可以被机器学习方法有效利用[22] . 图的结构信息对于图分类任务也至关重要. 例如, 在生物信息学等领域的数据集中, 图的属性标签与图上的某些结构模式有着必然的联系. 然而 Errica 等人[23]在实验中发现, 目前基于图神经网络的图分类方法在大部分数据集上并没能有效地利用到图的结构信息, 其对于图分类的预测性能甚至不如没有建模图结构信息的方法. 因此, 如何有效建模并合理利用图结构信息是图分类任务面临的一大重要挑战.

(3) 强表达能力且高效的模型构建目前基于信息传递的图神经网络方法都与 1-WL 图同构测试有着紧密的联系. Xu 等人[24]已经证明, 基于信息传递的图神经网络, 其表达能力的上界就是 1-WL (Weisfeiler-Lehman) 图同构测试. 近年也有一些对表达能力更强的基于高阶 WL 图同构测试的图神经网络的探索[25,26] . 但总的来说, WL 测试关注的是对图是否同构的判断. 一方面, 对图同构的判断还未被证明可以在多项式时间内完成, 通常计算复杂度较高. 另一方面, 在这种标准下, 并不能保证表达能力强的模型, 也就是对图是否同构的判断准确率高的模型, 在图分类问题上也表现得好[27] . 基于此, 探索合适的图分类模型表达能力的判断标准非常重要, 这也是对图分类本质的探索过程. 如何构建一个具有强表达能力且高效的模型是图分类问题中的一个关键挑战.

基于图相似度计算的图分类

在很多用图来表示数据的领域, 图之间相似度度量是关键问题之一[12] , 它可以进一步处理一些下游任务, 包括图分类, 图聚类和相似性搜索等. 本节关注利用图的相似度度量进行图分类的方法. 给定一组图, 基于相似度计算的图分类方法先通过图核或者图匹配的方法获得两个图之间的相似度度量, 然后利用机器学习方法, 根据已经得到的相似度度量对图进行分类. 这类方法隐含的假设是当两个图相似度较高时, 它们所属的类别也相同. 这类方法的关键是对图之间相似度的计算. 本节从相似度计算的角度, 将基于图相似度计算的图分类分为基于图核的方法和基于图匹配的方法, 分别进行介绍和分析.

基于图神经网络的图分类

前文介绍的图核方法很多年来都是图分类中的主导方法, 也取得了不错的分类效果[25] . 但由于这些方法通常依赖于一组固定特征, 其特征表示难以有效地适应于新的数据分布. 随着图深度学习的发展[46] , 一些神经网络方法开始用于解决图分类任务. 本节重点关注基于图神经网络的图分类方法, 这类方法通过端到端的方式进行模型的优化学习, 为图分类的准确率带来了较大的提升. 1−n 应用于图像分类任务的传统卷积神经网络, 主要包括卷积和池化两个操作, 这两个操作依赖于图像数据的结构规则性和平移不变性. 类比于图像分类任务, 图卷积神经网络应用于图分类问题时, 同样需要关注卷积和池化算子. 但不同于图像数据, 图数据是非欧空间数据, 同一个数据集中的每个图大小不同, 结构不一. 图中的每个节点也具有不同的局部结构, 为图分类中卷积算子和池化算子的设计带来了巨大的挑战. 给定一组图. 基于图神经网络的图分类方法通常先通过卷积的方式对这些图进行多次特征变换, 然后在此基础上进行池化操作, 将图的规模缩小. 这个过程可以重复多次, 最终得到整个图的表示, 从而进行分类. 本节就从图分类任务中的卷积算子和池化算子角度, 对基于图神经网络的图分类方法进行总结和分析. 利用图神经网络进行图分类的过程如图 5 所示. 其中, 可选的操作和模块用虚线表示. 环形箭头表示操作可以选择重复1-n 次

图分类方法评价

评价指标

图分类方法的评价指标主要包括分类准确率, 精准率, 召回率, F1 值和 AUC, 下面分别介绍

图分类的应用场景

(1) 化学信息学、生物信息学

传统的图分类主要应用于生物和化学领域. 它们天然地提供了很多图结构数据. 通过实验判断分子属性或蛋白质功能的方式代价较大, 因此机器学习的方法被广泛应用于生物化学信息学中. 在化学信息学中, 化合物被建模为图, 该领域常见的问题是判断化合物是否具有某些性质. 图分类方法已经被用于判断分子是否具有诱变性、抗癌活性、毒性等任务中[6,7] . 图分类在药物开发领域, 也有着非常重要的应用, 通过图机器学习的方法对药物的安全性等性质进行判断, 同时帮助化学家深入理解不断增长的药物发现数据[72] . 此外, 在多标签图分类场景下, 图分类方法也被用于计算机嗅觉领域中定量结构气味关系 (QSOR) 建模问题. 此时, 分子有一个或多个气味属性标签, 任务是预测分子的气味属性标签[20,68] . 同样的, 在生物信息学领域, 对蛋白质的探索[9]也是一项重要任务. 蛋白质的高级结构被建模为图. 常见的应用包括蛋白质属性判断, 如蛋白质是酶或者非酶, 通过蛋白质交互网络预测疾病[8]等.

(2) 社交网络分析

在社交网络分析领域, 最常见的数据之一是引用网络, 如第 4.1 节中描述的 COLLAB 数据集. 数据集中的图是研究人员的自我中心网络图, 也就是以研究人员为中心的引用关系图. 该场景下常见的分类任务是给定训练集中自我网络图的类别标签, 模型经训练后对测试集中自我网络图的类别进行判断.

(3) 计算机安全

图分类常被应用于计算机安全领域，例如软件剽窃的检测、恶意软件检测、软件漏洞检测[73−75]等重要安全问题. 该场景下的图一般是经过一些转化方式得到的控制图, 通过控制图结构判断是否存在安全问题. 如在漏洞检测中, 当无权访问源代码时, 我们需要分析二进制文件, 结合反汇编程序和代码分析器, 提取代码的控制流图. 控制流图以结构化的形式包含二进制函数中所有信息[43] . 控制流图中的节点表示汇编指令的基本块, 当两个基本块之间有跳转, 循环或者返回等控制流时, 对应节点之间有边, 图标签是有无漏洞. 当前, 主要是基于图相似度计算的图分类方法应用于计算机安全领域, 这些方法的假设是, 当未知控制流图的结构和已知有漏洞的控制流图相似度较高时, 判断该未知程序可能存在漏洞.

(4) 自然语言处理

图分类的方法应用于自然语言处理的第一步就是图的构建. 一种常见的方法是构建文本的单词共现图[76−78] , 节点表示单词等有意义的语言实体, 边表示在固定大小的滑动窗口中的共现关系. 与传统的词袋表示文本的方法相比, 图不仅建模了单词等实体, 也对他们之间的远距离依赖关系进行了建模. 图分类的方法在自然语言处理领域已经被应用于文档相似性计算, 文本分类的重要任务中. 例如, Nikolentzos 等人[77]用共现的方式将文档构建为无向无权图, 然后利用最短路径核计算文档的相似性, 取得了较好的效果. Peng 等人[76]将文档构建为词共现图, 然后用对单词图进行图卷积操作, 提取单词图特征进而对文档进行分类, 相比于传统的文本分类方法, 该模型取得了较大的提升.

(5) 计算机视觉

有些基于图核和基于图神经网络的方法被用于计算机视觉领域的图像分类, 语义分割, 点云图的形状分类等应用中[79−82] . 为了进行人体活动识别, Wu 等人[79]首先构建了 2 个图模型建模人体活动的空间特征和时序关系, 然后提出了上下文相关的图核来衡量图之间的相似性, 进而对人体活动进行识别. Wang 等人[80]在点云图上使用边卷积的方式提取几何特征, 然后利用全局池化的方式得到整个图的表示进而进行形状分类任务, 取得了较好的效果.

未来研究方向

虽然图分类问题已有很长的研究历史, 并在近年取得了较大的进步. 但该领域仍然有很多需要注意的问题和值得继续探索的研究方向.

(1) 图分类中图结构信息的充分利用

图中的结构信息, 即图上节点的连接信息, 如一阶连接信息, 二阶信息和其他高阶信息等, 对于图分类有着非常重要的作用, 例如生物信息数据集中, 某些结构模式与分子功能属性有着必然的联系. 但当前图分类领域中很多基于图神经网络的方法并没有有效地利用到图结构信息[23] , 例如, 在基于信息传递的图神经网络中, 节点之间的连接关系仅用来指导节点之间的信息传递, 并没有直接对结构信息建模. 对于在图分类中如何更好地利用结构信息和判断模型对结构的利用程度上, 我们并无定论. 对于图结构信息的合理利用和对结构利用程度的表示是图分类领域重要的研究方向.

(2) 图分类方法的可解释性

基于图神经网络的图分类方法的提出, 使得图的表示和分类过程可以统一地进行优化, 取得了较好的分类效果. 但是, 这类模型通常比较复杂且不够透明, 人类无法直观地理解它们的预测结果. 对图分类模型的预测能力进行直观解释, 探索这些模型中各个组件对图分类的作用不仅可以增加我们对 GNN 模型的信任, 促进 GNN 模型应用于涉及到公平, 隐私和安全的领域中, 也可以增进研究人员对于网络特征的理解, 进一步提升模型效果[27,83] . 对图卷积神经网络的可解释性已有一些初步的尝试[24,83] , 但当它们应用于图分类问题时的可解释性, 仍然值得进一步探索.

(3) 图分类模型表达能力的衡量

当前图分类模型主要是基于图神经网络的模型. 一方面, 基于图神经网络模型的表达能力都是用判断图是否同构的能力来衡量的[24,51] . 但我们并不能保证在这样的衡量标准下, 对图是否同构的区分能力在图分类任务中可以泛化得好[27] . 在图分类问题中, 模型表达能力的衡量方法是一个重要的需要考虑的问题. 另一方面, 由于基于神经网络的模型依赖于充足数据, 需要通过大量的数据进行训练. 而当前图分类领域的常见数据集通常规模较小, 不能很好地体现出方法的优势, 限制了基于图神经网络的模型的表示能力. 构建更好的图分类数据集成为亟待解决的问题.

(4) 图分类新技术

虽然已经有很多经典的图神经网络方法在图分类任务上取得了较好的效果, 但仍面临着标签数据获取昂贵、模型迁移能力不足等诸多挑战, 需要通过合理引入新技术来解决. 具体来说, 一方面, 图神经网络的训练过程需要大量的任务相关的标签数据, 标签数据的获取代价高昂[84] . 另一方面, 实际中, 有时我们需要具有迁移能力的模型应用于不同的场景中. 类比于自然语言处理和图像处理领域, 图上也可以通过先在数据丰富的任务上对模型预训练, 然后在目标任务上进行微调来解决这些问题. 目前已有一些图上预训练的初步尝试[84−86] , 未来图上的预训练仍是值得探索的问题. 此外, 当前图分类主要关注同质图, 而实际场景中有很多异质图存在, 已有的关于异质图的研究主要集中在节点分类问题[87,88]上, 未来, 关于异质图的分类也是值得关注的方向.

(5) 实验可复现性和学术社区的健康发展

在机器学习领域, 实验的可复现一直是一个非常关键的议题[23] . 当前用图神经网络处理图分类的工作中, 实验程序通常不够严格且很难复现. 不同方法中的实验设置也不尽相同, 使得我们很难横向的对不同方法进行比较. Errica 等人[23]对 5 个图分类模型在统一的评估框架下做了对比. 同样的数据划分和实验设置条件下, 用 10 折交叉验证的方法进行模型的评估和选择, 保证了实验的公平性. 未来图分类领域的工作, 应该延续这种做法, 详细地给出方法的实验设置, 方便公平对比和对问题的深入理解, 推进图分类学术社区的健康发展.

专知便捷查看