AAAI 2024 ｜ GCIL：因果视角下的图对比不变学习

题目： Graph Contrastive Invariant Learning from the Causal Perspective 作者：莫燕虎、王啸、范少华、石川 论文链接： http://www.shichuan.org/doc/169.pdf 论文代码: https://github.com/BUPT-GAMMA/GCIL

前言

图对比学习（Graph Contrastive Learning, GCL），通过自监督方式对比两个图的增广来学习节点的表示，近来受到了广泛关注[1,2]。虽然普遍认为GCL能学习到稳定的不变表示，但这种理解在实际并不总是适用。本文从因果关系的角度审视了GCL，并通过结构因果模型（SCM）的分析发现，传统GCL方法因图中的非因果信息而难以有效学习不变表示。为解决此问题，我们提出了一种新的GCL方法，引入谱图增广模拟对非因果变量的干预，并设计了不变性和独立性目标来精确捕捉因果变量。

介绍

图对比学习（GCL）通过比较图的增广来学习节点的表示，以支持后续的预测任务。尽管通常认为GCL能学习到稳定的表示，但是因果分析揭示，原始的图数据包含因果和非因果变量，但仅有因果变量与下游任务相关。传统GCL方法无法区分这两类变量，导致学到的表示既包含因果也包含非因果信息，这可能不利于预测任务。

分析

我们首先用结构因果模型（SCM）基于几个假设描述图的生成过程：(1) 原始图由因果变量和非因果变量集构成。(2) 仅对图及下游任务产生因果影响，而与下游任务无关。(3) 和相互独立，即扰动不会影响。在这些假设下，节点分类的SCM如图所示，其中表示节点标签。SCM中，虚线圈代表隐变量，实心圈代表观测变量。

基于上面的SCM来分析GCL，可以知道如果不区分两种变量，而直接利用得到的表征去做预测，模型对标签的预测如下所示：

其中h表示一个分类头。显然，由于公式中包含变量，当发生变化时，预测可能会发生变化，例如：

这显然是不合理的，因为两个表征中包含着对下游任务相同的有用信息，但它们的预测却不同。因此，在生成增广时，应在保持C不变，对S进行扰动，该过程可视为对S进行干预。因此，图对比学习应满足以下等式：

其中表示对非因果因素S的干预。该公式鼓励模型提取仅包含在因果变量C的信息并丢弃非因信息。此外,从图中可治，C可能会受到混杂因子的影响（即c1← 混淆因子→c2，其中c1、c2分别表示两个因果变量）。为了获得更有语义信息的表征，我们需要消除混淆因子的影响，因果变量之间应该相互独立，即：

其中和表示两个不同的因果变量。这个公式意味着C中不同因果变量之间相互独立，彼此之间不包含各自的信息。

模型

因果干预

根据上述的分析，我们需要生成满足以下条件的图增广：扰动非因果信息和保留因果信息。先前有关图谱增广的工作阐述了，一般的图增广应该满足：在两个对比增广中，高频振幅的差异应该大于低频振幅的差异。换句话说，最低频的信息可以近似地视为两个视图之间不变的信息。我们将图中的低频信息视为因果变量，将高频信息视为非因果变量。我们可以利用[3]中的谱图增广方式得到一个扰动后的邻接矩阵。接着我们再用随机数据增广得到两个视图，如下所示：

不变性目标

接着，为了让模型捕获两个增光的节点表征一致的信息。我们假设表征中的每个维度都服从高斯分布，并且我们提出了一个不变性目标，鼓励表征在维度上保持不变，学习目标可以表述如下：其中分别表示两个表征矩s阵的维，表示计算标准差的函数。第一项促使两个表征矩阵的均值在同一维度上相等，第二项促使标准差接近λ。

独立性目标

由于混淆因子可能导致不同的因果变量之间相关，使得模型得到表征信息较少。为了缓解这个问题，我们提出了一个独立性目标减轻因果变量之间的相关性。特别地，我们使用HSIC来衡量变量之间的独立性，并采用了线形核函数作为HSIC中的核函数，因此我们需要最小化下面这个公式：我们进一步按维度对表征矩阵进行归一化，表示归一化后的节点表征。注意到因此可以转化成。用表示归一化前第个维度的标准差。则我们的优化目标可以写出下面的形式：

实验

性能实验

我们评估使用了五个节点分类数据集：Cora, Citeseer, Pubmed, Wiki-CS, 和 Flickr。比较了我们的方法GCIL与半监督和自监督的多个方法。实验结果显示，GCIL在所有数据集上均表现优异，超越了大多数自监督方法，并在除Flickr外的数据集上超过了半监督方法。尤其在Cora、Citeseer和Pubmed上达到最佳性能，Wiki-CS上的Macro-F1也是最高的，Micro-F1次之。Flickr上，GCN表现最好，但我们的方法在Micro-F1上领先所有自监督方法。

消融实验

我们探究了数据增强、不变性和独立性目标对方法的影响。结果显示，不变性目标最关键，说明一致性的捕捉对编码节点信息至关重要。去除独立性目标降低性能，表明维度独立性的提升有助于学习更好的表征。相比随机增强，我们使用的增强策略更有效。综合使用这三个策略取得了最佳性能。

参数试验

在Cora数据集上，我们分析了优化目标中的α、β、γ对结果的影响。结果显示：（1）α影响较小，性能随α增加先升后降；（2）适当增加β可提升性能，但过高则下降；（3）增加γ初期提升性能，但太高会降低性能。这表明需要合理调整参数以达到最佳效果。

结论和未来工作

在本文中，我们从因果角度研究图对比学习，发现以前的方法可能会丢弃原始图中包含的因果信息，从而阻止模型学习不变表示。为了学习不变的表示，我们从因果角度提出了一种新颖的 GCL 方法。我们首先采用了谱图增广来作为干预手段。然后，我们设计不变性目标和独立性目标，以鼓励模型提取图中包含的因果信息。实验结果表明，我们提出的 GCIL 在四个节点分类数据集上跨基线获得了很好的模型性能。未来可以尝试设计更加优越的因果图来分析图数据，另外HSIC的计算较为复杂，能否提出近似计算HSIC独立性的方式也是未来值得研究的问题。

主要参考文献：

[1] Chen, T.; Kornblith, S.; Norouzi, M.; and Hinton, G. 2020. A simple framework for contrastive learning of visual representations. In ICML, 1597–1607. [2] Velickovic, P.; Fedus, W.; Hamilton, W. L.; Li`o, P.; Bengio, Y.; and Hjelm, R. D. 2019. Deep Graph Infomax. ICLR. [3] Liu, N.; Wang, X.; Bo, D.; Shi, C.; and Pei, J. 2022a. Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum. In NeurIPS.

成为VIP会员查看完整内容