图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

2023 年 4 月 13 日 专知

宾夕法尼亚州立大学等学者最新《图反事实学习》综述，值得关注!

图结构数据在现实世界中应用广泛，例如社交网络、分子图以及交易网络等。图神经网络（GNNs）在图表示学习领域取得了显著成功，为各种下游任务带来了便捷。然而，GNN存在一些缺陷，如可解释性不足、容易从训练数据中继承偏差，以及无法对因果关系进行建模。最近，图反事实学习在缓解这些问题方面展现出了很好的效果。已经提出了各种图反事实学习方法，适用于反事实公平性、可解释性、链接预测等其他图相关应用。

为了推动这一有前景的研究方向，我们对图反事实学习论文进行了分类和全面回顾。根据研究问题的不同，我们将现有方法分为四类。对于每个类别，我们都提供了背景和激励示例、概括现有工作的通用框架，并进行了详细回顾。本文在图结构数据、反事实学习和现实世界应用的交叉领域指出了有希望的未来研究方向。

为了为未来研究提供全面的资源视角，我们整理了一组开源实现、公共数据集和常用评估指标。本综述旨在作为一个“一站式”资源，帮助读者建立对图反事实学习类别和当前资源的统一理解。我们还维护了一个论文和资源仓库，将持续更新仓库： https://github.com/TimeLovercc/Awesome-Graph-Causal-Learning。

1. 引言

图是一种无处不在的数据结构，也是一种表示对象和复杂交互的通用语言[64]。它们可以对广泛的现实世界系统进行建模，例如社交网络[167]、化合物[32]、知识图谱[226]和推荐系统[193]。例如，在社会网络中[171]，节点表示人，节点之间的边表示人之间的社会联系。在分子图中，节点对应原子，边表示原子之间的化学键，提供了化合物的结构表示，可用于药物发现或材料设计等任务[130,185]。图结构数据的普遍存在引起了研究人员对图分析和挖掘的广泛关注，各种方法被提出[194]。

网络表示[60,170]是图挖掘的一个基本任务，旨在学习节点或图的低维向量表示，以捕获节点或图的内在特征和结构信息。学习到的表示可以促进各种下游任务，如节点分类[88]，链路预测[220]，社区检测[158]和图分类[163]。神经网络在许多领域的表示学习中表现出了强大的能力，如计算机视觉[67]、自然语言处理[44]等。基于神经网络的方法也激发了图神经网络(GNNs)的出现和繁荣[88,110,206]。自图卷积网络[88]被提出以来，已有各种各样的GNN[28, 84, 89]变体。它们极大地推动了图学习方法的发展，并在许多图挖掘任务上取得了最先进的性能，例如节点分类[84]、链接预测[133]和图分类[134]。由于图学习方法的强大功能，它们已被成功应用于许多高风险决策场景，如药物发现[203]、假新闻检测[159]和金融分析[190]。

尽管现实世界带来了巨大的好处，但最近的研究表明，现有的图学习方法倾向于继承有偏数据集[36]的偏置模式，缺乏可解释性[37]，无法利用图数据中存储的丰富信息[228]。例如，在有偏差的数据集下，GNN很容易学习到不公平的分类器，例如，根据申请人的种族或其他敏感信息给予不同的决定[46,92]。这些问题严重阻碍了模型的信任，限制了图学习方法[40]在现实世界的应用。反事实学习提供了机会来减轻内在偏差[94]，使模型可解释[173]，并很好地利用数据中存储的信息[138]。反事实的概念来自因果推理的研究界[208]。反事实的目的是回答“在已知事实发生的情况下，会发生什么”。利用反事实进行学习并泛化到未见过的环境的能力，被认为是通用人工智能的一个重要组成部分。学习因果关系的主题在许多领域都得到了很好的研究，例如经济学[73]、教育[42]和医学[33]。要知道一个行为的因果效果，我们需要知道观察到的行为的事实结果和未观察到的行为的反事实结果。一个直接的方法是进行随机对照试验以获得反事实的结果。然而，在现实世界的环境中，我们只能访问观察到的事实数据，即观察到的行动及其相应的事实结果，这是学习因果关系的一个关键挑战[62]。幸运的是，信息技术的发展提供了丰富的数据源，我们可以利用这些数据源来发现数据中隐含的信息[79]。因此，核心问题是如何从观察数据[59]中获取反事实，以及如何使用反事实来辅助机器学习模型[79]。

图反事实学习是一个新兴的方向，历史很短[79]。然而，最近关于图反事实学习的工作显示出了巨大的潜力，可以克服上述在公平性[121]、解释性[25]等方面的挑战。在图1中，我们展示了一些图反事实学习的动机示例。具体来说，有了反事实学习，我们可以超越群体层面的公平定义，实现对每个个人的公平，就像在事实世界和反事实世界中一样[94]，其中个人属于不同的人口统计群体。如图1 (a)所示，反事实公平的目标是确保申请人和他的反事实对应对象(性别不同)收到相同的信用卡申请结果。对于图反事实解释，除了找到一个与预测高度相关的紧凑的子图[213]外，它的目的是找到一个合理的变化，以获得不同的结果[112]，这不仅可以用来回答为什么模型会给出这样的预测，还可以给出建议，以实现另一个期望的结果。如图1 (b)所示，在信用卡应用场景中[173]，当申请人被拒绝时，传统的解释可能是他们的“信用评分过低”。相反，反事实解释可以提供可行的建议，说明客户可以做出哪些最小的改变(例如，在交易关系中)来改变决策并最终获得批准。除了在公平性和可解释性方面的帮助外，研究界还利用反事实学习从反事实世界中提供额外的信息，例如，使用事实链接和反事实链接来帮助构建更强大的GNN[228]。如图1 (c)所示，两个朋友住在同一个小区。通过将它们放在不同的邻域，GNNs可以推断它们之间的反事实联系。这使GNN能够更深入地了解形成其关系的因果因素，同时减轻邻域因素的影响。考虑到图反事实学习的增长趋势和相关前置任务的多样性，迫切需要对图反事实学习的方法和应用进行系统的分类总结。

为填补这一空白，本文对蓬勃发展的图反事实学习领域进行了第一个全面的最新概述，提供了一些见解和潜在的未来方向，并创建了一个"一步停止"，收集了一组开源实现、公共数据集和常用的评估指标。本文的目标读者是想了解图反事实学习的一般机器学习研究人员，想了解图神经网络最新进展的图学习研究人员，以及想将图反事实学习推广到新应用或其他领域的领域专家。这项调研的核心贡献是:

第一次调研图反事实学习。据我们所知，本文调研是第一个回顾图的反事实学习技术。最相关的调研是关于因果推理[62,208]和因果机器学习[79]。迄今为止，图领域的因果学习还没有一个专门的、全面的综述。
全面的最新综述。回顾了深度学习、数据挖掘、计算机视觉、自然语言处理和人工智能领域有影响的国际会议和期刊上发表的最新图反事实学习技术，包括ICLR、NeurIPS、ICML、SIGKDD、WSDM、CIKM、WWW、ICDM、CVPR、NAACL、IJCAI、AAAI等。我们还包括其他领域的论文，如化学科学。
系统的分类和统一的框架。将现有工作系统地分为反事实公平、反事实解释、反事实链接预测和推荐以及应用。对于大多数类别，提供了统一的框架，在数学上形式化每个类别中的图反事实学习方法。该分类法的概述如图2所示。
资源的未来方向和“一步停止”。从调研结果中，我们指出了未来有希望的重要方向。还提供了一组开源实现、公共数据集和常用的评估指标，以促进社区的发展。我们维护一个存储库，其中包含图反事实学习的论文，我们将在存储库中不断更新这些论文
https://github.com/TimeLovercc/Awesome-Graph-CausalLearning。

与相关调研文章比较。表1突出了我们的调研与相关调研论文之间的差异。大多数现有调研主要关注一般因果推断[62,208]、反事实公平性[94]和反事实解释[173]，很少讨论图数据的研究进展。虽然其他图域调研解决了公平性[40]和可解释性[40,50]，但它们很少从因果或反事实学习的角度总结现有工作[140]。本文的调研首次全面概述了图反事实学习，提供了因果学习背景，回顾了公平性感知模型、可解释模型、链接预测、推荐系统、现实世界的应用和有前途的研究方向的图反事实学习技术。因此，我们的调查不同于现有的调查，可以支持这一重要的新兴领域的增长。这个调研的概述如图2所示。第2节定义了相关的概念，并给出了将在以下各节中使用的表示法。第3节和第4节分别描述了图数据上反事实公平性和反事实解释的统一框架。总结了有用的资源，包括评估指标和数据集。第5节回顾了反事实链接预测和反事实推荐的分类。第6节调查了图反事实学习在各个领域的实际应用。第7节指出了尚未解决的挑战和有希望的未来方向。第8节总结了这个调研。

2 . 图反事实公平性

在许多现实世界的应用中，由于社会或历史因素，训练数据可能包含人口统计学偏差。在此类数据上训练的机器学习模型可能会继承这些偏见并产生不公平的预测，如在信用卡决策任务中，模型可能表现出性别或种族偏见[27,121]。有偏见的预测可能会导致系统性歧视并破坏公众对机器学习模型的信任，这导致了人们对公平性感知的机器学习的兴趣越来越大[121]。Dai等人[40]强调，公平性问题在图中更严重，节点特征和图结构都可能导致偏差。由于许多现实世界的系统依赖于图神经网络，不公平的预测可能会产生严重的后果。研究人员提出了确保图学习公平性的方法[3,36,38,47,116]。然而，现有的公平概念主要是基于相关的，可能无法检测到统计异常，如辛普森悖论[118]。为了解决这个问题，反事实学习已经成为一种很有前途的方法，用于构建公平的机器学习模型，实现反事实的公平性[94,118]。反事实公平是基于这样一种想法:如果对个人的预测在反事实世界中保持不变，那么对个人的预测就是公平的，因为这个人属于不同的人口统计群体[94]。图上的反事实公平性正受到越来越多的关注[3,92,116,224]。在本节中，我们介绍图学习中的公平性问题和反事实公平性的背景，然后介绍图反事实公平性模型的一般框架及其细节。最后，用广泛使用的公平性评估指标和数据库作了总结。

3. 图反事实解释

深度神经网络(DNN)在各个领域都取得了显著的成功，如分子生物学[129]、社会网络[194]和金融系统[25]。然而，DNNs的黑盒特性阻碍了其[15]的广泛采用。透明和可解释的模型对于确保开发人员理解模型行为和潜在偏见，并获得用户信任至关重要，特别是在高风险的场景中[119]。GNN还面临可解释性的挑战，复杂和离散的图结构进一步加剧了这些挑战。因此，提高GNN的可解释性对于用户信任和进一步最大化GNN潜力至关重要[40,218,229]。例如，在疾病诊断中，GNNs可能使用患者数据、遗传学和社会联系来预测疾病的可能性。清晰的解释可以增进病人和医生之间的信任和理解。在药物发现中，GNN解释可以帮助发现有效的分子结构[23]。在开发其他DNN模型解释技术的同时，也开发了GNN的各种可解释性方法[216]。许多现有工作[114,213,216]旨在识别与预测结果高度相关的子图。然而，由于图结构复杂，这样的方法很可能得到与预测结果高度相关的虚假解释，而不是导致标签的关键子结构[230]。为了避免虚假解释，找到对预测有显著贡献的因果解释，研究人员建立了各种模型，以在图[2,11,113,130,164,169]上获得反事实解释。图反事实解释不是简单地找到与预测结果高度相关的子图，而是旨在识别对输入图的必要更改，以改变预测结果，这可以帮助过滤虚假解释。图4显示了突变预测结果的不同解释[140,169]。在致突变性预测任务中，图4 (a)中黑色突出显示的硝基苯结构是致突变性的主要原因，这是最真实的事实解释。图4 (b)中红色突出显示的边缘显示了通过事实解释方法得到的解释。解释模型往往包含一些主要原因之外的不希望的边缘，以给出更有信心的预测。这是因为，在数据集中，红色的边在硝基苯结构之外，与硝基苯结构具有很高的共现性。因此，模型倾向于认为这些边与突变性高度相关，从而导致潜在的误导性解释(虚假信息)。图4 (c)中的绿色虚线边作为突变预测的反事实解释。直觉认为，去除硝基苯结构中的边可能会导致诱变性的消失。因此，反事实解释可以帮助识别模型预测的最关键边缘，与基态硝基苯结构保持良好的对齐[140]。总而言之，通过专注于识别对输入图的必要更改，从而改变预测结果，反事实解释方法减轻了虚假解释的影响，并更好地与基本事实因果因素保持一致。因此，图上的反事实解释有望提高GNN[40]的可解释性和可信性，人们已经做出了许多努力。接下来，首先介绍图反事实解释的背景和定义。将现有工作总结为一个图反事实解释的一般框架，然后对现有方法进行详细审查[2,11,24,71,107,113,115,130,131,139,164,169]。最后，回顾了广泛使用的评价指标和数据集。

4 反事实链接预测与推荐

在上述章节中，我们主要关注GNN在节点分类和图分类中的反事实公平性和反事实解释。链接预测[93]是另一项重要的图挖掘任务，旨在预测图中缺失的链接。它被广泛应用于各种应用，如推荐系统[212]、知识图谱[226]和社交网络[171]。最近研究了反事实链接预测[228]，其目的是探索链接形成的根本原因，过滤掉虚假因素。推荐系统作为链接预测任务的一种特殊情况，也可以从去除虚假信息和依赖因果信息中获益。因此，反事实学习在链接预测任务[228]和推荐系统[29,105,125,182]中受到越来越多的关注。本节将全面回顾现有的基于图学习的反事实链接预测和反事实推荐工作。

专知便捷查看