ICML 2022 | 基于随机注意力机制的可解释可泛化图学习

会员服务 ·

ICML 2022 | 基于随机注意力机制的可解释可泛化图学习

2022 年 8 月 10 日 PaperWeekly

©作者 | 谢彪

单位 | 重庆大学

研究方向 | 联邦学习、图神经网络

论文标题：

Interpretable and Generalizable Graph Learning via Stochastic Attention Mechanism

论文链接：

https://proceedings.mlr.press/v162/miao22a.html

代码链接：

https://github.com/Graph-COM/GSAT

内容简介

图学习模型广泛应用于科学领域，例如物理学（Bapst et al., 2020）和生物化学（Jumper et al., 2021）。对于科学家来说，相比于建立准确的预测模型，从诱发某些预测的数据中发现模式更为重要。最近，图神经网络（GNN）由于其强大的表达能力几乎成为了主流的图学习模型。然而，它们的表现力通常建立在不规则图特征的高度非线性纠缠之上。因此，从 GNN 用于进行预测的数据中找出模式通常十分具有挑战性。

本文通过提出 Graph Stochastic Attention（GSAT）来迎接上述挑战，GSAT 是一种新颖的注意力机制，用于构建具有内在可解释性和良好泛化性的 GNN。GSAT 的基本原理源于信息瓶颈（IB）的概念（Tishby 等人，2000；Tishby & Zaslavsky，2015）。研究通过将随机性注入到注意力中来将注意力制定为 IB，以约束从输入图到预测的信息流（Shannon，1948）。与标签无关的图组件的这种随机性将在训练期间保持，而与标签相关的图组件的随机性可以自动减少。这种差异最终提供了模型解释。

本文的主要贡献如下：

首先，IB 原则将 GSAT 从先前方法采用的任何潜在的有偏见的假设中解放出来，例如检测图形模式的大小或连接性约束。GSAT 可以实现更好的解释。
其次，从 IB 的角度来看，所有事后解释方法都是次优的。它们基本上在没有任何信息控制的情况下优化模型，然后对信息控制执行单步投影，这会导致最终解释性能对预训练模型敏感。
第三，通过减少输入图中的信息，GSAT 可以证明在某些假设下可以去除训练数据中的虚假相关性，从而实现更好的泛化。
第四，如果提供预训练模型，GSAT 可能会进一步提高其解释和预测准确性。
在多个真实世界的数据集上进行实验，发现本文提出的模型优于现有方法。

2.4 方法介绍

GSAT 的架构如图 1 所示。对输入图进行编码并学习随机注意力（来自伯努利分布），随机丢弃边缘并获得扰动图。对进行编码以进行预测。GSAT 不限制的大小，而是注入随机性来限制信息。具有学习减少随机性的子图（的边）提供了解释。GSAT 是一个统一模型，对和都只采用一个 GNN。GSAT 既可以从头开始训练，也可以从预先训练的 GNN 预测器开始。

2.5 通过 GIB 进行图学习解释

对于图结构的不规则性，图学习模型往往要处理各种大小的输入图。关键子图模式也可能具有不同的大小并且非常不规则。受图信息瓶颈（GIB）原理（Wu et al., 2020; Yu et al., 2021）的启发，本文建议使用信息约束来选择标签相关的子图，即求解：

其中表示的子图集。GIB 不会施加任何潜在的有偏约束。相反，GIB 使用信息约束来选择仅从继承最具指示性信息的，通过最大化来预测标签。因此，提供了模型解释。

2.6 GIB 的随机注意力机制

GSAT 的目标为：

GSAT 是一个统一的模型，因为预测器和提取器除了最后一层之外共享了相同的 GNN 编码器。通过进行随机注意，通过进行预测，通过进行边缘分布控制。而GSAT 的可解释性本质上来自信息控制：GSAT 通过将注意力注入到中来减少输入图中的信息。

实验分析

实验的主要目的在于评估本文方法的可解释性和预测性能。将本文提出的方法与最先进的（SOTA）事后解释方法和固有可解释的模型进行比较。除此外还将其与几种不变学习方法进行比较，以证明 GSAT 消除虚假相关的能力。

数据集

Mutag（Debnath et al., 1991）：一个分子特性预测数据集。
BA-2Motifs（Luo et al., 2020）：一个带有二值图标签的合成数据集。
Spurious-Motif（Wu et al., 2022）：一个具有三个图类的合成数据集。每个类别都包含一个特定的主题，可以被视为基本事实的解释。
......

基线

可解释性的基线：将可解释性与事后方法 GNNExplainer、PGExplainer、GraphMas、固有可解释模型 DIR 和 IB 子图进行比较。
预测的基线：将预测性能与主干模型 GIN 和 PNA 以及固有可解释模型 DIR 和 IB-subgraph 进行比较。
不变学习的基线：将消除虚假相关性的能力与不变学习方法 IRM、V-REx 和 DIR 进行了比较。还包括由经验风险最小化（ERM）产生的基线结果。

如表 1 所示，本文的方法平均显着优于基线 9%↑，最高可达 20%↑。如果仅比较固有的可解释模型，则提升更为显着。此外，对于更小的方差，GSAT 还提供了比基线更稳定的解释。GSAT∗ 通过微调预训练模型通常可以进一步提高解释性能。

如表 2 所示，在训练数据中存在虚假相关性的 Spurious-Motif 数据集上，GIN+GSAT 显着优于主干 GIN。对于其他数据集，GIN+GSAT 可以获得可比较的结果，这与本文声称的 GSAT 提供解释而不损害预测的说法相吻合。

如表 4 所示。即使没有使用因果关系分析，GSAT 在去除虚假相关方面也要明显优于所有不变学习方法。

总结

图随机注意（GSAT）是一种新颖的注意力机制，用于构建可解释的图学习模型。GSAT 注入随机性来阻止与标签无关的信息，并利用随机性的减少来选择与标签相关的子图。这是受到信息瓶颈原理的启发。GSAT 具有许多变革性特征。例如，它消除了图学习解释中的稀疏性、连续性或其它可能有偏见的假设，而不会降低性能。它还可以消除虚假相关性，以更好地进行模型泛化。附加的，本文还从信息瓶颈的优化角度揭示了事后解释方法背后的潜在严重问题。