论文介绍
图神经网络 (GNNs) 模型依靠消息传递和特征转换函数来编码来自邻居的结构和特征信息,消息传递是沿着边传递邻居消息,特征转换是通过投影节点嵌入来提高模型的学习能力,但卷积层太多则会导致 GNNs 的性能降低。最近的研究指出这个问题来源于过平滑,也就是因为图结构上的递归邻域聚合导致节点表示变得难以区分。最近提出了图增强等模型来缓解过平滑,主要思想是避免过多的邻域信息,在每个卷积层都强化自身的特定节点特征。
相比于深层的 GNNs 模型,本文更加关注影响浅层 GNNs 性能的主要因素。因为从图 1(d) 中可以看到,当 GNNs 的深度增加达到 8 层时,节点分类精度就会迅速下降,但此时还没有达到过平滑的状态。而作者发现仅仅移除特征转换模块,即便有几十个卷积层,但 GNNs 依然可以稳定的执行。
作者通过大量实验提出,因为设计了不恰当的特征转换导致不稳定的前向归一化和后向梯度,最终导致了 GNNs 性能下降。如图 1(a) 和 (b)vanilla GNNs 有前向嵌入爆炸和后向梯度消失的问题,前向嵌入爆炸改变了层之间的内部嵌入分布,使模型训练效率低下,后向梯度消失阻碍了特征转换模块适应下游任务的优化。因此作者认为 vanilla 特征转换在前向和后向都破坏了模型的稳定,从而导致性能降低。
为了克服训练的不稳定性,本文提出了一种新的正交特征变换方法来保证特征变换的正交性,称为 Ortho-GConv,可以对现有的 GNNs 进行扩展,提升泛化能力。
Orthogonal Graph Neural Networks
论文链接:
https://arxiv.org/pdf/2109.11338.pdf
1. 提出了两个衡量前向推理和后向梯度稳定性的指标,从理论和实验证明了不稳定特征变换对浅层 GNNs 的影响;
2. 提出了正交图卷积,称为 Ortho-GConv,来实现特征变换的正交性,稳定 GNNs 的前向和后向信号;
3. 使用实验测试了 Ortho-GConv 的性能。
实验方法
给定一张无向图
,令
表示节点的特征矩阵,其中第
行是节点
对应的
维特征向量,邻接矩阵和度矩阵分别为
和
,记
和
是由自循环增广的邻接矩阵和度矩阵
,
表示归一化的邻接矩阵。
在第 1 层的前向推理可以定义为
:
,
其中
表示第 l 层的节点嵌入矩阵,
由X给出,
是例如 ReLU的非线性激活函数,
是线性变换矩阵。可知图卷积由两步组成,分别是基于矩阵
的空间邻域聚合和基于矩阵
的特征变换。
在没有对矩阵
适当约束的情况下,特征变换可以放大节点嵌入的量级,这种放大的幅度呈指数增长,从而导致前向节点嵌入的不确定性和随机性。为了量化节点嵌入在整个 GNN 模型中幅度放大,将信号放大率定义为:
较大表示在前向推理过程中,节点嵌入被过度放大,理想值应该为 1,保证嵌入幅度和层间信号分布相同。
作者从参数
的角度对梯度进行了分析,通过简化非线性激活函数可以得到
,含非线性和不含非线性的 GNNs具有类似的节点分类性能和学习曲线,简化模型可以更直观的理解后向梯度。给定 L 层的线性 GNNs 模型和特定的训练损失
层对参数
的梯度为:
为了在第I层更新参数
,最初始的梯度
由后面的 L-I 层进行平滑
。
在训练中产生损失,这样的平滑和变换会使大部分梯度近似于零,也就是后向梯度可能在最初几层后消失,这阻止了 GNNs 训练。为了研究梯度消失的影响,作者选择使用梯度范数
。
域聚合后的节点嵌入。正交权值
可以保留经过特征转换模块的信号的前向嵌入和后向梯度。文中列举了正交特征变换对稳定简化的 GNNs 的好处:1) 节点嵌入
和
的 F 范数保持一致,可以约束嵌入幅度,使
近似为 1;2)在特征转换时可以保持后向梯度范数稳定。
由于节点特征通常包含下游任务的关键信息,直观的正交初始化会加速训练过程向局部极小化,达到局部最优,损害模型的学习能力。即使在
严格正交的情况下,由于邻居聚合和非线性激活函数的影响,也无法保持连续层的嵌入稳定。在简化后的 GNNs 中,正交性只能得到
,
而不是严格等于非线性 GNNs 的连续层中的
。
因此作者提出了正交图卷积,从混合权值初始化、正交变换和正交正则化三个角度对正交性设计进行综合优化。
尽管正交初始化可以有效地训练神经网络,但快速收敛可能会迭代到局部最优,加剧过拟合问题。为了取得正交性和模型学习能力之间的权衡,作者提出混合权值初始化,在第 l 层设置权值
。其中
由传统的随机方法初始化,
是超参数。
给定初始权值
,本文使用一个额外的正交变换层对其进行变换,在将其用于特征变换之前改善正交性,文中使用牛顿迭代法,分为两步:光谱边界和正交投影。由第一步可以得到
,
然后将正交投影映射到矩阵
可以获得正交权值
。
即使在特征变换中使用正交矩阵
,由于 GNNs 的邻域聚合和非线性激活,仍然无法保持正向节点嵌入的规范。作者提出了简单的正交正则化约束为:
其中
是超参数,
是控制权重
范数的可训练标量,初始化为 1。
实验结果
测试了在六个上的分类精确度,并进行了比较,Ortho-GCNII 的平均提升为 2.2%。
在不同的层数下,Ortho-GConv 在性能上都有一定的提升。在 Cora 和 Citeseer 上,Ortho-GConv 在 2 层基础上分别实现了 1.9% 和 2.1% 的提升;而在 8 层的情况下,获得了 2.8% 和 12.4% 的提升。
在 D&D 和蛋白质数据集上,Ortho-g-U-Nets 得到了较好的性能。
随着 T 的增加,时间消耗变得越来越大;较大的迭代次数和较小的迭代次数会降低我们提出的模型的性能。当迭代次数为 4 时,可以得到最好的性能。因此优化适当的T可以在可接受的时间复杂度下获得较高的精度。
本文首先进行了一系列的分析实验,探讨在使用更多卷积层时 GNNs 性能下降的原因,指出主要因素是 GNNs 中不稳定的前向和后向信号。因此提出了一种正交图卷积对 GNNs 进行增强,以稳定模型训练,提高模型的泛化性能。最后通过实验验证模型的性能。