Lipschitz Normalization for Self-Attention Layers with Application to Graph Neural Networks
基于注意力的神经网络在许多应用中都达到最优的效果。然而当层数增加时,它们的性能趋于下降。在这项研究工作中,我们发现通过标准化注意力得分来加强Lipschitz连续性,可以显着改善深度注意力模型的性能。首先,我们的发现深度图注意力网络(GAT)在训练过程中会出现梯度爆炸问题,从而导致基于梯度的训练算法的性能表现较差。为解决该问题,我们分析了注意力模块的Lipschitz连续性,据此引入了LipschitzNorm算子。自在注意力机制中,LipschitzNorm是一种的简单高效的非参数归一化方法,可以确保模型的Lipschitz连续性。我们将LipschitzNorm应用于GAT和GraphTransformers,发现深度图模型(10到30层)的性能得到了显着提高。我们的实验显示,当节点间存在远程交互时,使用LipschitzNorm的深层GAT模型在节点标签预测任务中达到了当前最高水平。此外,在基准节点分类任务中,我们的方案也显示了与未归类的同类算法一致的提升效果。