Lipschitz Normalization for Self-Attention Layers with Application to Graph Neural Networks

基于注意力的神经网络在许多应用中都达到最优的效果。然而当层数增加时,它们的性能趋于下降。在这项研究工作中,我们发现通过标准化注意力得分来加强Lipschitz连续性,可以显着改善深度注意力模型的性能。首先,我们的发现深度图注意力网络(GAT)在训练过程中会出现梯度爆炸问题,从而导致基于梯度的训练算法的性能表现较差。为解决该问题,我们分析了注意力模块的Lipschitz连续性,据此引入了LipschitzNorm算子。自在注意力机制中,LipschitzNorm是一种的简单高效的非参数归一化方法,可以确保模型的Lipschitz连续性。我们将LipschitzNorm应用于GAT和GraphTransformers,发现深度图模型(10到30层)的性能得到了显着提高。我们的实验显示,当节点间存在远程交互时,使用LipschitzNorm的深层GAT模型在节点标签预测任务中达到了当前最高水平。此外,在基准节点分类任务中,我们的方案也显示了与未归类的同类算法一致的提升效果。

成为VIP会员查看完整内容
27

相关内容

图神经网络 (GNN) 是一种连接模型,它通过图的节点之间的消息传递来捕捉图的依赖关系。与标准神经网络不同的是,图神经网络保留了一种状态,可以表示来自其邻域的具有任意深度的信息。近年来,图神经网络(GNN)在社交网络、知识图、推荐系统、问答系统甚至生命科学等各个领域得到了越来越广泛的应用。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
51+阅读 · 2021年6月14日
专知会员服务
48+阅读 · 2021年6月2日
专知会员服务
28+阅读 · 2021年5月21日
专知会员服务
80+阅读 · 2021年5月10日
专知会员服务
28+阅读 · 2020年12月14日
注意力图神经网络的小样本学习
专知会员服务
190+阅读 · 2020年7月16日
【论文笔记】自注意力图池化
专知
79+阅读 · 2019年11月18日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
图注意力网络
科技创新与创业
35+阅读 · 2017年11月22日
Arxiv
0+阅读 · 2021年7月15日
On the expressivity of bi-Lipschitz normalizing flows
Arxiv
8+阅读 · 2021年1月28日
Arxiv
6+阅读 · 2020年10月8日
Arxiv
4+阅读 · 2020年1月17日
Arxiv
8+阅读 · 2019年2月15日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
VIP会员
相关VIP内容
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
51+阅读 · 2021年6月14日
专知会员服务
48+阅读 · 2021年6月2日
专知会员服务
28+阅读 · 2021年5月21日
专知会员服务
80+阅读 · 2021年5月10日
专知会员服务
28+阅读 · 2020年12月14日
注意力图神经网络的小样本学习
专知会员服务
190+阅读 · 2020年7月16日
相关资讯
【论文笔记】自注意力图池化
专知
79+阅读 · 2019年11月18日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
图注意力网络
科技创新与创业
35+阅读 · 2017年11月22日
相关论文
Arxiv
0+阅读 · 2021年7月15日
On the expressivity of bi-Lipschitz normalizing flows
Arxiv
8+阅读 · 2021年1月28日
Arxiv
6+阅读 · 2020年10月8日
Arxiv
4+阅读 · 2020年1月17日
Arxiv
8+阅读 · 2019年2月15日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
微信扫码咨询专知VIP会员