Attention based neural networks are state of the art in a large range of applications. However, their performance tends to degrade when the number of layers increases. In this work, we show that enforcing Lipschitz continuity by normalizing the attention scores can significantly improve the performance of deep attention models. First, we show that, for deep graph attention networks (GAT), gradient explosion appears during training, leading to poor performance of gradient-based training algorithms. To address this issue, we derive a theoretical analysis of the Lipschitz continuity of attention modules and introduce LipschitzNorm, a simple and parameter-free normalization for self-attention mechanisms that enforces the model to be Lipschitz continuous. We then apply LipschitzNorm to GAT and Graph Transformers and show that their performance is substantially improved in the deep setting (10 to 30 layers). More specifically, we show that a deep GAT model with LipschitzNorm achieves state of the art results for node label prediction tasks that exhibit long-range dependencies, while showing consistent improvements over their unnormalized counterparts in benchmark node classification tasks.


翻译:在一系列应用中,以关注为基础的神经网络是最先进的。然而,当层数增加时,它们的性能往往会降低。在这项工作中,我们表明通过将关注分数正常化来实施利普西茨连续性可以大大改善深度关注模型的性能。首先,我们表明,对于深图形关注网络(GAT)而言,培训过程中出现了梯度爆炸,导致梯度培训算法的性能不佳。为了解决这一问题,我们从理论上分析了利普西茨关注模块的连续性,并引入了利普西茨诺姆,这是一个简单的、无参数的自我注意机制,可以使该模型持续使用利普西茨。我们随后将利普西茨诺姆应用于GAT和图图图变异器,并表明其性能在深层环境(10至30层)中显著改善。更具体地说,我们表明,与利普西茨诺姆(Lipschitz Norm)的深度GAT模型在显示长期依赖性的无底标签预测任务方面取得了最新结果,同时显示在基准节点分类任务中与对应方面不断改进。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2020年12月14日
【NeurIPS2020-MIT】子图神经网络,Subgraph Neural Networks
专知会员服务
45+阅读 · 2020年9月28日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
32+阅读 · 2020年4月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
13+阅读 · 2019年11月14日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
8+阅读 · 2019年2月15日
Arxiv
10+阅读 · 2018年2月4日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
27+阅读 · 2020年6月19日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
13+阅读 · 2019年11月14日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
8+阅读 · 2019年2月15日
Arxiv
10+阅读 · 2018年2月4日
Arxiv
13+阅读 · 2017年12月5日
Top
微信扫码咨询专知VIP会员