Lipschitz constants of neural networks have been explored in various contexts in deep learning, such as provable adversarial robustness, estimating Wasserstein distance, stabilising training of GANs, and formulating invertible neural networks. Such works have focused on bounding the Lipschitz constant of fully connected or convolutional networks, composed of linear maps and pointwise non-linearities. In this paper, we investigate the Lipschitz constant of self-attention, a non-linear neural network module widely used in sequence modelling. We prove that the standard dot-product self-attention is not Lipschitz for unbounded input domain, and propose an alternative L2 self-attention that is Lipschitz. We derive an upper bound on the Lipschitz constant of L2 self-attention and provide empirical evidence for its asymptotic tightness. To demonstrate the practical relevance of our theoretical work, we formulate invertible self-attention and use it in a Transformer-based architecture for a character-level language modelling task.


翻译:Lipschitz神经网络的常数在深层学习的各种背景中得到了探讨,例如可辨的对抗性强势、估计瓦瑟斯坦距离、稳定GANs的培训以及建立不可逆的神经网络,这类工作侧重于将Lipschitz完全相连或连通性网络的常数,包括线性地图和点性非线性。在本文中,我们调查了Lipschitz自我注意的常数,这是在序列建模中广泛使用的非线性神经网络模块。我们证明标准点产品自我注意不是用于无限制输入域的Lipschitz,我们建议采用Lipschitz的替代性L2自我注意方式。我们从L2自我注意的Lipschitz常数上捆绑,并提供了经验性证据,说明我们理论工作的实际相关性,我们制定了不可逆的自留力,并将它用于基于变形语言建模的架构中。

0
下载
关闭预览

相关内容

专知会员服务
26+阅读 · 2021年4月2日
专知会员服务
31+阅读 · 2020年12月14日
专知会员服务
27+阅读 · 2020年2月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
9+阅读 · 2021年5月17日
Arxiv
4+阅读 · 2020年1月17日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
8+阅读 · 2019年2月15日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员