Transformer networks are able to capture patterns in data coming from many domains (text, images, videos, proteins, etc.) with little or no change to architecture components. We perform a theoretical analysis of the core component responsible for signal propagation between elements, i.e. the self-attention matrix. In practice, this matrix typically exhibits two properties: (1) it is sparse, meaning that each token only attends to a small subset of other tokens; and (2) it changes dynamically depending on the input to the module. With these considerations in mind, we ask the following question: Can a fixed self-attention module approximate arbitrary sparse patterns depending on the input? How small is the hidden size $d$ required for such approximation? We make progress in answering this question and show that the self-attention matrix can provably approximate sparse matrices, where sparsity is in terms of a bounded number of nonzero elements in each row and column. While the parameters of self-attention are fixed, various sparse matrices can be approximated by only modifying the inputs. Our proof is based on the random projection technique and uses the seminal Johnson-Lindenstrauss lemma. Our proof is constructive, enabling us to propose an algorithm for finding adaptive inputs and fixed self-attention parameters in order to approximate a given matrix. In particular, we show that, in order to approximate any sparse matrix up to a given precision defined in terms of preserving matrix element ratios, $d$ grows only logarithmically with the sequence length $L$ (i.e. $d = O(\log L)$).


翻译:变异器网络能够捕捉来自许多领域(文字、图像、视频、蛋白质等)的数据模式,而其结构组件的长度很少或没有变化。我们对负责元素间信号传播的核心组成部分,即自我注意矩阵进行理论分析。在实践中,该矩阵通常具有两种属性:(1) 它稀少,意味着每个象征只关注其他符号中的一小部分;(2) 它根据模块的输入动态变化。考虑到这些考虑,我们询问以下问题:固定的自我注意模块能否根据输入量而近似任意稀释模式?这种近似所需的隐藏大小是多少美元?我们在回答这一问题上取得进展,并显示自我注意矩阵可以近似于稀薄矩阵,即每个行和列的非零符号数量有限;虽然自我注意参数是固定的,但各种稀薄矩阵只能通过修改输入量来比较。我们的证据基于随机的硬值 硬硬硬体- 硬硬体矩阵的隐藏大小比例值?我们用特定的硬体硬体硬体硬体比例值 来显示一个固定矩阵的精确度 。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年5月12日
【2020新书】Python专业实践,250页pdf,Practices of the Python Pro
【2020新书】操作反模式: DevOps解决方案, 322页pdf
专知会员服务
31+阅读 · 2020年11月8日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
7+阅读 · 2019年3月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年8月2日
Arxiv
0+阅读 · 2021年7月28日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
Arxiv
3+阅读 · 2020年2月12日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
3+阅读 · 2018年10月18日
VIP会员
相关VIP内容
专知会员服务
33+阅读 · 2021年5月12日
【2020新书】Python专业实践,250页pdf,Practices of the Python Pro
【2020新书】操作反模式: DevOps解决方案, 322页pdf
专知会员服务
31+阅读 · 2020年11月8日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
7+阅读 · 2019年3月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年8月2日
Arxiv
0+阅读 · 2021年7月28日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
Arxiv
3+阅读 · 2020年2月12日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
3+阅读 · 2018年10月18日
Top
微信扫码咨询专知VIP会员