Despite their impressive performance in NLP, self-attention networks were recently proved to be limited for processing formal languages with hierarchical structure, such as $\mathsf{Dyck}_k$, the language consisting of well-nested parentheses of $k$ types. This suggested that natural language can be approximated well with models that are too weak for formal languages, or that the role of hierarchy and recursion in natural language might be limited. We qualify this implication by proving that self-attention networks can process $\mathsf{Dyck}_{k, D}$, the subset of $\mathsf{Dyck}_{k}$ with depth bounded by $D$, which arguably better captures the bounded hierarchical structure of natural language. Specifically, we construct a hard-attention network with $D+1$ layers and $O(\log k)$ memory size (per token per layer) that recognizes $\mathsf{Dyck}_{k, D}$, and a soft-attention network with two layers and $O(\log k)$ memory size that generates $\mathsf{Dyck}_{k, D}$. Experiments show that self-attention networks trained on $\mathsf{Dyck}_{k, D}$ generalize to longer inputs with near-perfect accuracy, and also verify the theoretical memory advantage of self-attention networks over recurrent networks.


翻译:尽管国家语言平台的表现令人印象深刻,但自备网络最近证明在处理具有等级结构的正式语言方面受到限制,例如,美元=mathsfsf{Dyck}kk$,这种语言由高额括号以美元为单位构成。这表明自然语言可以与对正规语言而言过于薄弱的模式相近,或者等级和自然语言的递归作用可能受到限制。我们通过证明自备网络可以处理美元=mathsf{Dyck}、D}美元等等级结构的正式语言(例如,美元=mathsfsf{Dyck},以美元为单位,以美元=D$=k}为单位,深度以美元为单位,可以更好地捕捉自然语言的捆绑等级结构。具体地说,我们建造了一个硬自备网络,以$+1美元为单位,以美元(logkk)美元为单位,记忆规模(每层)为单位,承认$mathsfisize,D},以软自备网络与两层和$(logrg)$=xlictal-deal-deal-dealnetnetnetnet-comstrestrestrestret sural sural strualx suratexxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
专知会员服务
15+阅读 · 2020年7月27日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年7月14日
Arxiv
0+阅读 · 2021年7月13日
Routing in Strongly Hyperbolic Unit Disk Graphs
Arxiv
0+阅读 · 2021年7月12日
Arxiv
13+阅读 · 2019年11月14日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
3+阅读 · 2018年5月11日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年7月14日
Arxiv
0+阅读 · 2021年7月13日
Routing in Strongly Hyperbolic Unit Disk Graphs
Arxiv
0+阅读 · 2021年7月12日
Arxiv
13+阅读 · 2019年11月14日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
3+阅读 · 2018年5月11日
Top
微信扫码咨询专知VIP会员