Many natural language processing tasks solely rely on sparse dependencies between a few tokens in a sentence. Soft attention mechanisms show promising performance in modeling local/global dependencies by soft probabilities between every two tokens, but they are not effective and efficient when applied to long sentences. By contrast, hard attention mechanisms directly select a subset of tokens but are difficult and inefficient to train due to their combinatorial nature. In this paper, we integrate both soft and hard attention into one context fusion model, "reinforced self-attention (ReSA)", for the mutual benefit of each other. In ReSA, a hard attention trims a sequence for a soft self-attention to process, while the soft attention feeds reward signals back to facilitate the training of the hard one. For this purpose, we develop a novel hard attention called "reinforced sequence sampling (RSS)", selecting tokens in parallel and trained via policy gradient. Using two RSS modules, ReSA efficiently extracts the sparse dependencies between each pair of selected tokens. We finally propose an RNN/CNN-free sentence-encoding model, "reinforced self-attention network (ReSAN)", solely based on ReSA. It achieves state-of-the-art performance on both Stanford Natural Language Inference (SNLI) and Sentences Involving Compositional Knowledge (SICK) datasets.


翻译:许多自然语言处理任务都完全依赖一个句子中几个符号之间的零散依赖性。 软关注机制显示,通过每两个符号之间的软概率来模拟地方/全球依赖性,表现良好, 软概率每两个符号之间的软概率, 但当应用到长句子时效果和效率不高。 相反, 硬关注机制直接选择一组符号, 但由于其组合性质, 很难和低效地进行培训。 在本文件中, 我们将软和硬关注都纳入一个背景融合模式, “ 强制自我保护( ReSA) ”, 以相互受益。 在 ReSA 中, 硬关注将软性自我保护排序为软性进程, 而软性关注又为对硬性句子的培训提供回报信号。 为此, 我们开发了一种新的硬关注, 叫做“ 强化序列抽样(RSS) ”, 通过政策梯度选择同时和训练的代号。 使用两个RSS 模块, ReSA 高效地提取了每对选定标识之间稀少的依赖性。 我们最后建议了一个基于 RNN/ CN 免费句号的自省的自省(S- recocolence) AS- recust- recusting Stat- recust- Regional Stefol) AS) AS- sal AS- sal- semportmental- sal- sheal- sal- sal- sal- sal- semportmentional- sal- sal- sal- sal- sal- sal- sal- sal- semportmental- sal- sal- sal- sal- sal- sem

3
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
Arxiv
6+阅读 · 2019年4月8日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
5+阅读 · 2018年5月10日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关VIP内容
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Top
微信扫码咨询专知VIP会员