In NLP, convolutional neural networks (CNNs) have benefited less than recurrent neural networks (RNNs) from attention mechanisms. We hypothesize that this is because the attention in CNNs has been mainly implemented as attentive pooling (i.e., it is applied to pooling) rather than as attentive convolution (i.e., it is integrated into convolution). Convolution is the differentiator of CNNs in that it can powerfully model the higher-level representation of a word by taking into account its local fixed-size context in the input text t^x. In this work, we propose an attentive convolution network, ATTCONV. It extends the context scope of the convolution operation, deriving higher-level features for a word not only from local context, but also information extracted from nonlocal context by the attention mechanism commonly used in RNNs. This nonlocal context can come (i) from parts of the input text t^x that are distant or (ii) from extra (i.e., external) contexts t^y. Experiments on sentence modeling with zero-context (sentiment analysis), single-context (textual entailment) and multiple-context (claim verification) demonstrate the effectiveness of ATTCONV in sentence representation learning with the incorporation of context. In particular, attentive convolution outperforms attentive pooling and is a strong competitor to popular attentive RNNs.


翻译:在国家实验室中,神经神经网络(CNN)比经常性神经网络(RNNNs)从关注机制中获益较少。我们推测,这是因为CNN的注意力主要作为专注集合(即用于集合)而不是作为专注组合(即,它被整合到融合中)来实施,因此CNN的神经网络(NLP)的受益程度低于经常性神经网络(RNNNs)的受益程度,因为在输入文本 tx中,它能够强有力地模拟一个词的更高层次的表达方式,考虑到它的地方固定大小。 在这项工作中,我们建议建立一个专注的神经网络(ATTCONV ) 。它扩大了CONV行动的背景范围,不仅从当地情况中生成了一个词的更高层次的特征,而且还从非当地情况中生成了在RNNUS通常使用的注意机制中常用的信息。这种非本地环境可以(i)从输入文本tx的部分来模拟一个词的高级或(ii),从额外的(即外部)背景。我们提议建立一个专注网络网络。它扩展了合并操作范围,不仅从一个字面面面面的句中产生一个内容,还显示反复解读的合并(CON的合并(分析),还显示单一的合并的合并的合并的合并的合并。

3
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
110+阅读 · 2019年11月25日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
卷积网络循环网络结合-CNN+RNN
数据挖掘入门与实战
7+阅读 · 2018年2月11日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
19+阅读 · 2019年4月5日
Arxiv
15+阅读 · 2019年4月4日
Arxiv
10+阅读 · 2018年2月4日
VIP会员
相关资讯
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
卷积网络循环网络结合-CNN+RNN
数据挖掘入门与实战
7+阅读 · 2018年2月11日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员