Existing attention mechanisms are trained to attend to individual items in a collection (the memory) with a predefined, fixed granularity, e.g., a word token or an image grid. We propose area attention: a way to attend to areas in the memory, where each area contains a group of items that are structurally adjacent, e.g., spatially for a 2D memory such as images, or temporally for a 1D memory such as natural language sentences. Importantly, the shape and the size of an area are dynamically determined via learning, which enables a model to attend to information with varying granularity. Area attention can easily work with existing model architectures such as multi-head attention for simultaneously attending to multiple areas in the memory. We evaluate area attention on two tasks: neural machine translation (both character and token-level) and image captioning, and improve upon strong (state-of-the-art) baselines in all the cases. These improvements are obtainable with a basic form of area attention that is parameter free.


翻译:对现有关注机制进行了培训,以关注具有预先定义、固定颗粒的收藏(记忆)中的个别物品,例如一个单词符号或图像网格。我们建议区域注意:关注记忆中的某一区域,每个区域都包含一组结构上相邻的物品,例如图像等2D内存的空间或自然语言句等1D内存的时间性。重要的是,一个区域的形状和大小是通过学习动态决定的,使一个模型能够关注不同颗粒的信息。区域注意很容易与现有的模型结构合作,例如多头关注同时关注记忆中的多个区域。我们评估两个任务的区域注意:神经机器翻译(字符和符号级别)和图像说明,以及在所有案例中改进强(状态-艺术)基线。这些改进可以通过无参数的基本区域关注形式获得。

5
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
专知会员服务
61+阅读 · 2020年3月19日
注意力机制介绍,Attention Mechanism
专知会员服务
169+阅读 · 2019年10月13日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
基于attention的seq2seq机器翻译实践详解
黑龙江大学自然语言处理实验室
11+阅读 · 2018年3月14日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
论文浅尝 | Leveraging Knowledge Bases in LSTMs
开放知识图谱
6+阅读 · 2017年12月8日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
从2017年顶会论文看Attention Model
黑龙江大学自然语言处理实验室
5+阅读 · 2017年11月1日
已删除
将门创投
12+阅读 · 2017年10月13日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
19+阅读 · 2019年4月5日
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
Arxiv
11+阅读 · 2018年5月21日
Arxiv
10+阅读 · 2018年2月4日
VIP会员
相关资讯
基于attention的seq2seq机器翻译实践详解
黑龙江大学自然语言处理实验室
11+阅读 · 2018年3月14日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
论文浅尝 | Leveraging Knowledge Bases in LSTMs
开放知识图谱
6+阅读 · 2017年12月8日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
从2017年顶会论文看Attention Model
黑龙江大学自然语言处理实验室
5+阅读 · 2017年11月1日
已删除
将门创投
12+阅读 · 2017年10月13日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
相关论文
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
19+阅读 · 2019年4月5日
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
Arxiv
11+阅读 · 2018年5月21日
Arxiv
10+阅读 · 2018年2月4日
Top
微信扫码咨询专知VIP会员