【CVPR2018】如何增强Attention Model的推理能力 - 专知

会员服务 ·

1

【CVPR2018】如何增强Attention Model的推理能力

2018 年 7 月 2 日 专知

【导读】目前Attention Model已经被用到了机器视觉，自然语言理解，语音识别，机器翻译等等各行各业。各种各样的Attention Model也被各种Task使用。如何增强Attention Model的推理能力、在使用Attention Model的时候提升模型性能，成为了一个关键的问题。在本文中，我们介绍一种在CVPR 2018大会提出的方法，可以通过极为简单的改进有效的提升Attention Model的性能。

论文题目：Stacked Latent Attention for Multimodal Reasoning

什么是Attention Model

首先我们用下图的例子简单的重温Attention Model：

给定Hidden State，Attention Model可以学到对输入（图示中为图像）Tensor最相关的Mask，并使用Mask对输入Tensor进行加权和，并将加权和后得到的Content Vector作为Attention Model的输出。换而言之，Attention Model可以学到给定输入中最重要的部分，从而对输入进行“总结”。

增强Attention Model的性能的方法——Stacked Attention Model

接下来我们介绍一种非常常用的增强Attention Model的性能的方法：Stacked Attention Model。顾名思义，就是简单的拼接（Stack）多个Attention Model，将前一个AttentionModel的输出作为下一个Attention Model的输入。具体实现如下图所示：

在今年刚刚召开的CVPR大会中，研究者对这种常用的增强Attention Model的方法进行了探索，提出了上图中方法的缺陷，并通过极为简单的改进有效地增强了Attention Model的推理性能：

研究者发现，在Attention Model“总结”输入Tensor的同时，造成了信息瓶颈（Information Bottleneck），该信息瓶颈会导致模型性能下降。同时因Attention Model的SoftMax集中在Pathway上而造成了梯度弥散，进而导致在使用多层Attention Model时模型难以优化（Optimize）。

研究者提出，通过简单将多层Attention Model的隐变量(Latent State)连接（Concat）起来（上图绿色虚线），就可以解决信息瓶颈和梯度弥散问题。如上图所示，在没有绿色虚线的情况下，模型仅仅将多层Attention Model叠加起来，此方法不但1）在每两个Attention Model之间造成了信息瓶颈，同时2）因主要Pathway中有多个SoftMax，而造成梯度弥散。

文章提出，仅仅通过增加上图中的绿色虚线，将前一层Attention Model中的隐变量(LatentState) 连接（Concat）到下一个Attention Model中，就可以1）打破信息瓶颈，同时2）通过提供了新的Pathway避开原Pathway中的多个SoftMax，从而缓解梯度弥散，进而3）提升模型性能。

实验表明，当将多层Attention Models的隐变量连接起来，随着简单增加所连接的Attention Model的数量，整体模型性能得到了显著的提升。同时梯度弥散问题得到了明显的缓解：

该文章的更多细节可以参考：

http://openaccess.thecvf.com/content_cvpr_2018/papers/Fan_Stacked_Latent_Attention_CVPR_2018_paper.pdf

-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能服务群：

【专知AI服务计划】专知AI知识技术服务会员群加入与人工智能领域26个主题知识资料全集获取。欢迎微信扫一扫加入专知人工智能知识星球群，获取专业知识教程视频资料和与专家交流咨询！

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

请加专知小助手微信（扫一扫如下二维码添加），加入专知主题群（请备注主题类型：AI、NLP、CV、 KG等）交流~

请关注专知公众号，获取人工智能的专业知识！

点击“阅读原文”，使用专知

登录查看更多

15

相关内容

注意力模型

注意力模型

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【CVPR2020】图神经网络中的几何原理连接

【CVPR2020】图神经网络中的几何原理连接

专知会员服务

57+阅读 · 2020年4月8日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【普渡大学】提升GNN表达能力的集体学习框架，Boost GNN Expressiveness

【普渡大学】提升GNN表达能力的集体学习框架，Boost GNN Expressiveness

专知会员服务

46+阅读 · 2020年3月30日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【图机器学习论文】综述：图注意力模型（Attention Models in Graphs: A Survey）

【图机器学习论文】综述：图注意力模型（Attention Models in Graphs: A Survey）

专知会员服务

143+阅读 · 2019年12月16日

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

专知会员服务

30+阅读 · 2019年11月22日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

注意力机制模型最新综述

注意力机制模型最新综述

专知会员服务

270+阅读 · 2019年10月20日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

171+阅读 · 2019年10月13日

Attention！注意力机制模型最新综述（附下载）

Attention！注意力机制模型最新综述（附下载）

数据派THU

36+阅读 · 2019年4月14日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

专知

65+阅读 · 2019年4月8日

解密：OpenAI和DeepMind都用的Transformer是如何工作的

解密：OpenAI和DeepMind都用的Transformer是如何工作的

机器之心

4+阅读 · 2019年4月7日

从Seq2seq到Attention模型到Self Attention（二）

从Seq2seq到Attention模型到Self Attention（二）

量化投资与机器学习

23+阅读 · 2018年10月9日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

基于多篇经典论文综述Attention模型方法（附源码）

基于多篇经典论文综述Attention模型方法（附源码）

数据派THU

7+阅读 · 2018年6月17日

跨越注意力：Cross-Attention

跨越注意力：Cross-Attention

我爱读PAMI

172+阅读 · 2018年6月2日

从2017年顶会论文看Attention Model

从2017年顶会论文看Attention Model

黑龙江大学自然语言处理实验室

5+阅读 · 2017年11月1日

已删除

将门创投

12+阅读 · 2017年10月13日

论文共读 | Attention is All You Need

论文共读 | Attention is All You Need

黑龙江大学自然语言处理实验室

14+阅读 · 2017年9月7日

A Collective Learning Framework to Boost GNN Expressiveness

A Collective Learning Framework to Boost GNN Expressiveness

Arxiv

20+阅读 · 2020年3月26日

A Survey on Contextual Embeddings

Arxiv

29+阅读 · 2020年3月16日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

DAGCN: Dual Attention Graph Convolutional Networks

Arxiv

16+阅读 · 2019年4月4日

Area Attention

Arxiv

5+阅读 · 2019年2月5日

Hierarchical LSTMs with Adaptive Attention for Visual Captioning

Hierarchical LSTMs with Adaptive Attention for Visual Captioning

Arxiv

5+阅读 · 2018年12月26日

The Web as a Knowledge-base for Answering Complex Questions

Arxiv

5+阅读 · 2018年3月18日

Graph Attention Networks

Arxiv

10+阅读 · 2018年2月4日

Dual Recurrent Attention Units for Visual Question Answering

Arxiv

7+阅读 · 2018年2月1日

VIP会员

相关主题

注意力模型

注意力机制

相关VIP内容

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【CVPR2020】图神经网络中的几何原理连接

【CVPR2020】图神经网络中的几何原理连接

专知会员服务

57+阅读 · 2020年4月8日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【普渡大学】提升GNN表达能力的集体学习框架，Boost GNN Expressiveness

【普渡大学】提升GNN表达能力的集体学习框架，Boost GNN Expressiveness

专知会员服务

46+阅读 · 2020年3月30日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【图机器学习论文】综述：图注意力模型（Attention Models in Graphs: A Survey）

【图机器学习论文】综述：图注意力模型（Attention Models in Graphs: A Survey）

专知会员服务

143+阅读 · 2019年12月16日

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

专知会员服务

30+阅读 · 2019年11月22日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

注意力机制模型最新综述

注意力机制模型最新综述

专知会员服务

270+阅读 · 2019年10月20日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

171+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

Attention！注意力机制模型最新综述（附下载）

Attention！注意力机制模型最新综述（附下载）

数据派THU

36+阅读 · 2019年4月14日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

专知

65+阅读 · 2019年4月8日

解密：OpenAI和DeepMind都用的Transformer是如何工作的

解密：OpenAI和DeepMind都用的Transformer是如何工作的

机器之心

4+阅读 · 2019年4月7日

从Seq2seq到Attention模型到Self Attention（二）

从Seq2seq到Attention模型到Self Attention（二）

量化投资与机器学习

23+阅读 · 2018年10月9日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

基于多篇经典论文综述Attention模型方法（附源码）

基于多篇经典论文综述Attention模型方法（附源码）

数据派THU

7+阅读 · 2018年6月17日

跨越注意力：Cross-Attention

跨越注意力：Cross-Attention

我爱读PAMI

172+阅读 · 2018年6月2日

从2017年顶会论文看Attention Model

从2017年顶会论文看Attention Model

黑龙江大学自然语言处理实验室

5+阅读 · 2017年11月1日

已删除

将门创投

12+阅读 · 2017年10月13日

论文共读 | Attention is All You Need

论文共读 | Attention is All You Need

黑龙江大学自然语言处理实验室

14+阅读 · 2017年9月7日

相关论文

A Collective Learning Framework to Boost GNN Expressiveness

A Collective Learning Framework to Boost GNN Expressiveness

Arxiv

20+阅读 · 2020年3月26日

A Survey on Contextual Embeddings

Arxiv

29+阅读 · 2020年3月16日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

DAGCN: Dual Attention Graph Convolutional Networks

Arxiv

16+阅读 · 2019年4月4日

Area Attention

Arxiv

5+阅读 · 2019年2月5日

Hierarchical LSTMs with Adaptive Attention for Visual Captioning

Hierarchical LSTMs with Adaptive Attention for Visual Captioning

Arxiv

5+阅读 · 2018年12月26日

The Web as a Knowledge-base for Answering Complex Questions

Arxiv

5+阅读 · 2018年3月18日

Graph Attention Networks

Arxiv

10+阅读 · 2018年2月4日

Dual Recurrent Attention Units for Visual Question Answering

Arxiv

7+阅读 · 2018年2月1日

大家都在搜

CMU博士论文

无人机集群

久别重逢话双塔

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员