Attention最新进展

2020 年 5 月 30 日 极市平台

加入极市专业CV交流群，与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

来源｜sisiyou@知乎

本文主要总结了最新的关于attention的应用文章。

Attention-based Dropout Layer for Weakly Supervised Object Localization（CVPR19）

任务：弱监督的物体定位：只给定图像类别的标签，要求定位出目标所在的区域。

动机：只给定物体类别的话，网络往往只关注最具有判别性的信息，无法挖掘到整个物体信息。能否设计一种drop操作，每次迭代时drop最具判别性的信息，强迫网络关注其他的区域？

做法：代替之前采用CAM得到特征的热力图**，模型使用（channel-wise pooling）直接生成热力图。**采用一个设定的阈值，得到一个drop mask。

Visual Attention Consistency under Image Transforms for Multi-Label Image Classification （CVPR19）

任务：多标签图像分类问题

动机：数据增广被广泛用于图像分类任务，但是数据增广存在缺陷。图像的一些变换（如旋转）应该是比较渐层能学习到的，但是在一般使用数据增广的策略中，都只是使用最后loss来对这种变换进行学习。能否对数据增广学到的特征图进行约束。

方法：采用两分支结构。输入原始图像I和转换后的图像T(I)，利用CAM得到两个特征图的热力图，约束I的热力图经过T的转换后与T(I)的热力图相同。即图像数据增广后仍然关注同样部件的区域。

AttPool: Towards Hierarchical Feature Representation in Graph Convolutional Networks via Attention Mechanism （ICCV19）

任务：定义了一个graph pooling操作。

方法：对于一个有N个节点的图（N,D）,首先预测每个节点的得分（N），然后选择前K个节点（K,D），对这K个节点利用全部的N个节点进行更新（GCN）。

问题：和之前的文章Self-Attention Graph Pooling思想和做法很像，加了一步更新操作。

Group-wise Deep Object Co-Segmentation with Co-Attention Recurrent Neural Network （ICCV19）

任务：图像组间的共有物体的定位。

做法：设计了类似GRU的单元，设定了更新门和重置门，不断的更新隐单元g，使其融入了所有图像的信息，然后返回来指导每个图像的预测生成。

End-to-End Multi-Task Learning with Attention

任务：多任务学习

动机：对于多任务学习，应该有任务共享的特征和任务特定的特征。对于任务共享的特征可以通过在所有任务上学习得到。那么如何得到任务特定的特征呢？

方法：对于每个任务学习一个attention，作为特征选择器，选择与该任务相关的特征。

See More, Know More: Unsupervised Video Object Segmentation with Co-Attention Siamese Networks （CVPR19）

任务：无监督的视频物体分割

做法：提出了一个co-attention模块，将相邻帧对齐，并将F1（F2）帧的信息整合到F2（F1）上。

问题：用在视频reID上，相邻帧进行对齐后，再进行特征整合。

Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing （CVPR19）

任务：跨模态的检索。给定一个语句描述，检索出图像的那个框是与之对应的。

动机：图像与语句之中可能存在多个对应关系，但是现有方法往往会过多的关注最具有判别性的对应关系。能否有一种机制，迫使网络可以关注更多的对应关系。

做法：擦除最具有判别性的语句或者图像区域。

Cross-Modal Self-Attention Network for Referring Image Segmentation

任务：跨模态分割，给定一个语句描述，分割出图像对应的物体区域。

做法：设计了一个扩模态的self attention机制，即对于query，key, value融入了图像特征和语句特征。

Mask-Guided Attention Network for Occluded Pedestrian Detection （ICCV19）

任务：遮挡的行人检测

做法：遮挡会对行人检测的性能产生较大的影响。对于特征，生成一个空间mask，mask掉遮挡区域的特征。利用可见的bounding box监督mask的生成。

Looking for the Devil in the Details: Learning Trilinear Attention Sampling Network for Fine-grained Image Recognition （CVPR）

动机：如何自适应地并且无监督的定位出物体各个部件的区域。每个channel可以响应一个特定的物体，但是单个channel的噪声大。能否整合channel使其可以定位出目标物体

做法：利用self-attention的思想，加强每个channel的特征。X为（C,N） .此时每个channel可以看做一个空间注意力图，对应一个指定的部件。

推荐阅读：

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：AI移动应用-小极-北大-深圳），即可申请加入AI移动应用极市技术交流群，更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流，一起来让思想之光照的更远吧~

△长按添加极市小助手

△长按关注极市平台，获取最新CV干货

觉得有用麻烦给个在看啦~

登录查看更多

相关内容

注意力机制

关注 120

Attention机制最早是在视觉图像领域提出来的，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

基于深度学习的多标签生成研究进展

专知会员服务

147+阅读 · 2020年4月25日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【ACL2019】基于学习注意力机制的知识图谱中关系预测的嵌入 Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs

专知会员服务

122+阅读 · 2020年3月29日

【图机器学习论文】综述：图注意力模型（Attention Models in Graphs: A Survey）

专知会员服务

144+阅读 · 2019年12月16日