Recent studies on mobile network design have demonstrated the remarkable effectiveness of channel attention (e.g., the Squeeze-and-Excitation attention) for lifting model performance, but they generally neglect the positional information, which is important for generating spatially selective attention maps. In this paper, we propose a novel attention mechanism for mobile networks by embedding positional information into channel attention, which we call "coordinate attention". Unlike channel attention that transforms a feature tensor to a single feature vector via 2D global pooling, the coordinate attention factorizes channel attention into two 1D feature encoding processes that aggregate features along the two spatial directions, respectively. In this way, long-range dependencies can be captured along one spatial direction and meanwhile precise positional information can be preserved along the other spatial direction. The resulting feature maps are then encoded separately into a pair of direction-aware and position-sensitive attention maps that can be complementarily applied to the input feature map to augment the representations of the objects of interest. Our coordinate attention is simple and can be flexibly plugged into classic mobile networks, such as MobileNetV2, MobileNeXt, and EfficientNet with nearly no computational overhead. Extensive experiments demonstrate that our coordinate attention is not only beneficial to ImageNet classification but more interestingly, behaves better in down-stream tasks, such as object detection and semantic segmentation. Code is available at https://github.com/Andrew-Qibin/CoordAttention.


翻译:移动网络设计的最新研究表明,对提升模型性能的频道关注(例如,Squeeze-和Exexating at-Expresent at)的显著效果(例如,Squeeze-and-Excreat at-exacent at),显示了提高模型性能的频道关注度(例如,Squeeze-和Exexacent at-Exacent at)的显著效果,但通常忽视定位信息,而定位信息对于生成空间选择性的注意地图十分重要。在本文中,我们建议为移动网络建立一个新的关注机制,将定位信息嵌入频道关注点,将定位信息嵌入通过 2D 全球集合的频道关注度(例如,Squeze-Excreat-Exprespective),而定位信息对于生成空间选择性的关注度非常重要。 由此生成的功能性地图被分别编码成一组方向认知和位置敏感关注度的地图,可以补充输入功能特征地图,以扩大兴趣对象的表达。 我们的协调关注度很简单,并且可以灵活地插入典型的流动网络,例如移动网络、OV2、移动目标、移动网络/colvexet、移动、移动/Cloyal-comreut、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动式、移动式、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动等等等等等等等等等等等等等实验、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动、移动等等等等等等

9
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
【CVPR2021】通道注意力的高效移动网络设计
专知会员服务
18+阅读 · 2021年4月27日
专知会员服务
22+阅读 · 2021年4月10日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
【IJCAJ 2020】多通道神经网络 Multi-Channel Graph Neural Networks
专知会员服务
25+阅读 · 2020年7月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
12+阅读 · 2019年1月24日
VIP会员
相关资讯
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员