https://www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code: https://github.com/Andrew-Qibin/CoordAttention(待开源)
本文是新加坡国立大学Qinbin Hou&Jiashi Feng等人在注意力机制方面的一次探索,针对如何有效提升移动网络的卷积特征表达能力,以及通道注意力(如SE)机制能够有效建模通道间相关性但忽视了位置信息的问题,提出了一种的新颖的注意力机制:Coordinate Attention。
Coordinate Attention通过水平与垂直方向注意力图捕获特征的远程依赖关系,而且水平与垂直注意力还可以有效保持精确的位置信息。所提注意力集中的精确位置信息无论对于分类,还是检测与分割而言都是一种非常重要的性能,因而所提注意力机制在图像分类、目标检测以及语义分割方面均取得了显著的性能提升,尤其需要注意的是,所提注意力尤其适合于语义分割等稠密预测任务
移动网络设计的近期研究表明:通道注意力(如Squeeze-and-Excitation)机制对于提升模型性能极为有效,但是忽略了位置信息,这对于生成空间选择注意力图非常重要。
针对通道注意力机制存在的上述问题,我们提出了一种用于移动网络的新颖注意力机制:它将位置信息嵌入到通道注意力中,我们将其称之为Coordinate Attention。不同于通道注意力将特征张量通过GAP转换为特征向量,坐标注意力将通道注意力拆分为两个1D特征编码过程,分别沿着两个空间方向集成特征。
通过这种处理,远程相关性可以通过空间方向捕获,于此同时,精确的位置信息可以通过另一个空间方向得以保持。所得到的特征图分辨编码为成对的方向相关注意力图与通道注意力图(两者具有互补性),并用于增强输入特征以增广目标的表达能力。
所提坐标注意力机制极为简单,可以灵活嵌入到现有移动网络(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且几乎不会导致额外的计算负载。
我们通过实验证实:坐标注意力不仅有助于ImageNet分类,在下游任务(比如目标检测、语义分割)上表达更佳。下图给出了所提注意力与SE/CBAM在不同任务上的性能对比。