基于耦合语义注意力的弱监督目标定位
TS-CAM: Token Semantic Coupled ttention
Map for Weakly Supervised Object Localization
弱监督目标定位是指仅根据图像层面的类别标签学习目标位置的任务。基于卷积神经网络 (CNN)的分类模型往往仅会激活目标的局部判别区域,而忽略完整的目标范围,称为局部激活问题。在这篇文章中,我们认为局部激活问题是由于CNN的内在特性导致。CNN由一系列卷积操作组成,导致模型仅具有局部的感受野,无法获取长距离的特征依赖性。基于此,我们提出我们提出基于Transformer的耦合语义类别激活图(TS-CAM)方法,借助自注意力机制提取长距离特征相似性。TS-CAM 首先将图像分割为一系列子块,通过位置编码学习不同子块间全局的注意力。之后,对每个子块进行重新排列得到得到类别语义图。最后,融合模型学习的全局注意力图与类别语义图得到类别激活图。在 ILSVRC/CUB-200-2011 数据集上的实验表明,TS-CAM 的性能超过其他基于CNN-CAM结构的方法约 7.1%/27.1%,达到SOTA。
https://www.zhuanzhi.ai/paper/4fd09541701bdbaa750df1804f96d58c