多标签图像识别是一项具有挑战性的实用计算机视觉任务。然而,该领域的进展往往具有方法复杂、计算量大、缺乏直观解释的特点。为了有效地捕捉来自不同类别的对象所占据的不同空间区域,我们提出了一个非常简单的模块,称为类特定的残差注意力(CSRA)。CSRA 通过提出一个简单的空间注意力分数为每个类别生成特定于类的特征,然后将其与与类别无关的平均池化特征相结合。CSRA 在多标签识别上取得了 state-of-the-art 的结果,同时比它们简单得多。此外,仅用 4 行代码,CSRA 还可以在许多不同的预训练模型和数据集上实现一致的改进,而无需任何额外的训练。CSRA 既易于实现又易于计算,还具有直观的解释和可视化。
https://www.zhuanzhi.ai/paper/8f84476df0173f68ac402363bc8ffff9