AAAI 2022 | 在图像级弱监督语义分割这项CV难题上，字节跳动做到了性能显著提升

2022 年 1 月 7 日 专知

转载自：机器之心 | 字节跳动 - 智能创作团队

论文提出了一种面向图像级标签的弱监督语义分割的激活值调制和重校准方案。该方法利用注意力调制模块挖掘面向分割任务的目标区域，通过补偿分支产生的CAM图校准基准的响应图，得到图像的伪标签，该方法在PASCAL VOC2012数据集上获得了SOTA性能。

图像级弱监督语义分割（WSSS）是一项基本但极具挑战性的计算机视觉任务，该任务有助于促进场景理解和自动驾驶领域的发展。现有的技术大多采用基于分类的类激活图（CAM）作为初始的伪标签，这些伪标签往往集中在有判别性的图像区域，缺乏针对于分割任务的定制化特征。

为了解决上述问题，字节跳动 - 智能创作团队提出了一种即插即用的激活值调制和重校准（Activation Modulation and Recalibration 简称 AMR）模块来生成面向分割任务的 CAM，大量的实验表明，AMR 不仅在 PASCAL VOC 2012 数据集上获得最先进的性能。实验表明，AMR 是即插即用的，可以作为其他先进方法的子模块来提高性能。论文已入选机器学习顶级论文 AAAI2022，相关代码即将开源。

论文链接：https://www.zhuanzhi.ai/paper/3dc03cacb03652e24ac236ffe99f8473

GitHub 链接：https://github.com/jieqin-ai/AMR

引言

论文提出了一种新颖的激活调制和重校准（AMR）方案，该方案利用聚光灯分支和补偿分支获得加权 CAM，从而提供重校准的监督信号。注意力调制模块（AMM）按照通道 - 空间的顺序重新学习特征重要性的分布，这有助于显式地建模通道相关性和空间编码，以自适应地调制面向分割任务的激活响应。此外，研究者还针对双分支引入了一种交叉伪监督机制，它可以被视为一种语义相似的正则化机制来相互细化两个分支。实验结果表明，该方法可以通过学习大量粗粒度的标注获得良好的分割结果，这对实际应用非常有益。

方法

1、激活调制和重新校准方案 AMR

AMR 是由一个聚光灯分支和一个补偿分支组成的互补的双分支网络结构。具体来说，聚光灯分支用于生成基础的判别性强区域的 CAM，补偿分支用于生成面向分割任务的 CAM，为聚光灯的 CAM 提供互补的监督信号。补偿分支能够挖掘重要却容易被聚光灯分支忽视的区域，生成的补偿 CAM 通过重新校准聚光灯 CAM 来生成最终的加权 CAM：

2、注意力调制模块 AMM

论文提出了注意调制模块（AMM）从通道 - 空间顺序的角度重新排序特征重要性的分布，这有助于显式地建模通道间的相互依赖性和空间编码，以自适应地调节面向分割的激活响应值。AMM 包括通道注意调制和空间注意调制。研究者首先将输入到通道 AMM，通过平均池化和卷积层显式地建模通道的相互依赖性。为了进一步在空间维度上建模内部空间的关系，研究者还引入了一个空间 AMM 来级联通道 AMM。研究者利用高斯调制函数来增强次要特征并抑制最敏感和最不敏感的特征，该函数强调通过次重要的区域来直接提取容易忽略的区域，这对于分割任务至关重要。