语义分割(Semantic Segmentation)任务需要对输入图像中的每一个像素都进行类别预测。因此想要训练一个全监督的segmentation模型,则首先需要消耗大量的人力、财力对训练图像进行逐像素的标注。为缓解这个问题,人们利用一些较容易获取的弱标签(Weak Label)作为图像的监督信息来训练segmentation模型。比如,常见的弱标签有Bounding Box、Scribble、Point以及Image-level class label。我们的研究内容是基于image-level class label的,其是这些弱标签中是容易获取但也是最难处理的,因为image-level class label本身只提供了图像的类别信息而没有目标在图像中的位置信息。目前流行的基于image-level class label的弱监督segmentation模型主要分为以下三个步骤进行,如图1所示:1)首先通过multi-label image classification模型获取图像的类响应激活图(Class Activation Map)作为种子区域(Seed Area);2)在种子区域的基础上,通过计算像素之间的语义相似性对种子区域进行扩张(Exoansion)得到图像的伪标签(Pseudo-Mask);3)使用伪标签作为Ground-Truth训练一个全监督的语义分割模型,并在训练好的模型上对val/test集合进行预测。
我们提出的基于因果干预的Context Adjustment (CONTA)模型主要有以下几个优势:
CONTA是第一个使用因果图来分析弱监督语义分割模型中各component之间的关系,从而找出了造成现有的pseudo-mask不准确的本质原因是因为数据集中的上下文先验是混淆因子。在此基础上,我们又进一步提出了使用因果干预切断上下文先验和图像之间的关联,从而提升pseudo-mask的质量。
不同于以往的基于graph neural network或复杂的attention机制的弱监督语义分割模型,CONTA的设计简洁,并没有很复杂的操作和训练步骤在其中。
我们在4种不同的弱监督语义分割模型上都进行了实验,结果表明CONTA可以提升模型CAM、pseuso-mask和segmentation mask的质量,从而验证了CONTA的通用性和有效性。我们相信CONTA在将来也可以被应用到其他的弱监督语义分割模型上。
参考链接: