研究背景
近年来,由于深度学习需要大量标注数据进行训练的特性,如何获取足量的标注数据来进行深度模型的训练已经成为了制约深度模型发展的关键瓶颈之一。在一些结构化预测的任务中,例如需要逐像素点的标注的语义分割任务中,这一问题更加严重。
解决方案
本工作探讨弱监督的语义分割方法,即致力于解决从图像级的训练标注得到像素级的模型预测的问题。我们创新地利用对图像分组并显式建立组内图像间的依赖关系的方法处理该弱监督语义分割问题。具体地,将图像视为节点,并利用互注意机制表征图像间的关系,我们利用一个图网络模型来建立和挖掘这种图像之间的语义关系。为了避免模型只响应一些简单的共性语义,我们进一步提出了应用于图模型的 dropout 机制,设法使其通过互注意机制关联出互补的响应区域,从而得到总体更加准确和完整的目标响应。整个网络可以端到端地完成训练,并在 Pascal VOC 2012 和 COCO 数据集上取得了当前最好的性能。
Xueyi Li, Tianfei Zhou, Jianwu Li, Yi Zhou, Zhaoxiang Zhang:Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation. The Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI) 2021