弱监督语义分割是一项具有挑战性的任务,因为没有提供像素级的标签信息供训练使用。最近的方法利用分类网络,通过选择具有强响应的区域来定位目标。然而,虽然这种响应映射提供了稀疏信息,但在自然图像中像素之间存在很强的两两关系,可以利用这种两两关系将稀疏映射传播到更密集的区域。本文提出了一种迭代算法来学习这种两两关系,它由两个分支组成,一个是学习每个像素的标签概率的一元分割网络,另一个是学习亲和矩阵并细化由一元网络生成的概率图的两两亲和网络。将两两网络的细化结果作为监督,对一元网络进行训练,通过迭代的方法逐步获得较好的分割效果。为了在不需要精确标注的情况下获得可靠的像素亲和力,我们还提出了可信区域的挖掘方法。我们证明了迭代训练这个框架等价于优化一个收敛到局部最小值的能量函数。在PASCAL VOC 2012和COCO数据集上的实验结果表明,所提出的算法在性能上优于目前最先进的方法。