分组和识别是视觉场景理解的重要组成部分,例如对象检测和语义分割。在端到端深度学习系统中,图像区域的分组通常通过像素级识别标签的自顶向下的监督隐式进行。相反,在本文中,我们提出将分组机制引入到深度网络中,允许语义段在只有文本监督的情况下自动出现。我们提出了一种分层的分组视觉Transformer (GroupViT),它超越了规则的网格结构表示,学习将图像区域分组成逐渐增大的任意形状的片段。我们通过对比损失在大规模图像-文本数据集上联合训练GroupViT和文本编码器。GroupViT只有文本监督,没有任何像素级的注释,它学会了将语义区域组合在一起,并以零样本的方式成功地迁移到语义分割的任务中,即没有任何进一步的微调。它在PASCAL VOC 2012上实现了51.2%的mIoU的零样本学习精度,在PASCAL上下文数据集上实现了22.3%的mIoU,并与需要更高水平监督的最先进的迁移学习方法相匹配。