Contrastive learning methods for unsupervised visual representation learning have reached remarkable levels of transfer performance. We argue that the power of contrastive learning has yet to be fully unleashed, as current methods are trained only on instance-level pretext tasks, leading to representations that may be sub-optimal for downstream tasks requiring dense pixel predictions. In this paper, we introduce pixel-level pretext tasks for learning dense feature representations. The first task directly applies contrastive learning at the pixel level. We additionally propose a pixel-to-propagation consistency task that produces better results, even surpassing the state-of-the-art approaches by a large margin. Specifically, it achieves 60.2 AP, 41.4 / 40.5 mAP and 77.2 mIoU when transferred to Pascal VOC object detection (C4), COCO object detection (FPN / C4) and Cityscapes semantic segmentation using a ResNet-50 backbone network, which are 2.6 AP, 0.8 / 1.0 mAP and 1.0 mIoU better than the previous best methods built on instance-level contrastive learning. Moreover, the pixel-level pretext tasks are found to be effective for pre-training not only regular backbone networks but also head networks used for dense downstream tasks, and are complementary to instance-level contrastive methods. These results demonstrate the strong potential of defining pretext tasks at the pixel level, and suggest a new path forward in unsupervised visual representation learning. Code is available at \url{https://github.com/zdaxie/PixPro}.
翻译:没有监督的视觉表现学习的对比性学习方法达到惊人的转移性能水平 { 我们争辩说, 对比性学习的力量尚未完全释放, 因为目前的方法仅以实例层面的托辞任务来培训, 导致下游任务的演示可能是亚最佳的, 下游任务需要密集像素预测。 在本文中, 我们为学习密集的特征表现引入像素级的比喻级的托辞任务 。 第一个任务直接在像素级直接应用对比性学习 。 我们还提议了一个像素- 50 骨干网络, 产生更好的效果, 甚至以大幅度的幅度超过最先进的直观方法。 具体地说, 当传输到 Pscal VOC 检测( C4 ) CO 对象检测( FPN/ C4) 和 Cecoscape 语分解时, 我们提出了比先前在实例层面建立的最佳方法更佳的像素- 水平的比喻- 40.5 mAP 和1.0 mIOU 方法 。 在常规的基质分析性研究中, Plix 任务只是用于前的比喻级的比喻级的比喻级 。, 级的比级的比级的 级的更高级前级的比级级 级的更高级的比级 级级 级的 级的 级级级级级 级 级级 级级级级级级级 级 级级级级级 级级级 级 级 级 级 级级 级 级 级 级 级 级 级 级 级 级级级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级