Masked image modeling (MIM) has demonstrated impressive results in self-supervised representation learning by recovering corrupted image patches. However, most methods still operate on low-level image pixels, which hinders the exploitation of high-level semantics for representation models. In this study, we propose to use a semantic-rich visual tokenizer as the reconstruction target for masked prediction, providing a systematic way to promote MIM from pixel-level to semantic-level. Specifically, we introduce vector-quantized knowledge distillation to train the tokenizer, which discretizes a continuous semantic space to compact codes. We then pretrain vision Transformers by predicting the original visual tokens for the masked image patches. Moreover, we encourage the model to explicitly aggregate patch information into a global image representation, which facilities linear probing. Experiments on image classification and semantic segmentation show that our approach outperforms all compared MIM methods. On ImageNet-1K (224 size), the base-size BEiT v2 achieves 85.5% top-1 accuracy for fine-tuning and 80.1% top-1 accuracy for linear probing. The large-size BEiT v2 obtains 87.3% top-1 accuracy for ImageNet-1K (224 size) fine-tuning, and 56.7% mIoU on ADE20K for semantic segmentation. The code and pretrained models are available at https://aka.ms/beit.
翻译:遮蔽图像模型( MIM) 通过恢复被腐蚀的图像补丁, 在自我监督的代表学习中展示了令人印象深刻的成果。 然而, 大多数方法仍然在低层次的图像像素上运行, 这阻碍了对高层次图像模型的利用。 在此研究中, 我们提议使用一个语义丰富的视觉象征器作为遮蔽预测的重建目标, 提供一个系统化的方法, 从像素层次到语义层次, 推广MIM。 具体地说, 我们引入矢量定量的知识蒸馏法, 以训练代号器, 该代号将连续的语义空间分解到紧凑的代码中。 我们随后通过预测隐藏图像模型模型的原始视觉符号来阻碍对高级图像模型的利用。 此外, 我们鼓励该模型将精密的拼凑信息作为全球图像图象显示的重建目标, 用于进行线性观测。 关于图像分类和语义分类的实验显示, 我们的方法比MIM方法都超越了20 。 在图像Net-1K (224), 基级的 BeiT v2 达到85.5% 顶级的顶端- 1 用于精确度 精确度 和 高级 K- 1 级 高级的 级的 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级