Position encoding is important for vision transformer (ViT) to capture the spatial structure of the input image. General efficacy has been proven in ViT. In our work we propose to train ViT to recognize the 2D position encoding of patches of the input image, this apparently simple task actually yields a meaningful self-supervisory task. Based on previous work on ViT position encoding, we propose two position labels dedicated to 2D images including absolute position and relative position. Our position labels can be easily plugged into transformer, combined with the various current ViT variants. It can work in two ways: 1.As an auxiliary training target for vanilla ViT (e.g., ViT-B and Swin-B) to improve model performance. 2. Combine the self-supervised ViT (e.g., MAE) to provide a more powerful self-supervised signal for semantic feature learning. Experiments demonstrate that solely due to the proposed self-supervised methods, Swin-B and ViT-B obtained improvements of 1.9% (top-1 Acc) and 5.6% (top-1 Acc) on Mini-ImageNet, respectively.
翻译:定位编码对于视觉变压器( Vit) 捕捉输入图像的空间结构非常重要。 通用效果已经在 Vit 中得到了证明。 我们建议对 Vit 进行 Vit 培训, 以识别输入图像的补丁的 2D 位置编码。 在我们拟议对 Vit 进行的培训中, 这个显然简单的任务实际上产生了一个有意义的自我监督任务。 基于 Vit 位置编码的先前工作, 我们提议了两个位置标签, 专门用于 2D 图像, 包括绝对位置和相对位置。 我们的位置标签可以很容易地插入到变压器中, 与目前各种 Vit 变异器结合起来。 它可以通过以下两种方式运作: 1. A 用于 Virilla Vit (例如 Vit-1 B 和 Swin- B) 的辅助培训目标, 以提高模型性能。 2. 合并自监督 Vit( 例如 MAE) 的 Vitu T ( MAE), 以提供更强大的自我监督信号, 包括绝对位置和相对位置 。 实验表明, 我们的位置标签可以仅仅由于拟议的自我监督方法, Swin- B 和 Vit- B 改进了1.9% ( top-1 Acc) 和 5.6 分别在 Mini- AM 上( t-1 Acc) 。