在Transformer模型[1,2,6,7,8]中,相对位置编码显式地对任意两个Token的位置关系进行建模,提高了模型的表征能力。它的有效性在自然语言处理领域得到了充分证明[14,15,16,17,18]。然而,在计算机视觉领域,讨论相对位置编码的工作比较少[9,10,11,12,13]且存在不同的观点。由于图像可视为二维的序列,如何将一维相对位置编码推广到二维相对位置编码,解决方案仍不清晰。本篇论文提出了四种二维相对位置编码的映射方式,同时分析了Vision Transformer中影响二维相对位置性能的关键因素,得到了以下有趣的发现:
不需要调整训练的超参数,相对位置编码能给图像分类和目标检测的Vision Transformers模型带来显著的精度提升;
相对位置的方向信息在图像分类、目标检测任务中有着重要作用;
输入相关的相对位置编码比输入无关的相对位置编码更有效;
组合不同嵌入特征上的相对位置编码,能够进一步提升模型的表征能力;
在图像分类任务中,相对位置编码可以完全替代绝对位置编码,因为图像分类不需要预测物体的位置,相对位置编码能够让模型更关注局部信息;在目标检测任务中,相对位置编码能提高模型精度,但绝对位置编码是必须的,因为相对位置编码不能提供物体定位所需的绝对位置信息。 https://houwenpeng.com/publications/iRPE.pdf