本教程将介绍自注意力机制在计算机视觉中的应用。Self-Attention在NLP中被广泛采用,完全注意的Transformer模型已经在很大程度上取代了RNN,现在被用于最先进的语言理解模型,如GPT、BERT、XLNet、T5、Electra和Meena。因此,人们对研究自注意力是否能在计算机视觉中产生同样巨大而深远的影响产生了极大的兴趣。然而,由于视觉任务与语言任务具有不同的性质,因此许多研究都致力于探索自注意力在视觉模型中的最佳应用方式。本教程将涵盖视觉中自注意力的许多不同应用,以便让用户对这个子领域有一个广泛而精确的理解。