随着以自然为灵感的纯粹注意力模型,即transformer的出现,以及它们在自然语言处理(NLP)方面的成功,它们对机器视觉(MV)任务的扩展是不可避免的,而且感觉非常强烈。随后,视觉变换器(ViTs)的引入给现有的基于深度学习的机器视觉技术带来了挑战。然而,纯粹的基于注意力的模型/架构,如变换器,需要大量的数据、大量的训练时间和大量的计算资源。最近的一些工作表明,这两个不同领域的组合可以证明构建具有这两个领域的优点的系统。据此,这一现状的综述论文是介绍,希望将帮助读者得到有用的信息,这一有趣的和潜在的研究领域。首先介绍了注意力机制,然后讨论了流行的基于注意力的深度架构。随后,我们讨论了基于机器视觉的注意机制与深度学习交叉的主要类别。然后,讨论了本文研究范围内的主要算法、问题和发展趋势。