基于Template的判别式跟踪器由于其鲁棒性和准确性而成为当前的主要跟踪方法,而基于Siamese网络的方法(依赖于从模板和搜索图像中提取的特征之间的互相关操作)显示了最新技术的跟踪效果。但是,一般的互相关运算只能获得两个特征图中的local patches之间的关系。在本文中,我们提出了一种基于强大的注意力机制的新颖跟踪器网络,该机制称为Transformer编码器-解码器体系结构,以获得全局和丰富的上下文相互依赖关系。在这种新架构中,模板图像的特征由编码器部分中的自注意力模块处理,以学习强大的上下文信息,然后将其发送到解码器部分,以计算与另一自我处理的搜索图像特征之间的交叉注意力模块。另外,我们使用Transformer的输出来设计分类和回归头,以基于不可知形状的锚来定位目标。我们在VOT2018,VOT2019,OTB-100,UAV,NfS,TrackingNet和LaSOT基准测试上对跟踪器TrTr进行了广泛的评估,并且我们的方法相对于最新算法表现良好。