由于其在语言、视觉和强化学习等领域的有效性,Transformer模型架构最近获得了巨大的兴趣。例如,在自然语言处理领域,Transformer 已经成为现代深度学习堆栈中不可或缺的重要组成部分。最近,出现了令人眼花缭乱的“X-former”模型——Reformer、Linformer、Performer、Longformer等等——它们改进了原始Transformer架构,其中许多都围绕计算和内存效率进行了改进。为了帮助热心的研究人员在这一热潮中导航,本文列举了大量深思熟虑的近期高效的“X-former”模型,为跨多个领域的现有工作和模型提供了一个有组织的、全面的概述。