本文介绍了一种新型高效的变换器模型GANsformer,并将其应用于可视化生成建模。该网络采用了两部分结构,使跨图像的远距离交互成为可能,同时保持线性效率的计算,可以很容易地扩展到高分辨率合成。它从一组潜在变量迭代地传播信息到进化的视觉特征,反之亦然,以支持每一个根据另一个来细化,并鼓励物体和场景的合成表现形式的出现。与经典的变换器架构相比,它利用了乘法积分,允许灵活的基于区域的调制,因此可以被视为成功的StyleGAN网络的推广。我们通过对一系列数据集(从模拟的多目标环境到丰富的真实室内和室外场景)的仔细评估,展示了该模型的强度和鲁棒性,表明它在图像质量和多样性方面达到了最先进的结果,同时拥有快速学习和更好的数据效率。进一步的定性和定量实验为我们提供了对模型内部工作的深入了解,揭示了改进的可解释性和更强的解纠缠性,并说明了我们方法的好处和有效性。