自从ViT提出之后,许多基于Transformer的改进工作在图像分类中取得了不错的结果。然而,很少有工作对Transformer结构的有效性进行研究并解释,同时也尚未有工作采用统一的思想探究如何使用一个模型来解决多模态问题。我们首次通过进化算法的角度对Transformer结构进行解释,并提出了一个统一的序列模型范式去解决多模态问题。我们的贡献有以下几点:
理论上,我们通过类比进化算法(EA)来解释Vision Transformer(TR)的合理性,并推导出它们具有一致的数学表示。
方法上,类比EA中的动态局部种群概念,我们对ViT模型进行改进,设计了一个效率更高、效果更好的EAT模型,并提出了Task-related Head模块来更灵活、更优雅地处理多个任务。
框架上,我们引入了空间填充曲线(SFC)模块作为二维图像数据和一维序列数据之间的桥梁,使得仅用一个统一模型解决多模态任务的统一范式成为可能,同时将网络架构设计和数据结构独立开来。
分类和多模态实验证明了我们方法的优越性和灵活性。