自从ViT提出之后,许多基于Transformer的改进工作在图像分类中取得了不错的结果。然而,很少有工作对Transformer结构的有效性进行研究并解释,同时也尚未有工作采用统一的思想探究如何使用一个模型来解决多模态问题。我们首次通过进化算法的角度对Transformer结构进行解释,并提出了一个统一的序列模型范式去解决多模态问题。我们的贡献有以下几点:

  1. 理论上,我们通过类比进化算法(EA)来解释Vision Transformer(TR)的合理性,并推导出它们具有一致的数学表示。

  2. 方法上,类比EA中的动态局部种群概念,我们对ViT模型进行改进,设计了一个效率更高、效果更好的EAT模型,并提出了Task-related Head模块来更灵活、更优雅地处理多个任务。

  3. 框架上,我们引入了空间填充曲线(SFC)模块作为二维图像数据和一维序列数据之间的桥梁,使得仅用一个统一模型解决多模态任务的统一范式成为可能,同时将网络架构设计和数据结构独立开来。

  4. 分类和多模态实验证明了我们方法的优越性和灵活性。

成为VIP会员查看完整内容
16

相关内容

【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
【NeurIPS 2021】寻找视觉Transformer的搜索空间
专知会员服务
14+阅读 · 2021年12月1日
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
17+阅读 · 2021年11月25日
专知会员服务
19+阅读 · 2021年9月13日
专知会员服务
30+阅读 · 2021年2月26日
【WWW2021】用优化框架解释和统一图神经网络
专知会员服务
45+阅读 · 2021年2月1日
专知会员服务
29+阅读 · 2020年10月24日
【NeurIPS 2020 】神经网络结构生成优化
专知会员服务
21+阅读 · 2020年10月24日
【ICML2021】低秩Sinkhorn 分解
专知
9+阅读 · 2021年8月20日
【论文笔记】自注意力图池化
专知
82+阅读 · 2019年11月18日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
开放知识图谱
11+阅读 · 2018年4月25日
深度判别和共享特征学习的图像分类
计算机视觉战队
6+阅读 · 2017年9月27日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
Arxiv
7+阅读 · 2018年12月26日
Embedding Logical Queries on Knowledge Graphs
Arxiv
5+阅读 · 2018年9月6日
Arxiv
3+阅读 · 2018年5月28日
VIP会员
相关VIP内容
【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
【NeurIPS 2021】寻找视觉Transformer的搜索空间
专知会员服务
14+阅读 · 2021年12月1日
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
17+阅读 · 2021年11月25日
专知会员服务
19+阅读 · 2021年9月13日
专知会员服务
30+阅读 · 2021年2月26日
【WWW2021】用优化框架解释和统一图神经网络
专知会员服务
45+阅读 · 2021年2月1日
专知会员服务
29+阅读 · 2020年10月24日
【NeurIPS 2020 】神经网络结构生成优化
专知会员服务
21+阅读 · 2020年10月24日
相关资讯
【ICML2021】低秩Sinkhorn 分解
专知
9+阅读 · 2021年8月20日
【论文笔记】自注意力图池化
专知
82+阅读 · 2019年11月18日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
开放知识图谱
11+阅读 · 2018年4月25日
深度判别和共享特征学习的图像分类
计算机视觉战队
6+阅读 · 2017年9月27日
微信扫码咨询专知VIP会员