受到自然语言处理(NLP)中通用模型成功的启发,近期研究尝试将不同的视觉任务统一到相同的序列格式中,并使用自回归的Transformers进行序列预测。它们应用单向注意力来捕捉序列依赖性,并递归生成任务序列。然而,这样的自回归Transformers可能不适合视觉任务,因为视觉任务序列通常缺乏在自然语言中通常观察到的序列依赖性。在这项工作中,我们设计了Masked AutoDecoder (MAD),一个有效的多任务视觉通用模型。MAD包含两个核心设计。首先,我们开发了一个并行解码框架,引入双向注意力以全面捕捉上下文依赖性,并并行解码视觉任务序列。其次,我们设计了一种遮蔽序列建模方法,通过遮蔽和重构任务序列来学习丰富的任务上下文。通过这种方式,MAD通过单一网络分支和简单的交叉熵损失处理所有任务,最小化任务特定设计。广泛的实验展示了MAD作为统一各种视觉任务新范式的巨大潜力。与自回归对手相比,MAD实现了更优的性能和推理效率,同时与任务特定模型保持竞争力的准确率。代码将在https://github.com/hanqiu-hq/MAD 发布。

成为VIP会员查看完整内容
20

相关内容

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
【CVPR2024】非自回归序列到序列的视觉-语言模型
专知会员服务
22+阅读 · 2024年3月5日
【KDD2023】协同过滤的高效联合超参数和架构搜索
专知会员服务
23+阅读 · 2023年7月23日
【AAAI2023】对比掩码自动编码器的自监督视频哈希
专知会员服务
15+阅读 · 2022年11月25日
专知会员服务
30+阅读 · 2020年9月18日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
VIP会员
相关VIP内容
【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
【CVPR2024】非自回归序列到序列的视觉-语言模型
专知会员服务
22+阅读 · 2024年3月5日
【KDD2023】协同过滤的高效联合超参数和架构搜索
专知会员服务
23+阅读 · 2023年7月23日
【AAAI2023】对比掩码自动编码器的自监督视频哈希
专知会员服务
15+阅读 · 2022年11月25日
专知会员服务
30+阅读 · 2020年9月18日
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员