Vision transformer architectures have been demonstrated to work very effectively for image classification tasks. Efforts to solve more challenging vision tasks with transformers rely on convolutional backbones for feature extraction. In this paper we investigate the use of a pure transformer architecture (i.e., one with no CNN backbone) for the problem of 2D body pose estimation. We evaluate two ViT architectures on the COCO dataset. We demonstrate that using an encoder-decoder transformer architecture yields state of the art results on this estimation problem.


翻译:视觉变压器结构已证明在图像分类任务方面非常有效。通过变压器解决更具有挑战性的视觉任务的努力依靠进化骨干进行地貌提取。在本文件中,我们调查了2D体问题的纯变压器结构(即没有CNN骨干)的使用情况。我们评估了COCO数据集上的两个VIT结构。我们证明,使用编码器-解码器变压器结构可以得出关于这一估计问题的最新结果。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年5月12日
专知会员服务
45+阅读 · 2020年12月4日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
生成式对抗网络GAN异常检测
专知会员服务
116+阅读 · 2019年10月13日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
上海交通大学卢策吾团队上线高性能实时人体姿态估计系统
上海交大机器视觉与智能实验室
9+阅读 · 2018年9月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
已删除
将门创投
4+阅读 · 2017年12月5日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
7+阅读 · 2021年6月21日
Arxiv
6+阅读 · 2018年2月6日
VIP会员
相关VIP内容
专知会员服务
33+阅读 · 2021年5月12日
专知会员服务
45+阅读 · 2020年12月4日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
生成式对抗网络GAN异常检测
专知会员服务
116+阅读 · 2019年10月13日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
上海交通大学卢策吾团队上线高性能实时人体姿态估计系统
上海交大机器视觉与智能实验室
9+阅读 · 2018年9月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
已删除
将门创投
4+阅读 · 2017年12月5日
Top
微信扫码咨询专知VIP会员