TransPose: 通过变换器实现关键点本地化 (TransPose: Keypoint Localization via Transformer) - 专知论文

会员服务 ·

0

转置 · MoDELS · 变换 · CLUES · Conformer ·

2021 年 9 月 1 日

TransPose: Keypoint Localization via Transformer

翻译：TransPose: 通过变换器实现关键点本地化

Sen Yang,Zhibin Quan,Mu Nie,Wankou Yang

from arxiv, Accepted by ICCV 2021

While CNN-based models have made remarkable progress on human pose estimation, what spatial dependencies they capture to localize keypoints remains unclear. In this work, we propose a model called \textbf{TransPose}, which introduces Transformer for human pose estimation. The attention layers built in Transformer enable our model to capture long-range relationships efficiently and also can reveal what dependencies the predicted keypoints rely on. To predict keypoint heatmaps, the last attention layer acts as an aggregator, which collects contributions from image clues and forms maximum positions of keypoints. Such a heatmap-based localization approach via Transformer conforms to the principle of Activation Maximization~\cite{erhan2009visualizing}. And the revealed dependencies are image-specific and fine-grained, which also can provide evidence of how the model handles special cases, e.g., occlusion. The experiments show that TransPose achieves 75.8 AP and 75.0 AP on COCO validation and test-dev sets, while being more lightweight and faster than mainstream CNN architectures. The TransPose model also transfers very well on MPII benchmark, achieving superior performance on the test set when fine-tuned with small training costs. Code and pre-trained models are publicly available\footnote{\url{https://github.com/yangsenius/TransPose}}.

翻译：虽然有线电视新闻网基础模型在人造相估测方面取得了显著的进展,但是它们捕捉到的将关键点本地化的空间依赖度仍然不明确。在这项工作中,我们提议了一个名为\ textbf{TransPose}的模型,它引入了人类造相估测变器。在变异器中构建的注意层使我们的模型能够有效地捕捉长距离关系,并且能够揭示预测关键点所依赖的可靠性。为了预测关键点热图,最后的注意层起到聚合器的作用,它收集图像线索和形成关键点最大位置的贡献。通过变异器这种基于热映射的本地化方法符合激活最大化原则。而暴露出来的依赖度是图象特有和细微的,这也能够证明模型是如何处理特殊案例的,例如,闭路图。实验显示, TransPosePose AP 和 AP CO 校准和 CO 最大关键点位置位置上的 AP 。这种以热映射法为基础的本地化方法,比主流的CNNPC II 测试模型在可使用时, 也能够很好地实现。

0

相关内容

【ICCV2021】基于Transformer 的神经绘画

专知会员服务

23+阅读 · 2021年9月20日

【ICGI2021】神经序列模型: RNNs和Transformers，248页ppt，

专知会员服务

46+阅读 · 2021年9月3日

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

专知会员服务

22+阅读 · 2021年4月20日

【万字长文】注意力机制可解释大论述

专知会员服务

55+阅读 · 2020年11月17日

【干货书】现代 C++ 教程：高速上手 C++11/14/17/20，82页pdf

专知会员服务

82+阅读 · 2020年9月28日

【ICML 2020】设置LayerNorm使Transformer加速收敛

专知会员服务

16+阅读 · 2020年7月27日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

计算机视觉最佳实践、代码示例和相关文档

计算机视觉最佳实践、代码示例和相关文档

专知会员服务

20+阅读 · 2019年10月9日

CVPR 2019 | 重磅！34篇 CVPR2019 论文实现代码

CVPR 2019 | 重磅！34篇 CVPR2019 论文实现代码

AI研习社

11+阅读 · 2019年6月21日

300篇 CVPR 2019 Oral 论文精选汇总，值得一看的 CV 论文都在这里

300篇 CVPR 2019 Oral 论文精选汇总，值得一看的 CV 论文都在这里

AI研习社

4+阅读 · 2019年6月15日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

CVPR2019 | 03-25日更新12篇论文及代码汇总（目标检测、姿态估计、跟踪、VQA等）

CVPR2019 | 03-25日更新12篇论文及代码汇总（目标检测、姿态估计、跟踪、VQA等）

极市平台

5+阅读 · 2019年3月25日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

人体姿态估计资源大列表（Human Pose Estimation）

人体姿态估计资源大列表（Human Pose Estimation）

专知

9+阅读 · 2018年10月6日

【推荐】YOLO实时目标检测(6fps)

【推荐】YOLO实时目标检测(6fps)

机器学习研究会

20+阅读 · 2017年11月5日

可解释的CNN

可解释的CNN

CreateAMind

17+阅读 · 2017年10月5日

Few-Shot Temporal Action Localization with Query Adaptive Transformer

Arxiv

0+阅读 · 2021年10月20日

FakeMix Augmentation Improves Transparent Object Detection

Arxiv

0+阅读 · 2021年10月19日

TransFusion: Cross-view Fusion with Transformer for 3D Human Pose Estimation

Arxiv

0+阅读 · 2021年10月18日

You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization

Arxiv

0+阅读 · 2021年10月18日

Occlusion Guided Self-supervised Scene Flow Estimation on 3D Point Clouds

Arxiv

0+阅读 · 2021年10月17日

OadTR: Online Action Detection with Transformers

Arxiv

7+阅读 · 2021年6月21日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Fine-Grained Head Pose Estimation Without Keypoints

Arxiv

5+阅读 · 2018年4月13日

Detect-and-Track: Efficient Pose Estimation in Videos

Arxiv

7+阅读 · 2017年12月26日

Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification

Arxiv

8+阅读 · 2017年11月22日

VIP会员

文章信息

相关主题

相关VIP内容

【ICCV2021】基于Transformer 的神经绘画

专知会员服务

23+阅读 · 2021年9月20日

【ICGI2021】神经序列模型: RNNs和Transformers，248页ppt，

专知会员服务

46+阅读 · 2021年9月3日

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

专知会员服务

22+阅读 · 2021年4月20日

【万字长文】注意力机制可解释大论述

专知会员服务

55+阅读 · 2020年11月17日

【干货书】现代 C++ 教程：高速上手 C++11/14/17/20，82页pdf

专知会员服务

82+阅读 · 2020年9月28日

【ICML 2020】设置LayerNorm使Transformer加速收敛

专知会员服务

16+阅读 · 2020年7月27日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

计算机视觉最佳实践、代码示例和相关文档

计算机视觉最佳实践、代码示例和相关文档

专知会员服务

20+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

网络安全技术生成式人工智能服务安全基本要求

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【新书】AI红队演练：智能系统的攻击与防御

基于 Transformer 的脑电解码综述询问 ChatGPT

相关资讯

CVPR 2019 | 重磅！34篇 CVPR2019 论文实现代码

CVPR 2019 | 重磅！34篇 CVPR2019 论文实现代码

AI研习社

11+阅读 · 2019年6月21日

300篇 CVPR 2019 Oral 论文精选汇总，值得一看的 CV 论文都在这里

300篇 CVPR 2019 Oral 论文精选汇总，值得一看的 CV 论文都在这里

AI研习社

4+阅读 · 2019年6月15日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

CVPR2019 | 03-25日更新12篇论文及代码汇总（目标检测、姿态估计、跟踪、VQA等）

CVPR2019 | 03-25日更新12篇论文及代码汇总（目标检测、姿态估计、跟踪、VQA等）

极市平台

5+阅读 · 2019年3月25日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

人体姿态估计资源大列表（Human Pose Estimation）

人体姿态估计资源大列表（Human Pose Estimation）

专知

9+阅读 · 2018年10月6日

【推荐】YOLO实时目标检测(6fps)

【推荐】YOLO实时目标检测(6fps)

机器学习研究会

20+阅读 · 2017年11月5日

可解释的CNN

可解释的CNN

CreateAMind

17+阅读 · 2017年10月5日

相关论文

Few-Shot Temporal Action Localization with Query Adaptive Transformer

Arxiv

0+阅读 · 2021年10月20日

FakeMix Augmentation Improves Transparent Object Detection

Arxiv

0+阅读 · 2021年10月19日

TransFusion: Cross-view Fusion with Transformer for 3D Human Pose Estimation

Arxiv

0+阅读 · 2021年10月18日

You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization

Arxiv

0+阅读 · 2021年10月18日

Occlusion Guided Self-supervised Scene Flow Estimation on 3D Point Clouds

Arxiv

0+阅读 · 2021年10月17日

OadTR: Online Action Detection with Transformers

Arxiv

7+阅读 · 2021年6月21日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Fine-Grained Head Pose Estimation Without Keypoints

Arxiv

5+阅读 · 2018年4月13日

Detect-and-Track: Efficient Pose Estimation in Videos

Arxiv

7+阅读 · 2017年12月26日

Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification

Arxiv

8+阅读 · 2017年11月22日

微信扫码咨询专知VIP会员