Despite great progress in video-based 3D human pose estimation, it is still challenging to learn a discriminative single-pose representation from redundant sequences. To this end, we propose a novel Transformer-based architecture, called Lifting Transformer, for 3D human pose estimation to lift a sequence of 2D joint locations to a 3D pose. Specifically, a vanilla Transformer encoder (VTE) is adopted to model long-range dependencies of 2D pose sequences. To reduce redundancy of the sequence and aggregate information from local context, fully-connected layers in the feed-forward network of VTE are replaced with strided convolutions to progressively reduce the sequence length. The modified VTE is termed as strided Transformer encoder (STE) and it is built upon the outputs of VTE. STE not only significantly reduces the computation cost but also effectively aggregates information to a single-vector representation in a global and local fashion. Moreover, a full-to-single supervision scheme is employed at both the full sequence scale and single target frame scale, applying to the outputs of VTE and STE, respectively. This scheme imposes extra temporal smoothness constraints in conjunction with the single target frame supervision. The proposed architecture is evaluated on two challenging benchmark datasets, namely, Human3.6M and HumanEva-I, and achieves state-of-the-art results with much fewer parameters.


翻译:尽管在基于视频的 3D 人的构成估计方面取得了巨大进展,但从冗余序列中学习一个具有歧视性的单一位置代表仍然具有挑战性。为此,我们提议建立一个新型的基于变异器结构,称为“提升变异器”,用于3D 人的构成估计,将2D 联合位置的序列提升为3D 组合。具体地说,采纳了香草变异器编码器(VTE),以模拟长期依赖2D 组合序列。为了减少当地背景的序列和综合信息的冗余,VTE进进进取网络中完全连接的层被替换为螺旋式共振动,以逐步缩短序列长度。修改的变异器被称为“飞动变异器”编码器(STE),以VTE的输出为基础。 STE 不仅大幅降低计算成本,而且有效地将信息汇总到全球和地方模式的单一矢量代表制。此外,在全序规模和单一目标框架规模上都采用全到全链接的层监督机制,对VTE 和STE 的参数分别适用VTE 和Sl-ximal imal imal ass construeal constrational constrateal sal sal sal sal sal sal sal sal sal sal sal sal schemal schemal schemal schemal schemal sal sal scheutal 和S 这个系统, 和Syal sal sal sal sal sal sal sal sal sal sal sal sal 计划, 和人类基框架分别规定了两个。 和人类基框架。 这个结构。 和人类基准框架, 和人类基框架的模型, 。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
310+阅读 · 2020年11月26日
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Arxiv
12+阅读 · 2019年1月24日
VIP会员
相关资讯
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Top
微信扫码咨询专知VIP会员