DDT：一种基于扩散驱动的变形器框架，用于从视频中恢复人体网格 (DDT: A Diffusion-Driven Transformer-based Framework for Human Mesh Recovery from a Video) - 专知论文

会员服务 ·

0

网格 · 网格恢复 · 变形 · 时间效率 · 平滑 ·

2023 年 3 月 29 日

DDT: A Diffusion-Driven Transformer-based Framework for Human Mesh Recovery from a Video

翻译：DDT：一种基于扩散驱动的变形器框架，用于从视频中恢复人体网格

Ce Zheng,Guo-Jun Qi,Chen Chen

Human mesh recovery (HMR) provides rich human body information for various real-world applications such as gaming, human-computer interaction, and virtual reality. Compared to single image-based methods, video-based methods can utilize temporal information to further improve performance by incorporating human body motion priors. However, many-to-many approaches such as VIBE suffer from motion smoothness and temporal inconsistency. While many-to-one approaches such as TCMR and MPS-Net rely on the future frames, which is non-causal and time inefficient during inference. To address these challenges, a novel Diffusion-Driven Transformer-based framework (DDT) for video-based HMR is presented. DDT is designed to decode specific motion patterns from the input sequence, enhancing motion smoothness and temporal consistency. As a many-to-many approach, the decoder of our DDT outputs the human mesh of all the frames, making DDT more viable for real-world applications where time efficiency is crucial and a causal model is desired. Extensive experiments are conducted on the widely used datasets (Human3.6M, MPI-INF-3DHP, and 3DPW), which demonstrated the effectiveness and efficiency of our DDT.

翻译：人体网格恢复（HMR）为各种实际应用（如游戏、人机交互和虚拟现实）提供了丰富的人体信息。与基于单张图像的方法相比，基于视频的方法可以利用时间信息进一步提高性能，通过结合人体运动先验信息。然而，类似 VIBE 这样的对多对多的方法存在运动平滑性和时间不一致性的问题。而类似 TCMR 和 MPS-Net 的对多对一的方法依赖于未来帧，这在推理过程中是不可避免的且时间效率低下。为解决这些问题，提出了一种新的基于扩散驱动的变形器框架（DDT），用于基于视频的人体网格恢复。DDT 旨在从输入序列中解码特定的运动模式，增强运动平滑性和时间一致性。作为一种对多对多的方法，DDT 的解码器会输出所有帧的人体网格，使 DDT 更适用于实际应用中时间效率至关重要且需要一种因果模型的场景。在广泛使用的数据集（Human3.6M、MPI-INF-3DHP 和 3DPW）上进行了大量实验，证明了我们 DDT 的有效性和效率。

0

相关内容

【CVPR2023】高保真自由可控的说话头视频生成

【CVPR2023】高保真自由可控的说话头视频生成

专知会员服务

21+阅读 · 2023年4月22日

CVPR 2023 | GFPose: 在梯度场中编码三维人体姿态先验

CVPR 2023 | GFPose: 在梯度场中编码三维人体姿态先验

专知会员服务

19+阅读 · 2023年3月25日

用于分子Linker设计的等变3D条件扩散模型

用于分子Linker设计的等变3D条件扩散模型

专知会员服务

6+阅读 · 2022年10月24日

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知会员服务

36+阅读 · 2022年4月2日

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

15+阅读 · 2021年10月4日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

泡泡机器人SLAM

22+阅读 · 2019年1月17日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡一分钟】基于李群的无损卡尔曼滤波器在视觉里程计上的应用

【泡泡一分钟】基于李群的无损卡尔曼滤波器在视觉里程计上的应用

泡泡机器人SLAM

11+阅读 · 2018年12月17日

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

泡泡机器人SLAM

13+阅读 · 2018年10月7日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

专知

19+阅读 · 2018年5月31日

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

专知

25+阅读 · 2018年4月15日

【论文推荐】最新七篇知识图谱相关论文—知识表示学习、增强神经网络、链接预测、关系预测与提取、综述、递归特性生成、深度知识感知网络

【论文推荐】最新七篇知识图谱相关论文—知识表示学习、增强神经网络、链接预测、关系预测与提取、综述、递归特性生成、深度知识感知网络

专知

29+阅读 · 2018年3月6日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

基于几何精确理论的大变形柔性多体系统动力学变分李群模型及算法

国家自然科学基金

0+阅读 · 2014年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于同步多双目立体视觉的高精度人体建模

国家自然科学基金

0+阅读 · 2014年12月31日

自由环境下的基于可穿戴惯导和视觉传感器融合的人体姿态识别技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

视频客观质量评价中的运动掩膜特性研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于混合光传输模型和复合正则化的生物发光断层成像重建方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于数据驱动紧框架小波稀疏约束优化的地震数据重建

国家自然科学基金

0+阅读 · 2012年12月31日

虚拟手术仿真系统中人体软组织建模的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于两重网格的Navier-Stokes方程并行自适应后处理及变分多尺度算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

虚实混合环境中可视外壳实时建模与优化方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

Arxiv

0+阅读 · 2023年5月18日

Towards 3D Face Reconstruction in Perspective Projection: Estimating 6DoF Face Pose from Monocular Image

Arxiv

0+阅读 · 2023年5月17日

Face Recognition Using Synthetic Face Data

Arxiv

0+阅读 · 2023年5月17日

Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

Arxiv

0+阅读 · 2023年5月16日

Blind Image Quality Assessment via Transformer Predicted Error Map and Perceptual Quality Token

Arxiv

0+阅读 · 2023年5月16日

Recovering 3D Human Mesh from Monocular Images: A Survey

Arxiv

12+阅读 · 2022年3月8日

Deep Learning-Based Human Pose Estimation: A Survey

Arxiv

27+阅读 · 2020年12月24日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

An application of cascaded 3D fully convolutional networks for medical image segmentation

Arxiv

10+阅读 · 2018年3月20日

VIP会员

文章信息

相关主题

相关VIP内容

【CVPR2023】高保真自由可控的说话头视频生成

【CVPR2023】高保真自由可控的说话头视频生成

专知会员服务

21+阅读 · 2023年4月22日

CVPR 2023 | GFPose: 在梯度场中编码三维人体姿态先验

CVPR 2023 | GFPose: 在梯度场中编码三维人体姿态先验

专知会员服务

19+阅读 · 2023年3月25日

用于分子Linker设计的等变3D条件扩散模型

用于分子Linker设计的等变3D条件扩散模型

专知会员服务

6+阅读 · 2022年10月24日

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知会员服务

36+阅读 · 2022年4月2日

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

15+阅读 · 2021年10月4日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

泡泡机器人SLAM

22+阅读 · 2019年1月17日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡一分钟】基于李群的无损卡尔曼滤波器在视觉里程计上的应用

【泡泡一分钟】基于李群的无损卡尔曼滤波器在视觉里程计上的应用

泡泡机器人SLAM

11+阅读 · 2018年12月17日

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

泡泡机器人SLAM

13+阅读 · 2018年10月7日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

专知

19+阅读 · 2018年5月31日

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

专知

25+阅读 · 2018年4月15日

【论文推荐】最新七篇知识图谱相关论文—知识表示学习、增强神经网络、链接预测、关系预测与提取、综述、递归特性生成、深度知识感知网络

【论文推荐】最新七篇知识图谱相关论文—知识表示学习、增强神经网络、链接预测、关系预测与提取、综述、递归特性生成、深度知识感知网络

专知

29+阅读 · 2018年3月6日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

相关论文

VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

Arxiv

0+阅读 · 2023年5月18日

Towards 3D Face Reconstruction in Perspective Projection: Estimating 6DoF Face Pose from Monocular Image

Arxiv

0+阅读 · 2023年5月17日

Face Recognition Using Synthetic Face Data

Arxiv

0+阅读 · 2023年5月17日

Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

Arxiv

0+阅读 · 2023年5月16日

Blind Image Quality Assessment via Transformer Predicted Error Map and Perceptual Quality Token

Arxiv

0+阅读 · 2023年5月16日

Recovering 3D Human Mesh from Monocular Images: A Survey

Arxiv

12+阅读 · 2022年3月8日

Deep Learning-Based Human Pose Estimation: A Survey

Arxiv

27+阅读 · 2020年12月24日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

An application of cascaded 3D fully convolutional networks for medical image segmentation

Arxiv

10+阅读 · 2018年3月20日

相关基金

基于几何精确理论的大变形柔性多体系统动力学变分李群模型及算法

国家自然科学基金

0+阅读 · 2014年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于同步多双目立体视觉的高精度人体建模

国家自然科学基金

0+阅读 · 2014年12月31日

自由环境下的基于可穿戴惯导和视觉传感器融合的人体姿态识别技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

视频客观质量评价中的运动掩膜特性研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于混合光传输模型和复合正则化的生物发光断层成像重建方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于数据驱动紧框架小波稀疏约束优化的地震数据重建

国家自然科学基金

0+阅读 · 2012年12月31日

虚拟手术仿真系统中人体软组织建模的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于两重网格的Navier-Stokes方程并行自适应后处理及变分多尺度算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

虚实混合环境中可视外壳实时建模与优化方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员