机翻提示：为了让中文翻译更易读懂，请使用简明、清晰的表达。请注意中文与英文之间的对照，以及中英文的句式差异。【翻译】 MeMaHand: 利用网格-Mano交互进行单张图像双手重建 (MeMaHand: Exploiting Mesh-Mano Interaction for Single Image Two-Hand Reconstruction) - 专知论文

会员服务 ·

0

网格 · 重建 · 重建方法 · 参数化 · 交互 ·

2023 年 4 月 17 日

MeMaHand: Exploiting Mesh-Mano Interaction for Single Image Two-Hand Reconstruction

翻译：机翻提示：为了让中文翻译更易读懂，请使用简明、清晰的表达。请注意中文与英文之间的对照，以及中英文的句式差异。【翻译】 MeMaHand: 利用网格-Mano交互进行单张图像双手重建

Congyi Wang,Feida Zhu,Shilei Wen

Existing methods proposed for hand reconstruction tasks usually parameterize a generic 3D hand model or predict hand mesh positions directly. The parametric representations consisting of hand shapes and rotational poses are more stable, while the non-parametric methods can predict more accurate mesh positions. In this paper, we propose to reconstruct meshes and estimate MANO parameters of two hands from a single RGB image simultaneously to utilize the merits of two kinds of hand representations. To fulfill this target, we propose novel Mesh-Mano interaction blocks (MMIBs), which take mesh vertices positions and MANO parameters as two kinds of query tokens. MMIB consists of one graph residual block to aggregate local information and two transformer encoders to model long-range dependencies. The transformer encoders are equipped with different asymmetric attention masks to model the intra-hand and inter-hand attention, respectively. Moreover, we introduce the mesh alignment refinement module to further enhance the mesh-image alignment. Extensive experiments on the InterHand2.6M benchmark demonstrate promising results over the state-of-the-art hand reconstruction methods.

翻译：现有的手部重建方法通常对通用的3D手部模型进行参数化或直接预测手部网格位置。由手部形状和旋转姿态组成的参数表示更加稳定，而非参数化方法可以预测更准确的网格位置。本文提出从单幅RGB图像同时重建两只手的网格并估计MANO参数，以利用两种手部表示的优点。为实现这一目标，我们提出了新颖的Mesh-Mano交互块（MMIB），它将网格顶点位置和MANO参数作为两种查询令牌。MMIB由一个图形残差块组成，用于聚合局部信息，并由两个Transformer编码器组成，用于模拟长程依赖关系。Transformer编码器配备不同的不对称注意掩码，以分别模拟手内和手间的关注。此外，我们引入了网格对齐细化模块，以进一步增强网格-图像对齐。在InterHand2.6M基准测试上进行了广泛的实验，证明了本文方法优于现有的手部重建方法的良好效果。

0

相关内容

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【AAAI2022】在场景文本识别中，视觉语义学可以更好地进行文本推理

【AAAI2022】在场景文本识别中，视觉语义学可以更好地进行文本推理

专知会员服务

17+阅读 · 2022年2月7日

【NeurIPS2021】多模态虚拟点三维检测

【NeurIPS2021】多模态虚拟点三维检测

专知会员服务

19+阅读 · 2021年11月16日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【论文推荐】多模态知识图谱上的端到端实体分类，End-to-End Entity Classification on Multimodal Knowledge Graphs

【论文推荐】多模态知识图谱上的端到端实体分类，End-to-End Entity Classification on Multimodal Knowledge Graphs

专知会员服务

50+阅读 · 2020年3月30日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

专知会员服务

22+阅读 · 2020年3月18日

【北京大学】探索提取跨模态信息进行图像caption，Exploring and Distilling Cross-Modal Information for Image Captioning

【北京大学】探索提取跨模态信息进行图像caption，Exploring and Distilling Cross-Modal Information for Image Captioning

专知会员服务

54+阅读 · 2020年3月3日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

专知会员服务

22+阅读 · 2019年11月2日

贾佳亚等提出Fast Point R-CNN，利用点云快速高效检测3D目标

贾佳亚等提出Fast Point R-CNN，利用点云快速高效检测3D目标

机器之心

11+阅读 · 2019年9月10日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

【推荐】用Tensorflow理解LSTM

【推荐】用Tensorflow理解LSTM

机器学习研究会

36+阅读 · 2017年9月11日

基于分层图结构化稀疏低秩表示的目标联合分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

副溶血弧菌VI型分泌系统的表型功能及基因调控研究

国家自然科学基金

1+阅读 · 2014年12月31日

mRNA甲基化检测概率图模型

国家自然科学基金

2+阅读 · 2014年12月31日

飞机机翼动态变形及颤振三维散斑图像相关检测关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

城市植被多种数据源信息的三维精细重建与大规模真实感快速呈现

国家自然科学基金

1+阅读 · 2013年12月31日

面向敏感网络图像过滤的原生数字图像文本提取关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

视觉表象可视化：基于个体脑激活模式重建视觉表象形象

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉感知显著性的三维模型理解和绘制技术研究

国家自然科学基金

2+阅读 · 2010年12月31日

初级感觉皮层和运动皮层在语义记忆中的作用机制

国家自然科学基金

0+阅读 · 2009年12月31日

面向复杂建筑物部件的地面激光扫描点云与近景影像混合三维建模方法研究

国家自然科学基金

1+阅读 · 2009年12月31日

Automatic Reconstruction of Semantic 3D Models from 2D Floor Plans

Arxiv

0+阅读 · 2023年6月2日

4DSR-GCN: 4D Video Point Cloud Upsampling using Graph Convolutional Networks

Arxiv

0+阅读 · 2023年6月1日

Grounding Language Models to Images for Multimodal Inputs and Outputs

Arxiv

0+阅读 · 2023年6月1日

OmniMAE: Single Model Masked Pretraining on Images and Videos

Arxiv

0+阅读 · 2023年5月31日

A survey on deep hashing for image retrieval

A survey on deep hashing for image retrieval

Arxiv

15+阅读 · 2020年6月10日

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

An application of cascaded 3D fully convolutional networks for medical image segmentation

Arxiv

10+阅读 · 2018年3月20日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding

Arxiv

16+阅读 · 2017年11月20日

VIP会员

文章信息

相关主题

相关VIP内容

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【AAAI2022】在场景文本识别中，视觉语义学可以更好地进行文本推理

【AAAI2022】在场景文本识别中，视觉语义学可以更好地进行文本推理

专知会员服务

17+阅读 · 2022年2月7日

【NeurIPS2021】多模态虚拟点三维检测

【NeurIPS2021】多模态虚拟点三维检测

专知会员服务

19+阅读 · 2021年11月16日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【论文推荐】多模态知识图谱上的端到端实体分类，End-to-End Entity Classification on Multimodal Knowledge Graphs

【论文推荐】多模态知识图谱上的端到端实体分类，End-to-End Entity Classification on Multimodal Knowledge Graphs

专知会员服务

50+阅读 · 2020年3月30日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

专知会员服务

22+阅读 · 2020年3月18日

【北京大学】探索提取跨模态信息进行图像caption，Exploring and Distilling Cross-Modal Information for Image Captioning

【北京大学】探索提取跨模态信息进行图像caption，Exploring and Distilling Cross-Modal Information for Image Captioning

专知会员服务

54+阅读 · 2020年3月3日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

专知会员服务

22+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

人工智能时代背景下的未来海战

接触战中的无人机优势：美军旅级部队面临的小型无人机系统挑战与调整

相关资讯

贾佳亚等提出Fast Point R-CNN，利用点云快速高效检测3D目标

贾佳亚等提出Fast Point R-CNN，利用点云快速高效检测3D目标

机器之心

11+阅读 · 2019年9月10日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

【推荐】用Tensorflow理解LSTM

【推荐】用Tensorflow理解LSTM

机器学习研究会

36+阅读 · 2017年9月11日

相关论文

Automatic Reconstruction of Semantic 3D Models from 2D Floor Plans

Arxiv

0+阅读 · 2023年6月2日

4DSR-GCN: 4D Video Point Cloud Upsampling using Graph Convolutional Networks

Arxiv

0+阅读 · 2023年6月1日

Grounding Language Models to Images for Multimodal Inputs and Outputs

Arxiv

0+阅读 · 2023年6月1日

OmniMAE: Single Model Masked Pretraining on Images and Videos

Arxiv

0+阅读 · 2023年5月31日

A survey on deep hashing for image retrieval

A survey on deep hashing for image retrieval

Arxiv

15+阅读 · 2020年6月10日

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

An application of cascaded 3D fully convolutional networks for medical image segmentation

Arxiv

10+阅读 · 2018年3月20日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding

Arxiv

16+阅读 · 2017年11月20日

相关基金

基于分层图结构化稀疏低秩表示的目标联合分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

副溶血弧菌VI型分泌系统的表型功能及基因调控研究

国家自然科学基金

1+阅读 · 2014年12月31日

mRNA甲基化检测概率图模型

国家自然科学基金

2+阅读 · 2014年12月31日

飞机机翼动态变形及颤振三维散斑图像相关检测关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

城市植被多种数据源信息的三维精细重建与大规模真实感快速呈现

国家自然科学基金

1+阅读 · 2013年12月31日

面向敏感网络图像过滤的原生数字图像文本提取关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

视觉表象可视化：基于个体脑激活模式重建视觉表象形象

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉感知显著性的三维模型理解和绘制技术研究

国家自然科学基金

2+阅读 · 2010年12月31日

初级感觉皮层和运动皮层在语义记忆中的作用机制

国家自然科学基金

0+阅读 · 2009年12月31日

面向复杂建筑物部件的地面激光扫描点云与近景影像混合三维建模方法研究

国家自然科学基金

1+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员