We propose a robust and accurate method for estimating the 3D poses of two hands in close interaction from a single color image. This is a very challenging problem, as large occlusions and many confusions between the joints may happen. Our method starts by extracting a set of potential 2D locations for the joints of both hands as extrema of a heatmap. We do not require that all locations correctly correspond to a joint, not that all the joints are detected. We use appearance and spatial encodings of these locations as input to a transformer, and leverage the attention mechanisms to sort out the correct configuration of the joints and output the 3D poses of both hands. Our approach thus allies the recognition power of a Transformer to the accuracy of heatmap-based methods. We also show it can be extended to estimate the 3D pose of an object manipulated by one or two hands. We evaluate our approach on the recent and challenging InterHand2.6M and HO-3D datasets. We obtain 17% improvement over the baseline. Moreover, we introduce the first dataset made of action sequences of two hands manipulating an object fully annotated in 3D and will make it publicly available.


翻译:我们建议了一种可靠和准确的方法,用一个颜色图像来密切互动来估计两只手的三维成像。 这是一个非常棘手的问题,因为两只手之间可能会发生巨大的隔热和许多混乱。 我们的方法是从抽取两只手接头的一组潜在的二维位置开始,作为热映射的外形。 我们并不要求所有位置都正确对应一个联合, 而不是所有连接都检测到。 我们使用这些位置的外观和空间编码作为变压器的输入, 并利用关注机制来理清连接和输出两只手的三维成像的正确配置。 我们的方法因此将变异器的识别力与基于热映射的方法的准确性联系起来。 我们还可以显示它可以被扩大, 来估计一手或两只手操纵的对象的三维构成。 我们评估了我们最近对具有挑战性的InterHand2.6M和HO-3D数据集的处理方法。 我们对基线做了17%的改进。 此外, 我们引入了两个手操纵对象的行动序列的第一个数据集, 在 3D 中可以完全使用。

0
下载
关闭预览

相关内容

MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
3D Object Detection with Pointformer
Arxiv
0+阅读 · 2021年6月22日
DPOD: Dense 6D Pose Object Detector in RGB images
Arxiv
5+阅读 · 2019年2月28日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
VIP会员
相关VIP内容
相关资讯
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Top
微信扫码咨询专知VIP会员