Hand pose estimation (HPE) can be used for a variety of human-computer interaction applications such as gesture-based control for physical or virtual/augmented reality devices. Recent works have shown that videos or multi-view images carry rich information regarding the hand, allowing for the development of more robust HPE systems. In this paper, we present the Multi-View Video-Based 3D Hand (MuViHand) dataset, consisting of multi-view videos of the hand along with ground-truth 3D pose labels. Our dataset includes more than 402,000 synthetic hand images available in 4,560 videos. The videos have been simultaneously captured from six different angles with complex backgrounds and random levels of dynamic lighting. The data has been captured from 10 distinct animated subjects using 12 cameras in a semi-circle topology where six tracking cameras only focus on the hand and the other six fixed cameras capture the entire body. Next, we implement MuViHandNet, a neural pipeline consisting of image encoders for obtaining visual embeddings of the hand, recurrent learners to learn both temporal and angular sequential information, and graph networks with U-Net architectures to estimate the final 3D pose information. We perform extensive experiments and show the challenging nature of this new dataset as well as the effectiveness of our proposed method. Ablation studies show the added value of each component in MuViHandNet, as well as the benefit of having temporal and sequential information in the dataset.


翻译:手形估计( HHPE) 可用于各种人体-计算机互动应用, 如物理或虚拟/放大现实装置的手势控制( HPE) 。 最近的工作显示, 视频或多视图图像包含与手有关的丰富信息, 从而可以开发更强大的 HPE 系统。 在本文中, 我们展示了多视视频 3D Hand ( MuviHand) 数据集, 由多视视频和地面真相 3D 的标签组成。 我们的数据集包含4 560 视频中的402 000多张合成手图象。 视频是从六个不同角度同时拍摄的, 具有复杂的背景和随机动态照明水平。 这些数据是从10个不同的有色对象采集的, 使用半圆形表层的 12个相机 。 其中6个跟踪相机只以手为焦点, 而其他6个固定相机则捕捉整个身体。 其次, 我们实施了 MuViHandNet, 一个由图像摄像导管组成的神经管道, 包括手的视觉嵌。 最后的学习者从6个不同角度和直径相序列信息中学习, 最后的学习者们的顺序信息, 和图形网络的每个都有时间和直径顺序的网络的实验,, 以UNet 的图性 显示我们的数据结构结构结构结构结构结构结构结构结构的图图,, 显示我们所的图象学的图图图图的图的图的图的图, 。

0
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2021年6月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
跟踪SLAM前沿动态系列之ICCV2019
泡泡机器人SLAM
7+阅读 · 2019年11月23日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
CVPR 2019 | 重磅!34篇 CVPR2019 论文实现代码
AI研习社
11+阅读 · 2019年6月21日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
汇总 | VIO、激光SLAM相关论文分类集锦
计算机视觉life
7+阅读 · 2019年1月28日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
0+阅读 · 2021年11月16日
Arxiv
27+阅读 · 2020年12月24日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
Arxiv
6+阅读 · 2018年2月8日
VIP会员
相关VIP内容
专知会员服务
30+阅读 · 2021年6月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
跟踪SLAM前沿动态系列之ICCV2019
泡泡机器人SLAM
7+阅读 · 2019年11月23日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
CVPR 2019 | 重磅!34篇 CVPR2019 论文实现代码
AI研习社
11+阅读 · 2019年6月21日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
汇总 | VIO、激光SLAM相关论文分类集锦
计算机视觉life
7+阅读 · 2019年1月28日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员