We present a comprehensive framework for egocentric interaction recognition using markerless 3D annotations of two hands manipulating objects. To this end, we propose a method to create a unified dataset for egocentric 3D interaction recognition. Our method produces annotations of the 3D pose of two hands and the 6D pose of the manipulated objects, along with their interaction labels for each frame. Our dataset, called H2O (2 Hands and Objects), provides synchronized multi-view RGB-D images, interaction labels, object classes, ground-truth 3D poses for left & right hands, 6D object poses, ground-truth camera poses, object meshes and scene point clouds. To the best of our knowledge, this is the first benchmark that enables the study of first-person actions with the use of the pose of both left and right hands manipulating objects and presents an unprecedented level of detail for egocentric 3D interaction recognition. We further propose the method to predict interaction classes by estimating the 3D pose of two hands and the 6D pose of the manipulated objects, jointly from RGB images. Our method models both inter- and intra-dependencies between both hands and objects by learning the topology of a graph convolutional network that predicts interactions. We show that our method facilitated by this dataset establishes a strong baseline for joint hand-object pose estimation and achieves state-of-the-art accuracy for first person interaction recognition.


翻译:我们用两只手操纵天体的无标记的 3D 说明为自我中心 3D 互动识别提供了一个全面的自我中心互动识别框架。 为此,我们建议了一种方法,为自我中心 3D 互动识别建立一个统一的数据集。 我们的方法产生了两只手3D 和被操纵天体的 6D 3D 的3D 配置说明,以及每个框架的交互标签。 我们的数据集称为 H2O (2 手和对象), 提供了同步的多视图 RGB-D 图像、互动标签、 对象类别、 左和右手的地面三D 3D 配置、 6D 对象构成、 地面真相相机 、 地面真相相机 、 目标网形和场景点云。 根据我们的知识,这是第一个基准基准基准,可以研究第一人的行动,同时使用左手操纵天体和右手的组合, 展示了我们以三D 手操纵天体和六D 组合对象的三D 构成。 我们的方法模型模型既能实现内部和内部互动, 也通过学习双手的模型, 展示了我们最强的图像的模型,从而展示了我们最强大的人之间最基本的图像。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
最新《Deepfakes:创造与检测》2020综述论文,36页pdf
专知会员服务
62+阅读 · 2020年5月15日
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
跟踪SLAM前沿动态系列之ICCV2019
泡泡机器人SLAM
7+阅读 · 2019年11月23日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
已删除
将门创投
8+阅读 · 2018年10月31日
VIP会员
相关资讯
跟踪SLAM前沿动态系列之ICCV2019
泡泡机器人SLAM
7+阅读 · 2019年11月23日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
已删除
将门创投
8+阅读 · 2018年10月31日
Top
微信扫码咨询专知VIP会员