Reconstructing the 3D pose of a person in metric scale from a single view image is a geometrically ill-posed problem. For example, we can not measure the exact distance of a person to the camera from a single view image without additional scene assumptions (e.g., known height). Existing learning based approaches circumvent this issue by reconstructing the 3D pose up to scale. However, there are many applications such as virtual telepresence, robotics, and augmented reality that require metric scale reconstruction. In this paper, we show that audio signals recorded along with an image, provide complementary information to reconstruct the metric 3D pose of the person. The key insight is that as the audio signals traverse across the 3D space, their interactions with the body provide metric information about the body's pose. Based on this insight, we introduce a time-invariant transfer function called pose kernel -- the impulse response of audio signals induced by the body pose. The main properties of the pose kernel are that (1) its envelope highly correlates with 3D pose, (2) the time response corresponds to arrival time, indicating the metric distance to the microphone, and (3) it is invariant to changes in the scene geometry configurations. Therefore, it is readily generalizable to unseen scenes. We design a multi-stage 3D CNN that fuses audio and visual signals and learns to reconstruct 3D pose in a metric scale. We show that our multi-modal method produces accurate metric reconstruction in real world scenes, which is not possible with state-of-the-art lifting approaches including parametric mesh regression and depth regression.


翻译:从单一视图图像重构一个3D的人的立体结构, 从一个图像重构一个尺寸的人的立体结构是一个几何错误的问题。 例如, 我们无法测量一个人与摄像头的准确距离, 而没有额外的场景假设( 例如已知高度 ) 。 现有的基于学习的方法通过重建立体结构, 从而绕过这一问题 。 但是, 有许多应用程序, 如虚拟远程现场、 机器人以及扩大现实, 需要以尺度重建 。 在本文中, 我们显示, 记录到的音频信号和图像是高度关联的, 为重建3D的立体形象提供了补充信息。 关键洞察力是, 当3D空间的音频信号横跨一个三维图像图像图像时, 他们和身体的相互作用提供了体形信息。 基于这个洞察, 我们引入了一个时间变异的转移功能, 也就是由立体的音频信号的脉冲反应。 组合的主要特征是:(1) 其信封与3D显示的高度关联性, (2) 时间与到达的时间对应, 显示的是, 它在3D 的到达时间距离上, 显示的是, 方向的直径距离是真实的深度, 它的直径的深度,, 我们的深度, 我们的深度, 的深度, 的深度, 我们的深度, 的深度, 显示, 我们的深度, 的深度, 我们的深度, 我们的深度, 方向的深度, 显示, 方向的深度, 方向的深度, 我们的深度, 的深度, 方向的深度, 的深度, 的深度, 的深度, 的深度, 的深度, 我们的深度, 我们的深度, 我们的深度, 我们的深度, 的深度, 我们的深度, 的深度, 的深度, 我们的深度, 我们的深度, 我们的深度, 的深度, 的深度, 的深度, 我们的深度, 的深度, 的深度, 的深度, 的深度, 我们的深度, 的深度, 的深度, 的深度, 我们的深度, 我们的深度, 的深度, 的深度, 的深度, 的深度, 的深度, 我们的深度, 的深度, 的深度, 的深度, 的深度, 的深度, 深度,,

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
【图与几何深度学习】Graph and geometric deep learning,49页ppt
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
Cross-Modal & Metric Learning 跨模态检索专题-2
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
CVPR2019 有关姿态估计方面的论文和代码
极市平台
4+阅读 · 2019年7月13日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
Arxiv
5+阅读 · 2018年5月31日
VIP会员
相关VIP内容
相关资讯
Cross-Modal & Metric Learning 跨模态检索专题-2
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
CVPR2019 有关姿态估计方面的论文和代码
极市平台
4+阅读 · 2019年7月13日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
Top
微信扫码咨询专知VIP会员