We build the first system to address the problem of reconstructing in-scene object manipulation from a monocular RGB video. It is challenging due to ill-posed scene reconstruction, ambiguous hand-object depth, and the need for physically plausible interactions. Existing methods operate in hand centric coordinates and ignore the scene, hindering metric accuracy and practical use. In our method, we first use data-driven foundation models to initialize the core components, including the object mesh and poses, the scene point cloud, and the hand poses. We then apply a two-stage optimization that recovers a complete hand-object motion from grasping to interaction, which remains consistent with the scene information observed in the input video.


翻译:我们构建了首个解决从单目RGB视频重建场景内物体操作问题的系统。该问题因场景重建的病态性、手-物体深度模糊性以及对物理合理交互的需求而极具挑战。现有方法基于手部中心坐标系运行并忽略场景,阻碍了度量精度与实际应用。在我们的方法中,我们首先利用数据驱动的基础模型初始化核心组件,包括物体网格与位姿、场景点云及手部位姿。随后采用两阶段优化方法,恢复从抓取到交互的完整手-物体运动轨迹,该轨迹与输入视频中观察到的场景信息保持一致性。

0
下载
关闭预览

相关内容

【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员