本文提出了一种视频自动编码器,以自监督的方式从视频中学习三维结构和摄像机姿态的分离表示。基于视频中的时间连续性,我们的工作假设邻近视频帧中的3D场景结构保持静态。给定一个视频帧序列作为输入,视频自动编码器提取场景的解纠缠表示,包括: (i)一个时间一致的深度体素特征来表示3D结构,(ii) 每一帧的摄像机姿态的3D轨迹。然后,这两个表示将重新纠缠,以渲染输入视频帧。这个视频自动编码器可以直接使用像素重建损失训练,没有任何地面真实3D或相机姿态标注。解纠缠表示可以应用于一系列任务,包括新颖的视图合成、摄像机姿态估计和通过运动跟踪生成视频。我们在几个大尺度的自然视频数据集上评价了我们的方法,并在域外图像上展示了泛化结果。

https://www.zhuanzhi.ai/paper/ea270d15e2966f9de28d31cb9b66c1db

成为VIP会员查看完整内容
9

相关内容

【NeurIPS2021】NeRV:视频的神经表示
专知会员服务
12+阅读 · 2021年10月28日
专知会员服务
15+阅读 · 2021年10月15日
专知会员服务
16+阅读 · 2021年10月4日
专知会员服务
8+阅读 · 2021年10月4日
专知会员服务
7+阅读 · 2021年9月20日
专知会员服务
20+阅读 · 2021年3月18日
【泡泡点云时空】FlowNet3D:学习三维点云中的场景流
泡泡机器人SLAM
41+阅读 · 2019年5月19日
【泡泡图灵智库】基于几何一致性网络的摄像机运动估计
【泡泡点云时空】集成深度语义分割的3D点云配准
泡泡机器人SLAM
28+阅读 · 2018年11月24日
【泡泡一分钟】SfM-Net:从视频中学习结构和运动
泡泡机器人SLAM
9+阅读 · 2018年5月29日
Arxiv
0+阅读 · 2021年12月1日
VIP会员
相关VIP内容
【NeurIPS2021】NeRV:视频的神经表示
专知会员服务
12+阅读 · 2021年10月28日
专知会员服务
15+阅读 · 2021年10月15日
专知会员服务
16+阅读 · 2021年10月4日
专知会员服务
8+阅读 · 2021年10月4日
专知会员服务
7+阅读 · 2021年9月20日
专知会员服务
20+阅读 · 2021年3月18日
微信扫码咨询专知VIP会员