本文提出了一种视频自动编码器,以自监督的方式从视频中学习三维结构和摄像机姿态的分离表示。基于视频中的时间连续性,我们的工作假设邻近视频帧中的3D场景结构保持静态。给定一个视频帧序列作为输入,视频自动编码器提取场景的解纠缠表示,包括: (i)一个时间一致的深度体素特征来表示3D结构,(ii) 每一帧的摄像机姿态的3D轨迹。然后,这两个表示将重新纠缠,以渲染输入视频帧。这个视频自动编码器可以直接使用像素重建损失训练,没有任何地面真实3D或相机姿态标注。解纠缠表示可以应用于一系列任务,包括新颖的视图合成、摄像机姿态估计和通过运动跟踪生成视频。我们在几个大尺度的自然视频数据集上评价了我们的方法,并在域外图像上展示了泛化结果。
https://www.zhuanzhi.ai/paper/ea270d15e2966f9de28d31cb9b66c1db