【伯克利博士论文】从自然场景视频中解耦人体运动和相机运动

随着我们开始与人工智能系统进行互动，我们需要它们能够以 4D 视角解读视觉世界——即感知世界中的几何结构和运动。然而，图像空间中的像素差异可能来自几何结构（通过相机运动）或世界中的场景运动。要从单一视频中解开这两种来源是极度欠约束的。

在本论文中，我构建了多个系统，用于从有限的图像观测中恢复场景表示。具体来说，我研究了一系列问题，这些问题构建了通向 4D 单目恢复问题的路径，每个问题都解决了该问题欠约束的不同方面。首先，我研究了在没有场景运动的情况下从欠约束输入中恢复形状的问题。具体而言，我提出了 pixelNeRF，这是一种从单个或少数视图合成静态场景新视角的方法。我们通过在多个场景的图像特征上训练一个 3D 神经表示来学习场景先验。这种学习到的场景先验使得能够从单一或少量图像的欠约束输入中完成 3D 场景。

接下来，我研究了在没有 3D 形状的情况下恢复运动的问题。特别地，我提出了 Deformable Sprites，一种从输入视频中提取动态场景中持久元素的方法。我们将每个元素表示为在视频中变形的 2D 图像层。最后，我介绍了两个关于从单一视频中联合恢复 4D 世界的形状和运动的研究。我首先研究了动态人类的特例，并提出了 SLAHMR，其中我们从单个视频中恢复了在世界坐标系中的所有人和相机的全局姿态。然后，我扩展到恢复单个视频中的任何动态对象的一般情况，即 Shape of Motion，在其中我们将整个场景表示为 4D 高斯分布，这可以用于动态新视角合成和 3D 跟踪。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

25+阅读 · 2024年11月24日

【CMU博士论文】理解、正式表征和稳健处理现实世界的分布变迁

专知会员服务

22+阅读 · 2024年7月26日

【斯坦福博士论文】生成模型的视觉与行为

专知会员服务

33+阅读 · 2024年7月11日

【伯克利博士论文】解耦视觉生成模型

专知会员服务

30+阅读 · 2024年5月9日