随着我们开始与人工智能系统进行互动,我们需要它们能够以 4D 视角解读视觉世界——即感知世界中的几何结构和运动。然而,图像空间中的像素差异可能来自几何结构(通过相机运动)或世界中的场景运动。要从单一视频中解开这两种来源是极度欠约束的。

在本论文中,我构建了多个系统,用于从有限的图像观测中恢复场景表示。具体来说,我研究了一系列问题,这些问题构建了通向 4D 单目恢复问题的路径,每个问题都解决了该问题欠约束的不同方面。首先,我研究了在没有场景运动的情况下从欠约束输入中恢复形状的问题。具体而言,我提出了 pixelNeRF,这是一种从单个或少数视图合成静态场景新视角的方法。我们通过在多个场景的图像特征上训练一个 3D 神经表示来学习场景先验。这种学习到的场景先验使得能够从单一或少量图像的欠约束输入中完成 3D 场景。

接下来,我研究了在没有 3D 形状的情况下恢复运动的问题。特别地,我提出了 Deformable Sprites,一种从输入视频中提取动态场景中持久元素的方法。我们将每个元素表示为在视频中变形的 2D 图像层。 最后,我介绍了两个关于从单一视频中联合恢复 4D 世界的形状和运动的研究。我首先研究了动态人类的特例,并提出了 SLAHMR,其中我们从单个视频中恢复了在世界坐标系中的所有人和相机的全局姿态。然后,我扩展到恢复单个视频中的任何动态对象的一般情况,即 Shape of Motion,在其中我们将整个场景表示为 4D 高斯分布,这可以用于动态新视角合成和 3D 跟踪。

成为VIP会员查看完整内容
18

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【伯克利博士论文】揭示任何视频背后的四维世界
专知会员服务
25+阅读 · 2024年11月24日
【斯坦福博士论文】生成模型的视觉与行为
专知会员服务
33+阅读 · 2024年7月11日
【伯克利博士论文】解耦视觉生成模型
专知会员服务
28+阅读 · 2024年5月9日
【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
20+阅读 · 2024年3月30日
【ETHZ博士论文】增强现实中3D场景的重建、理解与编辑
专知会员服务
34+阅读 · 2024年2月17日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
155+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员