**从视觉数据进行三维重建是机器人学、自动化机器和三维场景理解中的一个重要子任务。它涉及从图像/视频中估计相机和物体运动,以及三维结构。我将介绍一种名为优化引导神经迭代(OGNI)的方法,并展示它如何应用于各种三维重建任务。**在基于OGNI的方法中,我们通过将每个任务分解为由浅层网络预测的一系列小修正,来模仿经典的优化算法。每个修正都独立进行监督,并根据对解的当前估计进行特征条件化。这一机制出奇地通用,并且能够为三维重建问题提供鲁棒且高效的解决方案。此外,我还介绍了几个显式优化层,允许我们将这些具有挑战性的问题重新格式化为更容易处理的低级视觉任务。在视觉SLAM、立体匹配和物体姿态估计中,我展示了这一方法如何在准确性和/或速度上达到最先进的水平。我还讨论了该研究方向的潜在未来发展。从视觉数据进行三维重建是机器人学、自动化机器和三维场景理解中的一个重要子任务。它涉及从图像/视频中估计相机和物体运动,以及三维结构。我将介绍一种名为优化引导神经迭代(OGNI)的方法,并展示它如何应用于各种三维重建任务。三维重建是一个尚未解决的问题,许多方面使得设计有效算法特别具有挑战性。对于任何基于图像/视频的算法,训练和推理效率都很难实现,因为问题的输入本质上是信息密集型的。与总结问题不同,三维重建通常涉及“密集预测”,即算法必须对每个图像的每个像素进行预测,且在多视图输入的情况下,需要将这些每像素的输出汇总为全局表示。在实际操作中,大多数工作只能在小图像或短视频片段上运行。三维重建的一个有用特性是,极线几何的原理可以限制可能解决方案的空间,至少对于刚性物体而言,从而使得问题变得更容易。这些“规则”允许我们先解决一个简单的代理问题,如二维匹配,然后通过一些数学计算解决整体问题。这一思想是现代算法的核心,也是几乎所有深度学习前算法的核心,对于竞争性基准测试的表现几乎是必不可少的。在实践中,利用这些“代理”问题是困难的,因为它通常需要通过某种优化层反向传播梯度;这可能是不可能的、不稳定的、难以实现的,或者有时梯度太稀疏/嘈杂,无法有效地用于小批量梯度下降。因此,大多数先前的工作选择了以下两种方式之一:(1) 使用基于CPU的算法,这些算法依赖手工设计的特征描述符;(2) 通过聚合任何有用的信息,并训练深度网络输出结果,采用“端到端”方法。显然,在我们能够弄清楚如何将优化层与深度网络结合使用,并有效、稳定地训练它们的任何场景中,都有获得增益的机会。我们首先观察到,优化层在像Pytorch这样的高层库中通常难以实现。虽然这不是根本性限制,但编写CUDA中可微分的函数并不流行,但最终证明它对于使这些方法有效运行至关重要。我们的第二个观察是,基于优化的方法在与(浅层)网络一起迭代应用时效果更好。我们将这一思想称为“优化引导神经迭代”(OGNI),它是我工作的核心。关键思想是通过在反馈循环中使用深度网络生成一系列小的修正,从而模仿经典的优化算法。每个小修正都独立地进行监督。最终,网络只需要训练来做出小的变化,而不是一次性回归最终的解。OGNI算法的模板是:将解的初始估计设置为某个简单但合理的值。构建条件化于当前估计的特征描述符。使用递归更新算子预测一个小的修正。对更新后的预测进行监督,并将其从梯度计算中分离。回到第2步。在我的第一个项目中,我利用这种方法进行了立体匹配。以往的工作会构建昂贵的3D代价体积,计算所有像素的所有可能解,并使用3D卷积进行过滤。而在我们的工作中,我使用OGNI预测了一系列对视差的小残差更新。在每个步骤中,我们会使用当前的视差估计来对特征图进行采样,以告知更新算子如何进行细化。这还涉及编写低级CUDA内核,以有效地基于当前预测条件采样特征。在我的后续项目中,我将OGNI应用于6自由度物体姿态估计。在这个设定中,我们有一个参考的三维模型,以及该物体在现实世界中的RGB查询图像。我们假设一个简单的默认物体方向和位置,然后在采样有用特征和预测从参考模型的每个点到查询图像中某个像素的映射之间交替进行。为了将这些映射转换为物体姿态,我们实现了一个加权非线性最小二乘算法,该算法利用网络预测的置信度。我接下来的几个项目集中于视觉SLAM(即从视频中估计相机位姿)。在这些工作中,我们将OGNI应用于相机位姿估计。对于每一帧新的视频图像,我们假设一个简单的相机运动(根据先前的运动进行线性外推)和随机深度。然后,我们交替采样描述当前场景状态的特征,并细化重投影估计。与物体姿态项目类似,我们使用加权非线性最小二乘算法将重投影估计转换为相机位姿和深度。在这些工作中,我还需要实现低级函数,以便在大规模下高效执行优化。OGNI方法在标准基准测试中的准确性和实际表现方面都非常有效。像任何递归网络一样,我们也可以在推理过程中权衡一些速度和准确性。其他实验室的许多研究也采纳了这种方法。事后来看,这种方法也有一些缺点;最大化准确性会导致推理速度非常慢,因为排行榜通常只关注准确性。虽然OGNI并非我每个工作中的主要或唯一贡献,但它在我设计每个算法时起到了重要作用。在每种情况下,它都需要精心实现,以避免训练过程中的发散行为,并且能够高效运行。坦率地说,训练稳定性仍然是这种方法的一个障碍。有时,需要一些运气才能将某些OGNI方法训练完成。无论如何,我发现这种方法在我的研究中取得了巨大的成功,我会毫不犹豫地为它辩护。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【伯克利博士论文】通过视频生成学习关于世界的知识
专知会员服务
28+阅读 · 2024年12月19日
【阿姆斯特丹博士论文】缓解多任务学习中的偏差
专知会员服务
21+阅读 · 2024年11月1日
【斯坦福博士论文】生成模型的视觉与行为
专知会员服务
33+阅读 · 2024年7月11日
【伯克利博士论文】解耦视觉生成模型
专知会员服务
28+阅读 · 2024年5月9日
【牛津大学博士论文】图机器学习的鲁棒性分析
专知会员服务
31+阅读 · 2024年4月30日
【2023新书】基于深度学习的视觉目标跟踪
专知会员服务
88+阅读 · 2023年10月10日
【干货书】优化算法,232页pdf
专知
26+阅读 · 2022年9月8日
【深度强化学习教程】高质量PyTorch实现集锦
手把手教你如何部署深度学习模型
全球人工智能
17+阅读 · 2018年2月5日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
430+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【伯克利博士论文】通过视频生成学习关于世界的知识
专知会员服务
28+阅读 · 2024年12月19日
【阿姆斯特丹博士论文】缓解多任务学习中的偏差
专知会员服务
21+阅读 · 2024年11月1日
【斯坦福博士论文】生成模型的视觉与行为
专知会员服务
33+阅读 · 2024年7月11日
【伯克利博士论文】解耦视觉生成模型
专知会员服务
28+阅读 · 2024年5月9日
【牛津大学博士论文】图机器学习的鲁棒性分析
专知会员服务
31+阅读 · 2024年4月30日
【2023新书】基于深度学习的视觉目标跟踪
专知会员服务
88+阅读 · 2023年10月10日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员