SIGGRAPH2020 一致的视频深度估计

视觉感知与融合

该文提出了一个算法，为单目视频中的所有像素重建出密集，几何一致的深度。利用一个传统的structure-from-motion重建来对视频中的像素建立几何约束。与经典重建中的特设的先验不同，本文使用的是基于学习的先验，即训练用于单个图像深度估计的卷积神经网络。在测试时，对网络进行微调，以满足特定输入视频的几何约束，同时保留其在视频中受约束较少的部分合成合理深度细节的能力。

通过定量验证，该方法比以往的单目重建方法具有更高的精度和更高的几何一致性。在视觉感受上，结果看起来也更稳定。同时该算法能够以中等程度的动态运动处理具有挑战性的手持捕获输入视频。重建质量的提高使多种应用成为可能，例如场景重建和基于视频的高级视觉效果。

效果可以看下面发布的参照视频：

【SIGGRA-2020】视频深度估计https://www.zhihu.com/video/1239976246073126912

网络结果对比，取得不错的效果：

详细介绍和原文下载内容参照作者主页：

编辑于 2020-05-02 18:43

计算机视觉

深度学习（Deep Learning）

计算机图形学和可视化