We present an efficient multi-view stereo (MVS) network for 3D reconstruction from multiview images. While previous learning based reconstruction approaches performed quite well, most of them estimate depth maps at a fixed resolution using plane sweep volumes with a fixed depth hypothesis at each plane, which requires densely sampled planes for desired accuracy and therefore is difficult to achieve high resolution depth maps. In this paper we introduce a coarseto-fine depth inference strategy to achieve high resolution depth. This strategy estimates the depth map at coarsest level, while the depth maps at finer levels are considered as the upsampled depth map from previous level with pixel-wise depth residual. Thus, we narrow the depth searching range with priori information from previous level and construct new cost volumes from the pixel-wise depth residual to perform depth map refinement. Then the final depth map could be achieved iteratively since all the parameters are shared between different levels. At each level, the self-attention layer is introduced to the feature extraction block for capturing the long range dependencies for depth inference task, and the cost volume is generated using similarity measurement instead of the variance based methods used in previous work. Experiments were conducted on both the DTU benchmark dataset and recently released BlendedMVS dataset. The results demonstrated that our model could outperform most state-of-the-arts (SOTA) methods. The codebase of this project is at https://github.com/ArthasMil/AACVP-MVSNet.


翻译:我们从多视图图像中为三维重建提供了一个高效的多视图立体(MVS)网络。虽然先前的基于学习的重建方法运行得相当顺利,但大多数以固定分辨率估算深度地图,在每架飞机上使用固定深度假设进行平面扫描量,并在每架飞机上使用固定深度假设进行深度扫描,这需要密集抽样飞机以达到理想的准确性,因此很难达到高分辨率的深度地图。在本文中,我们采用粗度深度深度推断战略,以达到高分辨率深度。本战略在粗度一级估计深度地图,而精度水平的深度地图则被视为比前一级高得多的深度地图,而精度深度残余是像样的深度地图。因此,我们缩小深度搜索范围,利用前一级前一级的信息进行深度测量,并从精度深度深度残留量构建新的成本量,以进行深度改进。然后,最后的深度映射深度地图可以迭接,因为所有参数都是在不同级别之间共享的。在每个级别上,自我感测层被引入特征提取区块,以获取深度依赖的长距离的深度任务,成本量是使用类似度测量的深度测量范围,而产生成本量,而成本量则使用前一级,而不用根据前一级测测测测测测,而采用最偏差的测测测测测测测测测,而使用了前一级的数据。在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级测测测测测测测测测测算中,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在前一级,在试验中,在前方,在前方,在前方,在前方,在前方,在试验中,在前方,在前方,在试验中,在前方,在前方,在前方,在前方,在前方,在前方,在前方,在前

0
下载
关闭预览

相关内容

在计算机视觉中, 三维重建是指根据单视图或者多视图的图像重建三维信息的过程. 由于单视频的信息不完全,因此三维重建需要利用经验知识. 而多视图的三维重建(类似人的双目定位)相对比较容易, 其方法是先对摄像机进行标定, 即计算出摄像机的图象坐标系与世界坐标系的关系.然后利用多个二维图象中的信息重建出三维信息。 物体三维重建是计算机辅助几何设计(CAGD)、计算机图形学(CG)、计算机动画、计算机视觉、医学图像处理、科学计算和虚拟现实、数字媒体创作等领域的共性科学问题和核心技术。在计算机内生成物体三维表示主要有两类方法。一类是使用几何建模软件通过人机交互生成人为控制下的物体三维几何模型,另一类是通过一定的手段获取真实物体的几何形状。前者实现技术已经十分成熟,现有若干软件支持,比如:3DMAX、Maya、AutoCAD、UG等等,它们一般使用具有数学表达式的曲线曲面表示几何形状。后者一般称为三维重建过程,三维重建是指利用二维投影恢复物体三维信息(形状等)的数学过程和计算机技术,包括数据获取、预处理、点云拼接和特征分析等步骤。
专知会员服务
110+阅读 · 2020年3月12日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
【泡泡一分钟】利用四叉树加速的单目实时稠密建图
泡泡机器人SLAM
28+阅读 · 2019年4月26日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Arxiv
0+阅读 · 2021年1月6日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关VIP内容
专知会员服务
110+阅读 · 2020年3月12日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
【泡泡一分钟】利用四叉树加速的单目实时稠密建图
泡泡机器人SLAM
28+阅读 · 2019年4月26日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Top
微信扫码咨询专知VIP会员