Image stitching aim to align two images taken from different viewpoints into one seamless, wider image. However, when the 3D scene contains depth variations and the camera baseline is significant, noticeable parallax occurs-meaning the relative positions of scene elements differ substantially between views. Most existing stitching methods struggle to handle such images with large parallax effectively. To address this challenge, in this paper, we propose an image stitching solution called PIS3R that is robust to very large parallax based on the novel concept of deep 3D reconstruction. First, we apply visual geometry grounded transformer to two input images with very large parallax to obtain both intrinsic and extrinsic parameters, as well as the dense 3D scene reconstruction. Subsequently, we reproject reconstructed dense point cloud onto a designated reference view using the recovered camera parameters, achieving pixel-wise alignment and generating an initial stitched image. Finally, to further address potential artifacts such as holes or noise in the initial stitching, we propose a point-conditioned image diffusion module to obtain the refined result.Compared with existing methods, our solution is very large parallax tolerant and also provides results that fully preserve the geometric integrity of all pixels in the 3D photogrammetric context, enabling direct applicability to downstream 3D vision tasks such as SfM. Experimental results demonstrate that the proposed algorithm provides accurate stitching results for images with very large parallax, and outperforms the existing methods qualitatively and quantitatively.


翻译:图像拼接旨在将两张从不同视点拍摄的图像对齐并融合成一幅无缝的、视野更宽的图像。然而,当三维场景存在深度变化且相机基线较大时,会产生显著的视差——即场景元素在视图间的相对位置存在明显差异。现有的大多数拼接方法难以有效处理此类具有大视差的图像。为应对这一挑战,本文提出了一种名为PIS3R的图像拼接方案,该方案基于新颖的深度三维重建概念,对超大视差具有鲁棒性。首先,我们将基于视觉几何的Transformer应用于两张具有超大视差的输入图像,以获取相机内参和外参,并进行密集三维场景重建。随后,利用恢复的相机参数,将重建的密集点云重投影到指定的参考视图上,实现像素级对齐并生成初始拼接图像。最后,为进一步解决初始拼接中可能存在的孔洞或噪声等伪影,我们提出了一个点条件图像扩散模块来获得精细化结果。与现有方法相比,我们的方案不仅对超大视差具有极佳的容忍度,而且其结果在三维摄影测量背景下完全保留了所有像素的几何完整性,使其能够直接应用于如运动恢复结构(SfM)等下游三维视觉任务。实验结果表明,所提算法能为具有超大视差的图像提供精确的拼接结果,并在定性和定量评估上均优于现有方法。

0
下载
关闭预览

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
Python图像处理,366页pdf,Image Operators Image Processing in Python
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员