We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.


翻译:我们提出了StereoSpace,一种基于扩散的单目到立体合成框架,该框架仅通过视点条件建模几何,无需显式深度或变形。一个规范的校正空间及条件引导生成器端到端地推断对应关系并填充遮挡区域。为确保公平且无信息泄露的评估,我们引入了一种端到端的评估协议,该协议在测试时排除任何真实几何或代理几何估计。该协议强调反映下游应用相关性的指标:用于感知舒适度的iSQoE和用于几何一致性的MEt3R。StereoSpace在变形修复、潜在变形和变形条件等类别的方法中表现优异,在分层和非朗伯场景上实现了清晰的视差和强大的鲁棒性。这确立了视点条件扩散作为一种可扩展、无需深度的立体生成解决方案。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
专知会员服务
15+阅读 · 2021年9月11日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员