Recovering pixel-wise geometric properties from a single image is fundamentally ill-posed due to appearance ambiguity and non-injective mappings between 2D observations and 3D structures. While discriminative regression models achieve strong performance through large-scale supervision, their success is bounded by the scale, quality and diversity of available data and limited physical reasoning. Recent diffusion models exhibit powerful world priors that encode geometry and semantics learned from massive image-text data, yet directly reusing their stochastic generative formulation is suboptimal for deterministic geometric inference: the former is optimized for diverse and high-fidelity image generation, whereas the latter requires stable and accurate predictions. In this work, we propose Lotus-2, a two-stage deterministic framework for stable, accurate and fine-grained geometric dense prediction, aiming to provide an optimal adaption protocol to fully exploit the pre-trained generative priors. Specifically, in the first stage, the core predictor employs a single-step deterministic formulation with a clean-data objective and a lightweight local continuity module (LCM) to generate globally coherent structures without grid artifacts. In the second stage, the detail sharpener performs a constrained multi-step rectified-flow refinement within the manifold defined by the core predictor, enhancing fine-grained geometry through noise-free deterministic flow matching. Using only 59K training samples, less than 1% of existing large-scale datasets, Lotus-2 establishes new state-of-the-art results in monocular depth estimation and highly competitive surface normal prediction. These results demonstrate that diffusion models can serve as deterministic world priors, enabling high-quality geometric reasoning beyond traditional discriminative and generative paradigms.


翻译:从单张图像恢复像素级几何属性本质上是病态问题,原因在于外观歧义性以及二维观测与三维结构之间的非单射映射。尽管判别式回归模型通过大规模监督实现了强劲性能,但其成功受限于可用数据的规模、质量与多样性,且物理推理能力有限。近期扩散模型展现出强大的世界先验,编码了从海量图像-文本数据中学到的几何与语义信息,然而直接复用其随机生成式公式对于确定性几何推理并非最优:前者旨在实现多样且高保真的图像生成,而后者需要稳定且精确的预测。本文提出Lotus-2——一个用于稳定、精确且细粒度几何密集预测的两阶段确定性框架,旨在提供一种最优适配协议以充分挖掘预训练生成先验。具体而言,在第一阶段,核心预测器采用单步确定性公式,结合干净数据目标与轻量级局部连续性模块(LCM),以生成全局连贯且无网格伪影的结构。在第二阶段,细节锐化器在核心预测器定义的流形内执行约束多步整流流优化,通过无噪声确定性流匹配增强细粒度几何细节。仅使用59K训练样本(不足现有大规模数据集的1%),Lotus-2在单目深度估计任务中取得了新的最优性能,并在表面法线预测中达到高度竞争力。这些结果表明扩散模型可作为确定性世界先验,实现超越传统判别式与生成式范式的高质量几何推理。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员