引言
图像已经广泛应用于我们的日常生活中。然而,对于许多应用来说,推测每个像素的深度可能是至关重要的。为此,我们研究了从单张或立体图像中感知深度的问题。
尽管已有的方法,特别是基于学习的方法,在深度感知方面取得了显著的性能,但深度神经网络在未见过的图像上可能泛化较差,并且会产生错误的预测。为了应对上述问题,本论文倡导通过新颖的数学模型来利用场景中的宝贵不变性和先验知识。
首先,我们研究了给定单张图像的深度图的条件分布。与现有方法相反,这些方法假设给定图像的每个像素的深度是独立的,我们引入了像素级协方差建模,该建模编码了其深度与所有场景点的依赖关系。不幸的是,像素级深度协方差建模导致了计算量大的连续损失函数,我们通过学习的总体协方差矩阵的低秩近似高效地解决了这个问题。值得注意的是,当在基准数据集上进行测试时,通过优化我们的损失函数获得的模型显示出最先进的结果。
然后,我们揭示了在单图像深度预测任务的神经网络设计中,经典且有理论依据的变分约束的好处。结果表明,在场景空间中施加一阶变分约束与流行的基于编码器-解码器的网络架构设计相结合,提供了优异的结果。施加的一阶变分约束使网络能够意识到场景空间中的深度梯度,即规律性。我们的方法在测试时相比于现有技术在深度预测准确性上显示出显著的改进,并且在场景空间的高频区域也表现准确。
接下来,我们追求高效的布局表示,其中基本原语(如直线和消失点)可以为深度提供宝贵的线索。为了利用这种先验知识,我们倡导通过霍夫变换将原语转换到参数空间。此外,我们提出了线条池化模块,以在参数空间中选择重要的原语。我们的设计提高了单目3D目标检测和深度预测的现成框架的准确性。
最后,我们转向立体图像并引入了立体风险,将场景视差表述为一个连续风险最小化问题的最优解。我们证明了对提出的连续风险函数的L1最小化增强了深度网络的立体匹配性能,特别是对于具有多峰概率分布的视差。此外,为了实现不可微L1风险优化的端到端网络训练,我们利用了隐函数定理,确保了完全可微的网络。综合分析证明了我们方法的理论合理性,并在各种基准数据集上优于现有的最先进方法。