连续性被广泛认为是物质世界的基本特性。本论文重点研究3D视觉学习问题中的连续性概念。主要目标是探索3D视觉学习算法如何有效地利用(准)连续体的优势。为了解决这一总体研究问题,我们的调查分为两个主要方向。首先,我们深入探讨3D数据表示中的连续性。近期在隐式神经表示的进步已经通过使用连续神经函数对3D信号进行编码取得了令人印象深刻的成果。我们从泛化的角度检查基于学习的隐式神经表示,特别关注如何潜在编码的3D隐式函数在一系列形状几何中泛化。我们的分析涉及追踪局部表面点轨迹以及全局潜在插值,使我们能够深入了解隐式神经层中的层次功能。此外,我们扩展隐式神经表示以适应几何变换的对称性。其次,我们探索了在3D视觉任务的学习算法中利用连续性。我们研究了在点云分类和RGB-D分割任务的数据分布、标签空间和架构设计中连续性的作用。我们的研究显示了在这些学习算法中保持连续性的好处。通过检查这两个方面,我们的目标是揭示连续性提高3D视觉学习的性能和能力的潜力。这篇论文有助于更深入地了解如何在3D视觉学习中有效地利用连续性,为未来的进步铺平道路。
连续性和离散性是对自然与工程系统并置时的有趣且长久的特性,包括人类的感知以及为底层三维自然世界的信号计算的系统。 我们能够体验到的尺度下,自然世界似乎是模拟的和连续的,物体和物质具有形状、颜色和事件的流畅且不间断的流动,尽管微观层面的物质世界基本上由量子化的原子组成。量子力学告诉我们,粒子和场既有波状特性也有粒子状特性,而观察一个系统的行为会影响其行为[15,110]。这种粒子-波二重性[180,45]来源于海森堡不确定性原理[69],它指出物理属性的某些对,如位置和动量,不能同时被精确地知道。因此,可以认为粒子在可能的位置和动量上有一定的范围,这导致了波状的行为。粒子的这种波状行为在宏观层面上呈现为连续体,粒子的波函数扩散并与自身产生干涉,导致连续的光和声波、运动、电磁场和其他宏观现象的出现。 相比之下,现代计算系统基于信息处理的离散和量子化特性,这与自然界中发现的模拟和连续信号基本上是不同的。在数字计算机中,信息是使用二进制数字或比特来表示的,因此,自然信号的幅度使用浮点算术量化,而信号的空间和时间域(或坐标)被量化为2D、3D和时间网格,如像素、体素和时间序列。对于后一种类型的网格量化,Nyquist-Shannon采样定理[130]是一个重要的概念,它指出为了使用离散的样本序列精确捕获连续信号,对于产生连续sinc函数的模拟计算机,采样率必须至少是信号中的最高频率分量(即Nyquist频率)的两倍。对于数字计算机,它们在实践中使用有限数量的样本来表示一个连续信号。这引入了采样误差,这可能导致在重构信号时产生失真。为了最大程度地减少这些误差,通常需要使用高于Nyquist率的采样率,大约是其5到10倍。这是因为从其样本使用数字处理重构信号通常涉及使用低通滤波器,这可能由于滤波器系数的有限精度引入失真[165]。
对于这篇论文的主要关注点——三维数据和任务,传统的量子化表示因此受到高采样率的限制,从而导致高内存需求。另外,还有一些自适应网格方法,如八叉树[122,86]和k-d树[83],以及非欧几里得表示,如点云[112,47]和网格[61],这些方法可以减少内存使用。但是,处理和参数化这些灵活的3D表示通常并非琐碎,从这些不规则的数据中学习可能会导致层次结构的建模效果较差,以及对规模和采样的随机性敏感,这作为一个结果导致了困难和代价昂贵的优化。