连续性被广泛认为是物质世界的一个基本特性。本论文聚焦于在各种三维视觉学习问题中的连续性概念。主要目标是探索三维视觉学习算法如何有效地利用(准)连续性的优势。为了解决这一总体研究问题,我们的调查分为两个主要方向。首先,我们深入研究三维数据表示中的连续性。最近在隐式神经表示方面的进展通过使用连续的神经函数编码三维信号取得了令人印象深刻的成果。我们从泛化的角度检验基于学习的隐式神经表示,特别关注潜编码的三维隐函数如何在一系列形状几何中泛化。我们的分析涉及追踪局部表面点轨迹以及全局潜变量插值,使我们能够洞察隐式神经层中的层次功能。此外,我们将隐式神经表示扩展以适应几何变换的对称性。其次,我们探索在三维视觉任务的学习算法中利用连续性**。我们研究连续性在数据分布、标签空间和点云分类及RGB-D分割任务的架构设计中的作用**。我们的研究展示了在这些学习算法中保持连续性的好处。通过检验这两个方面,我们的目标是阐明连续性提高三维视觉学习性能和能力的潜力。本论文为如何在三维视觉学习中有效利用连续性提供了更深入的理解,为未来的进步铺平了道路。
连续性和离散性是自然与工程系统(包括人类感知和计算系统处理三维自然世界信号)对比时引人入胜且历史悠久的特性。自然世界在我们能感知的尺度上似乎是模拟的和连续的,对象和物质具有平滑且不间断的形状、颜色和事件流动,尽管物质世界在微观层面由基本量子化的原子组成。量子力学告诉我们,粒子和场具有波动性和粒子性质,观察一个系统的行为会影响其行为【15, 110】。这种粒子-波的二重性【180, 45】源于海森堡不确定性原理【69】,该原理指出,物理属性(如位置和动量)的某些配对在同时知晓时存在基本的精确度限制。因此,粒子可以被认为具有一系列可能的位置和动量,导致波动行为。粒子的波动行为在宏观层面表现为连续性,粒子的波函数扩散并与自身干涉,导致连续光波和声波、运动、电磁场和其他宏观现象的出现。 相比之下,现代计算系统基于信息处理的离散和量子化本质,这与自然界中的模拟和连续信号根本不同。在数字计算机中,信息使用二进制数字,或比特来表示,因此,自然信号的幅度使用浮点运算进行量化,而信号的空间和时间域(或坐标)被量化为2D、3D和时间网格,如像素、体素和时间序列。对于后一种类型的网格量化,奈奎斯特-香农采样定理【130】是一个重要概念,它指出为了使用离散样本序列准确捕获连续信号以用于产生连续sinc函数的类似计算机,采样率必须至少是信号中最高频率分量的两倍,即奈奎斯特频率。对于数字计算机,它们实际上使用有限数量的样本来表示连续信号。这引入了采样误差,可能导致重构信号的失真。为了最小化这些误差,通常需要使用比奈奎斯特率高5到10倍的采样率。这是因为使用数字处理从样本重构信号通常涉及使用低通滤波器,由于滤波器系数的有限精度,这可能引入失真【165】。
对于本论文主要关注的三维数据和任务,传统的量化表示因此受到限制,需要高采样率,从而导致高内存需求。作为替代,有一些自适应网格方法,如八叉树【122, 86】和k-d树【83】,以及非欧几里得表示方法,如点云【112, 47】和网格【61】,可以减少内存。然而,处理和参数化这些灵活的3D表示通常并非易事,且从这些不规则数据中学习可能导致层次结构建模不够有效,并对尺度和采样的随机性敏感,因此导致困难且成本高昂的优化。