扩展3D深度学习系统已成为一个至关重要的问题,主要包括两个方面:(1) 模型的可扩展性,即设计一个对规模友好的3D网络,即随着参数的增加模型可以提高性能并且运行效率高。与2D卷积网络不同,3D网络必须适应3D数据的不规则性,例如在点云中尊重排列不变性。(2) 数据的可扩展性:在3D领域,高质量的3D数据明显稀缺。3D数据采集和注释都很复杂且成本高昂,这阻碍了3D深度学习的可扩展性发展。 这篇论文深入探讨了3D深度学习,包括感知和生成,并解决了可扩展性的挑战。为了解决3D感知中的模型可扩展性问题,我介绍了ASSANet,这是一种用于高效3D点云表示学习的方法,允许模型以低计算成本扩展,并显著提高准确度。我进一步介绍了PointNeXt框架,重点是数据增强和架构的可扩展性,其性能超越了最先进的3D点云感知网络。为了解决数据的可扩展性,我提出了Pix4Point,该方法探索了使用丰富的2D图像来增强3D理解。对于可扩展的3D生成,我提议使用Magic123,它利用2D和3D扩散先验为零镜头图像到3D内容生成,而无需3D监督。这些集体努力为3D深度学习中的模型和数据的可扩展性提供了关键的解决方案。 人类存在于三维(3D)环境中,并与之轻松互动,轻而易举地理解周围的物体和空间。这种对3D物体的天生检测和理解能力,证明了人类大脑复杂的认知功能。相反,为机器实现相似的理解水平构成了巨大的挑战。因此,3D理解,包括感知(例如,从3D环境中检测物体)和生成(例如,从图像创建3D内容)等领域,已经成为众多技术应用的基石。这些应用范围从自动驾驶、机器人技术、医疗治疗到游戏和虚拟现实。
传统的3D理解方法围绕着人工设计的特征描述符的设计[11, 12, 13]。但是,确定这些特征的最佳组合以获得满意的结果已被证明是一项复杂的任务。受深度学习在图像处理[14]和自然语言处理[15]中的开创性成功的启发,3D感知和生成的范式也转向基于学习的方法。3D感知[16, 17, 18, 19]的先驱性工作设计了不同格式的神经网络,用于各种3D任务,从点云分割到隐式3D内容生成,并取得了显著的突破。然而,在3D深度学习领域,包括感知和生成,可扩展性成为突出的挑战,主要有两个方面:模型的可扩展性和数据的可扩展性。
模型可扩展性:设计可扩展的3D网络绝非易事。与其2D对应物[20, 21]不同,3D网络必须解决3D数据中固有的不规则性。例如,专注于3D点云的网络应该尊重排列不变性,确保无论点云中的点的顺序如何,都能保持一致的表示。此外,许多3D应用中对实时推断的需求复杂化了可扩展且高效的3D网络的创建,使其成为一个重要的研究领域。 数据可扩展性:高质量的3D数据,对于创建可泛化的基于学习的系统至关重要,但明显是稀缺的。3D数据的获取既复杂又昂贵,主要是因为对3D设备的可访问性有限,3D物体和环境的多样性,以及对精确细节的需求。与文本配对图像的丰富可用性(例如LAION-5B[22])相比,3D数据明显少得多。例如,最大的3D数据集Objaverse-XL[23]只包含1000万个3D对象,而且大多数对象的形状和纹理都很简单。3D数据的注释对于监督学习至关重要,也对模型准确性有着重要影响。由于其固有的三维性质,标注3D数据既昂贵又耗时。使用如此有限的数据进行大规模的3D感知或生成的挑战仍然是一个尚未解决的问题。
这些挑战突显了3D深度学习领域中可扩展性问题的严重性。有效地解决这些问题对于充分释放基于学习的3D理解的全部潜力至关重要,为这篇论文中总结的创新性贡献奠定了基础。通过关注可扩展的3D感知和生成,这篇论文为3D感知和生成提供了关键的见解和解决方案: 对于可扩展的3D感知,第2章介绍了ASSANet,一个用于点云表示学习的高效神经网络。在这项工作中,我们确定了经典点云网络PointNet++[1]的基本构建块中的重复计算,以及低可扩展性(增加模型大小时性能下降)。我们提议了一个更高效和可扩展的模块,通过这个模块,我们构建了一个新的网络,该网络可以被扩展,并比PointNet++获得更高的准确度,同时运行速度更快。第3章进一步研究了对PointNet++进行的最小架构更改,以使网络具有可扩展性,并介绍了点云表示学习的下一版本PointNeXt。在这项工作中,我们还研究了通过点云分类和分割中的数据增强来进行数据扩展的效果。由于3D数据远少于现有的2D图像,第4章提议了Pix4Point框架,研究了使用2D图像帮助3D理解。 对于可扩展的3D生成,第5章认为3D生成受到高质量3D数据的可用性的限制。我们提出了Magic123,它使用联合的3D微调扩散先验[3]和预训练的2D扩散先验[2]进行图像到3D的生成。Magic123展示了其在从野外的单个图像输入中生成3D内容的可扩展性,这是以零镜头的方式完成的。Magic123是可扩展的,并且能泛化到野外的各种图像。这是在没有3D监督的情况下实现的,只需要对3D先验进行小规模的3D数据预训练。