【MIT博士论文】深度学习几何表示，138页pdf

2022 年 9 月 4 日 专知

虽然深度学习已经成功地应用于计算机图形学和视觉的许多任务，但标准的学习架构通常是基于密集和规则的形状表示，如像素或体素网格。另一方面，几十年的计算机图形学和几何处理研究已经产生了专门的算法和工具，这些算法和工具使用没有这种规则结构的表示。在这篇论文中，我们回顾了几何图形中的传统方法，提出了深度学习流程和归纳偏差，这些深度学习流程和归纳偏差可以直接兼容常见的几何表示，而不依赖于简单的统一结构。

在过去的十年中，硬件的发展、训练数据的大规模可用性和算法的进步推动了深度学习在各种应用中的成功。神经网络广泛地能够处理不完整、混乱和模糊的输入，产生有用的和一致的输出。计算机图形学和视觉也不例外，深度学习的普及，数据驱动的方法现在已经成为许多任务的标准。在这些领域中，最富有成效的深度学习架构是卷积神经网络(CNN)。如今，CNN在图像分类、分割，目标检测和图像到图像的转换。然而，CNN对栅格表示(例如，图1-1中的像素和体素网格)进行操作。网格结构是卷积的基本组成部分，是信息在网络层之间和像素之间传递的一种机制。这种结构被用来优化GPU硬件性能，许多现成的数据集由像素或体素网格格式的示例组成。

由于各种原因，栅格表示很容易使用。它们与相机传感器、屏幕等标准输入输出设备兼容，构成了表现不同结构和拓扑结构的多样视觉内容的有效手段。因此，CNN利用合理的归纳偏差，以简单的欧拉方式处理数据，将固定操作应用到密集的网格。另一方面，拉格朗日表示使用随形状移动的稀疏参数集，即控制点来表示几何形状。这种表示具有明显的优势。通过将形状表示为基元的集合，我们可以轻松地应用转换并以任意分辨率呈现，同时只存储稀疏表示。此外，参数表示对于高级推理是有效的，例如发现公共底层结构和估计形状之间的对应关系，促进检索、探索和样式/结构转移的工具。它们可以用传统软件直观地编辑，与分辨率无关，并且可以高效地存储。

许多工具、算法和数学框架已经被开发出来，用于编写、操作和分析此类拉格朗日内容。艺术家、工程师和动画师使用标准的CAD和3D建模软件。模拟依赖于使用网格的有限元分析。然而，通过将与我们的机器学习方法兼容的形状模式限制在欧拉网格中，我们放弃了这些成熟工具的许多见解和技术。

在这篇论文中，我们提出设计深度学习算法。我们没有将标准架构、损失函数和训练算法视为理所当然，从而接受各自的输入和输出形状模式，而是考虑了比像素更丰富、更适合应用的其他几何原子单位。这种范式的转变促使我们对传统方法和应用进行现代化改造，这些方法和应用先于深度学习。特别是，我们借鉴了度量几何、几何测量理论、谱几何和动画等领域的思想，开发了自定义尾损失函数、架构和培训管道，使深度学习成为处理视觉数据的从业者更有用的工具。

在这篇论文中，我们提出了深度学习架构、训练程序和算法，使在可视化数据数据集上训练神经网络成为可能，这些数据的格式使用起来直观，并兼容常见的下游任务和应用，如设计、建模、仿真和渲染。在第二章中，我们描述了一种基于三角形网格的编码器，借鉴了谱几何的思想。在第三章中，我们考虑了两种方法，受度量几何的启发，来产生参数化定义的形状，比如CAD模型。第四章介绍了一种混合形状表示，它结合了显式几何的优点和隐式几何的优点。最后，在第5章中，我们提出了一种自监督的方法来学习图像集合的直观分解，例如，动画或视频游戏的帧，这允许使用学习到的纹理块作为几何基元进行高级操作。我们在图1-2中说明了我们的贡献。