深度神经网络在学习丰富且结构化的潜在表示方面的能力,推动了计算机视觉及更广泛领域的重大进展。这些模型在图像分类、语义分割、自然语言处理和生成建模等任务中展现出卓越性能。其表达能力的关键因素之一,在于对海量数据的训练,使得模型能够捕捉复杂模式并具备跨任务的泛化能力。然而,当数据稀缺或难以获取时,这种对大规模数据集的依赖便成为一大限制。因此,一个自然的问题便是:我们该如何利用并适配在数据丰富领域中所学到的表示,以应对那些难以收集大规模配对数据集的场景? 针对这一问题,通常有两类通用的解决思路:第一,分析并变换潜在特征空间,使其对齐于新的任务目标;第二,调整和操控输入空间,以更好地适应模型所学到的先验知识。 本论文在表征学习与生成建模的背景下,系统探索了上述两类策略。在第一类方法中,我们将神经网络编码的信息视为结构化的特征分布,并采用具有数学基础的方法对其进行对齐。我们首先在神经风格迁移的任务中研究了这一问题,构建了特征对齐的理论基础。相较于现有方法,我们的方案不仅具有理论保障,还实现了更一致的风格迁移效果。此外,我们还构建了一个严谨的框架,用于识别与评估神经网络所学习到的潜在表示,尤其针对深度学习模型中的纹理偏置问题,部分质疑了当前主流解决方案的有效性,进一步加深了对潜在空间的理解。 第二类方法则侧重于数据表示本身的适配,包括输入域的变换或模型架构的调整。这类策略对于缺乏规则或高效网格结构的数据类型尤为关键。在本论文中,我们聚焦于面向3D与非欧几里得数据的生成建模问题。为此,我们提出了一种基于扩散过程的生成模型,利用四面体表示实现高质量的三维形状合成,同时保持几何一致性。与现有方法相比,该方法在保持计算效率的同时,实现了前所未有分辨率的三维网格生成。最后,我们还提出了一种扩展现有扩散模型以支持全景图像生成的方法,同时保留其在互联网上训练得到的图像先验。该模型不仅提高了生成图像的质量,还比以往方法具备更强的可控性。 综上所述,本论文的研究成果展示了如何通过理解与适配现有模型和表示,将深度学习技术推广至新的输入与输出领域。这些方法的核心原理具有广泛的通用性,可服务于多个计算机视觉任务。