【博士论文】低维与高维空间中潜在表征的分析、建模与变换

深度神经网络在学习丰富且结构化的潜在表征方面展现出强大能力，这推动了计算机视觉及更广泛领域的显著进展。它们在图像分类、语义分割、自然语言处理和生成建模等任务中均取得了卓越的成果。其表达能力的关键因素在于对海量数据的训练，使模型能够捕捉复杂模式并实现跨任务的泛化。然而，当数据稀缺或难以获取时，这种对大规模数据集的依赖便成为显著的限制。由此，一个自然的问题随之产生：如何在缺乏大规模配对数据的场景下，利用并适配那些在数据丰富领域中学到的表征？对此，通常有两类通用方法：其一是分析并变换潜在特征空间，使其与新的目标对齐；其二是直接适配和操作输入空间，以更好地契合模型已学习的先验。本论文在表征学习与生成建模的语境下探讨了这两类策略。对于第一类方法，我们将神经网络中的编码信息视为结构化的特征分布，并通过数学上有根基的技术实现这些分布的对齐。在神经风格迁移的场景中，我们首先基于该思路提出了一种理论基础上的特征对齐方法。与现有方法相比，该方法能够实现更一致的风格迁移，并且具备理论保证。此外，我们还通过建立一个严谨的框架来识别和评估学习到的表征，加深了对潜在空间的理解，特别是在深度学习模型的纹理偏差问题上，对现有解决方案的有效性提出了部分质疑。第二类方法则聚焦于适配数据表征本身，既包括对输入域的变换，也包括对模型架构的修改。这在传统架构难以处理的领域尤为重要，例如缺乏规则或高效网格结构的场景。在本论文中，我们重点研究了针对三维和非欧几里得数据的生成建模。为此，我们提出了一种基于扩散的生成模型，利用四面体表征实现高质量的三维形状合成，同时保持几何一致性。与现有方法相比，该方法能够在前所未有的分辨率下生成三维网格，并兼顾计算效率。最后，我们提出了一种方法，将现有扩散模型扩展至全景图像生成的任务，同时保留其互联网规模的图像先验。该模型不仅提升了图像质量，还实现了比已有工作更强的生成可控性。总而言之，这些研究成果表明，通过理解并适配现有模型及表征，可以将深度学习拓展至新的输入与输出域。这些原则具有普适性，并能应用于广泛的计算机视觉任务。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【ETZH博士论文】低维与高维空间中潜在表示的分析、建模与变换，169页pdf

专知会员服务

19+阅读 · 7月30日

【博士论文】利用图结构加速稀疏计算

专知会员服务

18+阅读 · 3月6日

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2月8日

【博士论文】面向数据的语言生成模型研究

专知会员服务

23+阅读 · 1月19日