深度神经网络在学习丰富且结构化的潜在表征方面展现出强大能力,这推动了计算机视觉及更广泛领域的显著进展。它们在图像分类、语义分割、自然语言处理和生成建模等任务中均取得了卓越的成果。其表达能力的关键因素在于对海量数据的训练,使模型能够捕捉复杂模式并实现跨任务的泛化。然而,当数据稀缺或难以获取时,这种对大规模数据集的依赖便成为显著的限制。由此,一个自然的问题随之产生:如何在缺乏大规模配对数据的场景下,利用并适配那些在数据丰富领域中学到的表征?对此,通常有两类通用方法:其一是分析并变换潜在特征空间,使其与新的目标对齐;其二是直接适配和操作输入空间,以更好地契合模型已学习的先验。 本论文在表征学习与生成建模的语境下探讨了这两类策略。对于第一类方法,我们将神经网络中的编码信息视为结构化的特征分布,并通过数学上有根基的技术实现这些分布的对齐。在神经风格迁移的场景中,我们首先基于该思路提出了一种理论基础上的特征对齐方法。与现有方法相比,该方法能够实现更一致的风格迁移,并且具备理论保证。此外,我们还通过建立一个严谨的框架来识别和评估学习到的表征,加深了对潜在空间的理解,特别是在深度学习模型的纹理偏差问题上,对现有解决方案的有效性提出了部分质疑。 第二类方法则聚焦于适配数据表征本身,既包括对输入域的变换,也包括对模型架构的修改。这在传统架构难以处理的领域尤为重要,例如缺乏规则或高效网格结构的场景。在本论文中,我们重点研究了针对三维和非欧几里得数据的生成建模。为此,我们提出了一种基于扩散的生成模型,利用四面体表征实现高质量的三维形状合成,同时保持几何一致性。与现有方法相比,该方法能够在前所未有的分辨率下生成三维网格,并兼顾计算效率。最后,我们提出了一种方法,将现有扩散模型扩展至全景图像生成的任务,同时保留其互联网规模的图像先验。该模型不仅提升了图像质量,还实现了比已有工作更强的生成可控性。 总而言之,这些研究成果表明,通过理解并适配现有模型及表征,可以将深度学习拓展至新的输入与输出域。这些原则具有普适性,并能应用于广泛的计算机视觉任务。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】利用图结构加速稀疏计算
专知会员服务
16+阅读 · 3月6日
【博士论文】解释大型视觉模型方面的进展
专知会员服务
25+阅读 · 2月7日
【博士论文】面向数据的语言生成模型研究
专知会员服务
23+阅读 · 1月19日
专知会员服务
56+阅读 · 2020年12月20日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
14+阅读 · 2018年9月20日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
477+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
174+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员