在过去的十年里,深度学习引发了计算机视觉领域的革命,尤其是在二维图像感知与生成方面的巨大进展。这一突破主要归功于大量可用的训练数据,即图像数据。然而,我们所处的真实世界是三维的,理解周围环境的几何结构与视觉外观对于深度学习系统至关重要。这些系统构成了众多应用的基础,包括机器人技术、虚拟/增强现实、视觉生成式人工智能(AIGC)、电子游戏和元宇宙等。然而,3D数据的获取通常成本高昂且充满挑战,导致用于训练深度学习模型的可靠3D真实数据极度稀缺。因此,迫切需要能够在有限观测条件下(如来自RGB相机的单目2D图像或来自深度传感器的不完整3D扫描)高效恢复或风格化3D物体的学习机制。 本论文聚焦于有限监督下的三维任务,即训练数据有限且不完整的场景。具体而言,本文关注以下三个任务:(1) 3D形状补全,即训练时可用的部分-完整形状对极为有限;(2) 3D纹理网格重建,训练数据仅由单目图像集合组成;(3) 3D人脸卡通化,训练过程中仅能获得伪2D真实标签。为了解决这些挑战,本研究探讨了预训练的3D生成对抗网络(GANs)作为几何和视觉先验知识的宝贵来源。通过利用这些预训练模型中丰富的先验知识,目标是在这些具有有限监督的3D任务中开发出能够实现准确且稳健的形状补全、重建和风格化的有效解决方案。

3D形状补全

在3D形状补全方面,大多数现有方法高度依赖于完全监督学习,需要部分-完整形状对进行训练。尽管这些方法在域内数据上表现出色,但在处理不同形式的部分形状或真实世界的部分扫描数据时,往往由于域间差距而产生不理想的结果。为了解决这一限制,本文提出了ShapeInversion方法,该方法首次将GAN反演引入到形状补全中。该方法使用在完整形状上预训练的GAN,通过搜索潜在空间中的最佳潜码,从部分输入中重建出完整的3D形状。通过直接引入完整形状的丰富先验,ShapeInversion在没有真实标签的真实扫描数据上展现了出色的泛化能力。

3D纹理网格重建

3D重建任务中,从单个单目图像重建具有纹理的3D网格是一个极具挑战性的反问题,尤其是在训练数据仅由单目图像集合组成的现实场景下。为了解决这一难题,本文提出了一个名为MeshInversion的全新框架,该框架通过GAN反演利用了预训练的3D纹理网格GAN的生成先验。通过使用预训练GAN所捕获的丰富3D语义(包括网格几何和纹理),在GAN流形中进行搜索自然能够增强重建的真实性和保真度。更为关键的是,这种正则化直接发生在3D空间中,为2D空间中未观察到的网格部分提供了必要的几何引导。因此,MeshInversion不仅能够生成高度真实的3D重建,还能够在遮挡或不常见物体等具有挑战性的场景下表现出色。

3D人脸卡通化

3D人脸卡通化旨在将艺术域的风格应用于目标3D人脸,同时对其几何与纹理进行风格化。然而,在真实空间或风格空间中均不存在3D数据的情况下,这一任务变得尤为复杂。尽管对预训练GAN进行微调以适应风格空间已广泛用于2D卡通化,但这种方法在3D领域面临以下局限性:一是可能导致原始GAN潜在空间的损坏,二是每次引入新的风格都需要单独的优化过程。为克服这些挑战,本文提出了DeformToon3D,该方法完全保留了预训练3D GAN的原始潜在空间,并将3D卡通化分解为几何风格化纹理风格化两个独立阶段。 具体而言,DeformToon3D引入了一个新颖的模块——StyleField,该模块用于预测条件3D形变,将真实空间的NeRF(神经辐射场)对齐到风格空间以实现几何风格化。基于StyleField的设计,纹理风格化可通过自适应风格混合(adaptive style mixing)轻松实现,即将艺术域的信息注入到预训练3D GAN的解码器中。凭借这种独特的设计,DeformToon3D能够在单一模型下实现多风格卡通化,并提供灵活的风格控制,使用户能够根据需要调整风格程度,并实现针对形状和纹理的特定风格交换。

成为VIP会员查看完整内容
12

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】自然语言处理中的不确定性,365页pdf
专知会员服务
28+阅读 · 2024年10月12日
【牛津大学博士论文】深度具身智能体的空间推理与规划
【博士论文】几何中的神经表示
专知会员服务
27+阅读 · 2024年9月28日
【博士论文】社交与对抗性数据源下的可信机器学习
专知会员服务
17+阅读 · 2024年8月9日
【ETHZ博士论文】神经场景表示用于三维重建和场景理解
专知会员服务
35+阅读 · 2024年3月15日
【博士论文】大规模多模态表示学习,329页pdf
专知会员服务
65+阅读 · 2024年1月27日
【NUS博士论文】深度视觉算法的对抗鲁棒性研究
专知会员服务
31+阅读 · 2022年11月25日
【NUS博士论文】学习视觉场景的结构化表示,137页pdf
专知会员服务
37+阅读 · 2022年7月15日
数据受限条件下的多模态处理技术综述
专知
16+阅读 · 2022年7月16日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
14+阅读 · 2018年9月20日
国家自然科学基金
10+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
160+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
417+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
150+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【博士论文】自然语言处理中的不确定性,365页pdf
专知会员服务
28+阅读 · 2024年10月12日
【牛津大学博士论文】深度具身智能体的空间推理与规划
【博士论文】几何中的神经表示
专知会员服务
27+阅读 · 2024年9月28日
【博士论文】社交与对抗性数据源下的可信机器学习
专知会员服务
17+阅读 · 2024年8月9日
【ETHZ博士论文】神经场景表示用于三维重建和场景理解
专知会员服务
35+阅读 · 2024年3月15日
【博士论文】大规模多模态表示学习,329页pdf
专知会员服务
65+阅读 · 2024年1月27日
【NUS博士论文】深度视觉算法的对抗鲁棒性研究
专知会员服务
31+阅读 · 2022年11月25日
【NUS博士论文】学习视觉场景的结构化表示,137页pdf
专知会员服务
37+阅读 · 2022年7月15日
相关基金
国家自然科学基金
10+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员