【斯坦福博士论文】可控生成与编辑的三维神经表示，

随着对更高质量视频制作和3D资产的需求持续增长，帮助减轻相关成本的智能艺术家工具的需求也在不断增加。更具体来说，3D AI艺术家工具有可能极大地自动化或促进内容创作过程。这类工具的关键组件是其底层的3D神经表示：即模型如何编码和理解3D世界。本论文提出了更加表达性、效率高且解耦的3D神经表示，从一个新颖的表示开始，该表示结合了可泛化和过拟合先验的知识。通过这种表示，我们提出了一种新方法，以促进高质量的局部3D形状编辑和部件混合。接下来，我们介绍了一种更高效的3D三平面架构，可应用于大幅度提升3D生成模型的训练和合成质量。然后，我们探讨了这些高质量3D GANs所带来的新应用，特别是分析了学习到的潜在空间的能力和局限性。最后，我们提出了一种混合型3D神经表示，结合了隐式表示和显式数据结构，以提供更高质量的3D合成，并对局部和全局属性提供更精细的控制。贯穿其中，我们展示了这些应用于3D艺术家工作流中的常见任务，利用基于所提出的3D神经表示构建的AI工具，帮助促进内容创作管道的实现。

1.1 内容创作的3D神经表示

高质量内容创作在观众需求和制作成本上都在持续增长。例如，最近的大片《阿凡达：水之道》仅在视觉特效镜头上的投入就超过了2.5亿美元。类似地，现代视频游戏，如《博德之门3》和《黑神话：悟空》的制作成本也膨胀至超过1亿美元。这些成本中的很大一部分是由于需要极其熟练的3D艺术家花费大量时间和精力来制作如此高质量的内容。自然，电影工作室持续投入资源，建立能够更轻松促进内容创作的基础设施和艺术家工具。最近，生成AI研究取得了巨大进展，催生了多个有前景的文本到图像、文本到3D以及文本到视频的扩散模型。尽管生成的媒体内容质量持续大幅提升，这些模型仍然很少集成到主流的生产流水线中。这一方面是因为从传统的艺术家工作流程转变需要相当大的开销，另一方面，当前的模型没有提供艺术家在现有工具中拥有的控制水平。例如，许多当前的生成AI模型仅接受文本提示作为输入，这导致了对文本提示设计的困惑。此外，修改文本提示往往会导致不希望出现的全局变化，使得只编辑生成内容的特定区域或小组件变得非常困难。为了解决这些问题，本论文探索了底层神经表示的设计空间，这决定了模型如何理解周围的3D世界。我们认为，为了使模型能够生成高质量的内容，并且为用户提供对期望的局部和全局属性的控制，底层表示必须具备以下特点：

表达性——能够泛化到任何野外内容类别或模态。
高效性——能够扩展到更高的分辨率并支持实时应用。
解耦性——允许用户控制指定的内容属性，如纹理或几何形状。

**1.1.1 应用与先前的方法

在内容创作中，3D资产传统上使用显式3D表示法，如多边形网格或点云，因为这些表示法易于导入流行的3D建模软件，并且在现代流水线中渲染高效。然而，它们在高分辨率下的存储成本较高，且更重要的是，需要大量的人工努力和用户专业知识来操作和编辑。最近，隐式神经表示法，如占据率或符号距离场，因能够从传感器数据中学习并用于自动数据清理、模型补全、形状编辑和形状合成而变得流行。当前的隐式神经表示法可以分为两类：一种是针对单一物体实例的过拟合表示，另一种是表示一组物体的集合。然而，这两者都无法准确编辑神经场景表示：一方面，过拟合物体的方法能够实现高精度的重建，但无法泛化到未见过的物体配置，因此不支持编辑；另一方面，表示物体家族的方式具有泛化能力，但只产生近似的重建结果。在第二章中，我们将探讨结合过拟合和可泛化先验的表达性神经表示，以支持高质量的形状重建和编辑。为了聚焦更具体的3D内容创作子领域，近年来，对可访问的高质量3D虚拟形象（可动画化和可定制化）创作的需求日益增长。尽管像3D可变形模型这样的显式表示提供了直观的编辑和动画控制，并且在单视角面部重建方面表现出色，但它们难以捕捉几何和外观细节。隐式神经表示，如符号距离函数（SDF）或神经辐射场，可能比显式表示法具有更高的质量和泛化能力，但它们在训练过程中学习的成本可能非常高。例如，考虑训练一个3D GAN来无监督生成高质量的多视角一致性图像和3D形状。如果直接适配神经辐射场表示，3D GAN训练很快会变得过于计算密集，导致生成图像的质量和分辨率受到限制。另一方面，采用不一致的简化方法（例如使用2D CNN渲染特征图）会影响多视角一致性和形状质量。在第三章中，我们将探索一种更高效的3D神经表示，以促进更高分辨率和多视角一致的3D GAN。然而，表达性和效率并不足够；在第四章中，我们将探讨直接应用预训练3D GAN生成和动画化3D虚拟形象的局限性。尽管3D GAN在图像质量和多视角一致性方面优于基于2D变形操作或2D GAN的先前方法，但底层神经表示决定了用户对指定属性（如纹理或几何形状）的控制程度。如果表示法仅学习一个潜在空间，那么最好的办法就是采用先前的方法，在潜在空间中搜索与特定编辑（如年龄、发型或性别）相关的方向。这些方法通常较为脆弱，并且很大程度上依赖于训练数据集中的属性分布，巧合地学习一个解耦的潜在空间。在第五章中，我们将通过探索一种混合型3D神经表示来解决这些局限性，这种表示不仅质量高、可泛化，而且能够显式解耦纹理、几何形状、表情和身份等属性。

成为VIP会员查看完整内容

相关内容

斯坦福大学 (Stanford University)

关注 75

斯坦福大学（StanfordUniversity）位于加利福尼亚州，临近旧金山，占地35平方公里，是美国面积第二大的大学。它被公认为世界上最杰出的大学之一，相比美国东部的常春藤盟校，特别是哈佛大学、耶鲁大学，斯坦福大学虽然历史较短，但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的，美国最高法院的9个大法官，有6个是从斯坦福大学的法学院毕业的。

【伯克利博士论文】从自然场景视频中解耦人体运动和相机运动

专知会员服务

18+阅读 · 2024年10月31日

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习和生成数据

专知会员服务

16+阅读 · 2024年10月7日

【牛津博士论文】大规模观测因果机器学习中的结构与统计不确定性

专知会员服务

26+阅读 · 2024年9月29日

【伯克利博士论文】用于决策制定的基础模型：算法、框架与应用

专知会员服务

47+阅读 · 2024年8月29日