现代人工智能为产生不同风格的数字艺术提供了一种新颖的方式。神经网络的表达能力使得视觉风格转移方法成为可能,这些方法可以用来编辑图像、视频和3D数据,使它们更具艺术性和多样性。本文报道了3D数据神经风格化的最新进展。我们提供了一种神经风格化的分类法,考虑了几个重要的设计选择,包括场景表示、指导数据、优化策略和输出风格。基于这种分类法,我们的综述首先回顾了2D图像神经风格化的背景,然后对3D数据的最新神经风格化方法进行了深入讨论,并提供了一个关于艺术风格化方法的小型基准测试。基于综述中获得的洞见,我们接着讨论了开放性挑战、未来研究,以及神经风格化的潜在应用和影响。
https://www.zhuanzhi.ai/paper/d5ea0c58d303f46ebcf7e8cc629aa08c
数字艺术和视觉设计在我们的日常生活空间中盛行,表达了视觉上引人入胜的美学、独特的品味和人类的情感。随着计算硬件的最新进展,使用计算工具或算法创作高质量的数字艺术越来越受到公众关注。人工智能(AI)技术的出现进一步推动了这一计算设计过程,并显示出加速或自动化创作数字艺术的强大潜力。最近出现的视觉合成和编辑AI产品,如LUMA AI [Lum23]、DALL·E 3 [Ope23]、Midjourney [Mid23] 和 RunwayML [Run23] 已成功展示了它们加速高质量视觉设计和生成的能力。
本报告深入探讨了利用AI创作3D数字艺术的最新进展,特别是通过风格化。一个典型的3D场景风格化涉及编辑场景几何和/或外观以匹配某些指定的艺术风格。风格化可以通过现代深度学习中的神经网络实现,因此称为神经风格化。放在传统计算机图形管线的背景下,3D神经风格化可以被视为传统渲染管线的替代品,使用可编程着色器用于风格化的后处理。因此,3D神经风格化有助于减少在风格化3D场景中的劳动密集型手工工作,包括3D建模、纹理化、渲染或模拟。3D神经风格化因此对于各种工业应用具有实际价值,包括电影制作中的3D纹理设计和艺术模拟 [NR21,KAOT23,HHK∗23],混合现实体验 [THC∗22, Tan19](图2),逼真的视觉特效(VFX)和虚拟制作 [Man23],艺术品创作 [GC22] 以及视频游戏开发 [OBW22,MLS∗22]。从2D神经风格化扩展到3D,使用传统3D表示和渲染进行的3D神经风格化通常面临视角一致性和逼真渲染问题。多亏了神经渲染技术的进步,对于不同3D表示(包括网格、体积、点云和神经场)的3D神经风格化取得了高质量结果的显著改进。它也适用于各种3D场景,从小型物体场景到大型野外场景,甚至应用于工业生产 [HHK∗23]。
在本报告中,我们涵盖了3D神经风格化领域的风格化基础、最新进展、现有挑战和未来研究方向。我们从神经风格化的基本技术(第2节)开始,包括2D视觉风格转移算法和3D神经渲染。在第3节中,我们介绍了神经风格化的分类法,并为3D神经风格化的最新技术提供了分类。使用这种分类法,我们深入讨论了先进的3D神经风格化方法,并提出了我们对3D风格化最近困难的分析。在第4节中,我们总结了3D风格化评估中常用的数据集。我们还提供了一个小型基准测试,作为评估最新3D风格化算法性能的标准。最后,在第5节中,我们讨论了开放的挑战和未来的研究方向。我们将随报告发布我们的评估代码和其他实施资源。
本报告的范围专注于应用于3D场景的神经风格转移。目标是探索基于深度学习的技术和方法,这些技术和方法能够自动将艺术或逼真风格和语义特征转移到3D数字世界中。尽管承认专用于风格化的3D训练数据集的稀缺性和挑战,本报告旨在突出现成的大型数据模型驱动的图像引导和文本引导神经风格化的潜力,以实现视觉上吸引人的3D风格化结果。神经风格化基础在神经风格化的基础上,视觉风格转移指的是编辑场景的纹理或颜色以匹配由参考图像定义的风格,同时保持整体场景结构不变。在这一节中,我们首先提供2D神经风格化的概览作为基础。我们重点关注图像引导和文本引导的风格转移,因为它们是两种主要的风格化方法,分别通过一张图片或一段文字来指示目标风格参考。我们从使用经典特征提取器(如VGG分类器和CLIP编码器)的简单方法开始讨论基础知识。我们还根据它们的优化方法对这些2D神经风格转移技术进行分类。最后,我们简要介绍神经辐射场的基础知识,这是一种重要的3D神经表示形式,在第3节中将深入讨论3D神经风格化。我们参考了[JYF∗19,SJJ∗21,ZYW∗23]中关于条件图像合成和风格化的更多讨论,以及[TTM∗22,XTS∗22]中关于场景表示和神经渲染的更多讨论。
3D神经风格化
3D神经风格化指的是将神经风格化技术应用于修改现有3D数字表示的视觉外观和美学特征。这个过程涉及利用神经网络及相关风格化算法来操纵颜色、纹理、形状等3D模型的视觉和几何属性。3D神经风格化促进了3D数字内容的视觉风格化自动生成,为计算机图形学领域的创意表达和视觉设计提供了新的途径。为了将3D表示与新风格融合,需要考虑两个重要因素:3D几何保留和风格转换。与视觉风格转移类似,我们关注基于图像和文本的3D神经风格化方法。大多数方法依赖现有的大型预训练模型(例如VGG和CLIP)进行零样本特征提取,并且不需要任何额外的3D数据预训练。与3D数据上的预训练3D特征提取器相比(例如体素[WSK∗15]、网格[MBBV15]、点云[QSMG17, ZJJ∗21]),图像和文本预训练模型是广泛可访问的,它们以多级视觉模式和语义特征提取而闻名。在这一节中,我们首先引入神经风格化的分类法,并给出现有3D神经风格化方法的分类示例。在后续章节中,我们将介绍最先进的3D神经风格化技术,涵盖了如网格、体积数据、点云和隐式场等多种3D表示,重点关注外观和/或几何风格化的转变。最后,我们将深入总结和分析3D神经风格化的技术。
分类法 我们从2D对应物扩展了3D神经风格化的术语。3D神经风格化方法的分类法如图9所示,详细内容如下。
表示形式可以是显式图像或隐式2D场,构建的3D资产如网格、体积模拟、多视图3D重建(如重建的网格),以及隐式3D场。
神经风格特征指的是来自预训练特征提取器的图像视觉嵌入或文本语义嵌入,通常是神经分类器。
优化指的是基于优化的(类似于第2.1节)或基于预测的风格化方法(类似于第2.2节),支持单一、多个或任意风格。
风格化类型指的是不同类型的风格化,从从艺术作品中检索的风格(例如图1中的梵高星夜雕塑场景),到逼真风格(包括传统基于颜色的风格转移和逼真的几何与外观变化,例如图1中的“燃烧的松果”),再到具有风格语义对应的语义风格转移,使用显式标签或掩码,或隐式文本或视觉语义定位和映射。我们进一步将方法分类为几何风格化和外观风格化,其中几何风格化指的是变换原始形状以对齐风格参考,如改变顶点、体素的位置,外观风格化指的是重新着色、图案和图腾转移,如图像像素、纹理映射、顶点颜色、点颜色和辐射场。 图10展示了3D神经风格化方法的层次分类。表1详细突出了基于我们在图9中提出的分类法标准的选定3D风格化方法的分类和比较。
结论
本最新报告探讨了3D神经风格化的进展,特别是针对3D数据的图像引导和文本引导神经风格化技术。通过对最新3D神经风格化技术及其相应应用的全面综述,我们强调了神经风格化在加速创造过程、实现风格化的细粒度控制、以及在电影制作、虚拟制作和视频游戏开发等多个领域增强艺术表达的重要性。此外,我们介绍了神经风格化的分类法,为神经风格化领域的新作品提供了一个分类框架。我们对先进技术的分析和讨论强调了持续的研究努力,旨在解决限制并推动3D数字领域神经风格化的边界。最后,我们提出了一个3D艺术风格化的小型基准测试,我们的目标是为其他3D风格化作品提供灵感和评估标准。