生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能（GenAI）在近年来取得了显著进展，并在计算机视觉和计算设计等不同领域的各种生成任务中表现出色。许多研究人员尝试将GenAI集成到可视化框架中，利用其卓越的生成能力来执行不同操作。同时，近期在GenAI领域的重大突破，如扩散模型和大型语言模型，也极大地提升了GenAI4VIS的潜力。从技术角度来看，本文回顾了以往利用GenAI的可视化研究，并讨论了未来研究的挑战与机遇。具体而言，我们涵盖了不同类型的GenAI方法在不同可视化任务中的应用，包括序列生成、表格生成、空间生成和图生成技术，并将这些任务总结为四个主要阶段：数据增强、视觉映射生成、风格化和交互。对于每个具体的可视化子任务，我们展示了典型的数据和具体的GenAI算法，旨在提供对最新GenAI4VIS技术及其局限性的深入理解。此外，基于综述，我们讨论了评估、数据集以及端到端GenAI与生成算法之间差距这三个主要方面的挑战和研究机会。通过总结不同的生成算法、它们的当前应用及其局限性，本文旨在为未来的GenAI4VIS研究提供有用的见解。

引言

VizDeck [1]。可视化是通过渲染空间或抽象数据的图形表示来辅助探索性数据分析的过程。最近，许多研究人员尝试将人工智能（AI）应用于可视化任务[2, 3, 4, 5, 6]。特别是由于可视化本质上涉及对原始数据的表示和交互，许多可视化研究人员开始采用快速发展的生成式人工智能（GenAI）技术，这是一种通过学习现有的人造样本生成合成内容和数据的AI技术[7, 8]。近几年，GenAI在人工智能领域崭露头角，对各种研究和应用领域如工件设计和交互设计产生了深远而广泛的影响（例如[9, 10, 11]）。最近，多模态AI生成模型如Stable Diffusion [12]或DaLL-E 2 [13]使得没有传统艺术和设计技能的普通用户可以通过简单的文本提示轻松生成高质量的数字绘画或设计。在自然语言生成方面，大型语言模型如GPT [14]和LLaMa [15]也展示了惊人的对话、推理和知识嵌入能力。在计算机图形学领域，最近的模型如DreamFusion [16]也在3D生成方面展示了令人印象深刻的潜力。GenAI的独特优势在于其灵活的能力，可以基于从现实世界数据中隐含获得的知识进行数据建模和设计生成。这一特性使GenAI成为一种变革力量，能够减轻传统计算方法的工作负担和复杂性，并通过比以往方法更具创意的生成结果扩展设计的多样性。 GenAI的巨大潜力在其增强和简化数据可视化过程中的操作能力中尤为明显。从数据处理到映射阶段及其后，GenAI可以在数据推理和增强、自动可视化生成以及图表问答等任务中发挥关键作用。例如，自动可视化生成在当前的GenAI方法浪潮之前一直是研究重点，为非专业用户提供了一种有效进行数据分析和创建视觉表示的方法（例如[17, 18]）。传统上，自动可视化方法依赖于基于设计原则的专家设计规则[19]。然而，这些方法受到基于知识系统的限制，难以在复杂规则或过于简化的目标函数中全面整合专家知识[20]。GenAI的出现引入了一种范式转变，不仅提高了效率，还在一个前所未有的技术进步时代提供了一种更直观和可访问的可视化方法。

尽管GenAI表现出色，但在可视化应用中它可能面临许多挑战，因为可视化有其独特的数据结构和分析需求。例如，可视化图像的生成与自然或艺术图像的生成有显著不同。首先，GenAI在可视化任务中的评估比自然图像生成更复杂，因为需要考虑许多超出图像相似性的因素，如效率[21]和数据完整性[22]。其次，与在具有简单注释的大型数据集上训练的通用GenAI任务相比，可视化任务的多样性和复杂性需要更复杂的训练数据[23]，这更难以策划。第三，传统可视化管道与强规则约束之间的差距使得与端到端GenAI方法的完全整合变得困难。这些独特的特性使得利用最新的通用预训练GenAI模型来实现特定可视化生成变得不那么直接。因此，了解以前的工作如何利用GenAI进行各种可视化应用，面临的挑战是什么，尤其是如何调整GenAI方法以适应这些任务是很重要的。

虽然之前的一些综述涵盖了AI在可视化中的一般应用[3]，但据我们所知，没有研究专门集中在综述GenAI方法在可视化中的应用。本文广泛综述了文献并总结了为可视化开发的AI驱动生成方法。我们根据具体任务将各种GenAI方法分类，这些任务对应于可视化生成的不同阶段。通过这种方式，我们收集了81篇关于GenAI4VIS的研究论文。我们特别关注在特定任务中使用的不同算法，希望帮助研究人员理解最新技术的发展及其挑战。我们还讨论并突出潜在的研究机会。本文的结构如下。第二部分概述了我们综述的范围和分类，并定义了关键概念。从第三部分到第六部分，每一部分对应于GenAI在可视化管道中的一个阶段。具体来说，第三部分讨论了GenAI在数据增强中的应用。第四部分总结了利用GenAI进行视觉映射生成的工作。第五部分重点介绍了GenAI如何用于风格化和与可视化的交流。第六部分涵盖了支持用户交互的GenAI技术。第三至第六部分的每个小节涵盖了该阶段中的一个特定任务。为了全面理解当前GenAI方法如何处理特定结构的数据以及在特定任务中仍然存在的挑战，小节的结构分为两部分：数据和算法以及讨论。最后，第七部分讨论了未来研究的主要挑战和研究机会。

范围与分类

范围与定义

生成式人工智能（GenAI）是一种通过分析训练样本，学习其模式和分布，然后创建逼真仿制品的AI技术。GenAI利用生成建模和深度学习（DL）的进步，通过利用现有的文本、图形、音频和视频等媒体，在大规模上生成多样化的内容[7, 8]。GenAI的一个关键特征是通过从数据中学习而不是通过显式编程来生成新内容。

** GenAI方法分类**

尽管生成目标在文本、代码、多媒体到3D生成等不同领域有所不同，但生成的具体算法实际上依赖于数据结构，这些数据结构在不同领域中表现出共同的特征。特别是在GenAI4VIS应用中，基于数据结构的分类可以促进对不同可视化任务中涉及的不同类型数据的算法的更具体理解。这里，我们概述了与数据可视化相关的典型数据结构的不同类型GenAI。

序列生成：此类别包括有序数据的生成，例如文本、代码、音乐、视频和时间序列数据。序列生成模型，如LSTMs和Transformers，可用于创建具有顺序或时间结构的内容。
表格生成：此类别涵盖以行和列形式生成结构化数据，如电子表格或数据库表。应用包括数据增强、匿名化和数据插补。
图生成：此类别涉及生成图和网络结构，如社交网络、分子结构或推荐系统。像图神经网络（GNNs）和图卷积网络（GCNs）这样的模型可以用来生成或操作图结构数据。
空间生成：此类别涵盖2D图像和3D模型的生成。这些数据具有在欧几里得空间中进行2D或3D投影的空间数据的共同特征，可以表示为具有2D/3D坐标的像素、体素或点。2D生成包括图像合成、风格迁移和数字艺术，而3D生成涵盖计算机图形、虚拟现实和3D打印。像GANs、VAEs和PointNet [24]等技术可以用于创建2D和3D内容。 GenAI4VIS任务分类

为了对收集到的文章进行分类和组织，我们借鉴了描述不同基本阶段的经典可视化管道[25]。然而，由于GenAI被应用于不同于传统操作的更广泛场景中，我们也修改了该管道以涵盖一些最新的研究主题，包括数据增强、视觉映射生成、风格化和交互。值得注意的是，数据转换部分被概括为数据增强的概念，这一术语灵感来自McNabb等人的研究[26]。此外，由于很少有GenAI用于可视化的工作专注于基本视图转换，我们将此部分替换为更广泛的风格化与交流概念。在不同阶段下，我们进一步将工作分类为具体任务，如图1所示。

数据增强：数据增强是指改善数据质量或完整性，或增强数据的特征表示以便后续可视化的过程。这可以包括数据增强、嵌入或其他变换，使其更适合可视化。
视觉映射生成：这是指使用算法和软件工具自动生成可视化，而无需大量手动干预。自动视觉映射生成允许用户利用如何创建适当可视化的常识来减少工作量和人为违反设计原则的情况。
风格化：扩展了[27]中提出的呈现概念，我们在可视化中定义了风格化，这涉及应用设计原则和美学选择，使可视化更具吸引力和有效传达信息。它包括关于颜色方案、字体、布局和其他视觉或文本元素的决策，以增强信息辅助可视化[20]。 -** 交互**：在数据可视化的背景下，交互是指用户与可视化数据之间的动态参与和交流。它包括用户操纵、探索和解释视觉表示的能力。这可以涉及各种形式的交互，例如图形交互（如缩放、平移、点击）和自然语言交互（如图表问答）。这些任务的早期方法侧重于具有复杂专家设计规则反映设计原则的基于规则的算法，这在许多应用（如色彩映射生成[28]）中仍然有效。一些研究还利用基于优化的方法来最小化专家定义的显式目标函数。然而，这些类型的方法与GenAI方法不同，因为它们是自上而下的，并不从现实世界的数据中学习。为了缩小我们综述的范围，我们排除所有纯粹基于规则或优化的生成算法。 ** 不同GenAI方法与任务的关系**

由于GenAI4VIS的广泛多样化应用，不同GenAI方法与任务之间没有明确的一对一关系。然而，我们可以观察到一些有趣的关联。首先，序列生成主要应用于视觉映射或与交互相关的任务。这是因为如翻译模型和最新的大型语言模型（LLMs）或视觉-语言模型在生成指定视觉映射的代码序列或交互流程和输出序列方面非常有用。其次，表格生成主要用于数据增强。这是因为具有属性列的表格数据是可视化的最常见初始输入数据，通过数据增强（如代理数据生成）可以为后续任务带来好处。接下来，图生成也主要用于数据增强，因为数据推理和增强可以促进图数据的后续分析。然而，尽管其使用相对较少，它在视觉映射和风格化方面具有巨大潜力，因为图结构（如知识图谱或场景图）可以优化视觉编码和布局。最后，空间生成主要应用于数据增强和风格化任务。这是因为2D和3D数据（如图像和体数据）也是VIS4AI和SciVis应用中常见的输入类型，而将基本图表修饰为风格化图表则依赖于基于图像的生成方法。图2通过桑基图展示了GenAI4VIS任务与方法之间的关系，并例示了不同方法涉及的具体数据类型。表1进一步列出了每种数据结构和任务的详细方法。

成为VIP会员查看完整内容

相关内容

生成式人工智能

关注 36

生成式人工智能是利用复杂的算法、模型和规则，从大规模数据集中学习，以创造新的原创内容的人工智能技术。这项技术能够创造文本、图片、声音、视频和代码等多种类型的内容，全面超越了传统软件的数据处理和分析能力。2022年末，OpenAI推出的ChatGPT标志着这一技术在文本生成领域取得了显著进展，2023年被称为生成式人工智能的突破之年。这项技术从单一的语言生成逐步向多模态、具身化快速发展。在图像生成方面，生成系统在解释提示和生成逼真输出方面取得了显著的进步。同时，视频和音频的生成技术也在迅速发展，这为虚拟现实和元宇宙的实现提供了新的途径。生成式人工智能技术在各行业、各领域都具有广泛的应用前景。

边缘人工智能：分类法、系统综述及未来方向

专知会员服务

60+阅读 · 2024年7月8日

图+大模型如何结合？港理工最新《大语言模型（LLMs）时代的图机器学习》综述

专知会员服务

56+阅读 · 2024年4月24日

生成式人工智能在先进无人机网络中的应用

专知会员服务

56+阅读 · 2024年4月20日

探索视觉语言模型的前沿：当前方法和未来方向的综述

专知会员服务

48+阅读 · 2024年4月12日