生成式人工智能(GenAI)在近年来取得了显著进展,并在计算机视觉和计算设计等不同领域的各种生成任务中表现出色。许多研究人员尝试将GenAI集成到可视化框架中,利用其卓越的生成能力来执行不同操作。同时,近期在GenAI领域的重大突破,如扩散模型和大型语言模型,也极大地提升了GenAI4VIS的潜力。 从技术角度来看,本文回顾了以往利用GenAI的可视化研究,并讨论了未来研究的挑战与机遇。具体而言,我们涵盖了不同类型的GenAI方法在不同可视化任务中的应用,包括序列生成、表格生成、空间生成和图生成技术,并将这些任务总结为四个主要阶段:数据增强、视觉映射生成、风格化和交互。对于每个具体的可视化子任务,我们展示了典型的数据和具体的GenAI算法,旨在提供对最新GenAI4VIS技术及其局限性的深入理解。 此外,基于综述,我们讨论了评估、数据集以及端到端GenAI与生成算法之间差距这三个主要方面的挑战和研究机会。通过总结不同的生成算法、它们的当前应用及其局限性,本文旨在为未来的GenAI4VIS研究提供有用的见解。
VizDeck [1]。可视化是通过渲染空间或抽象数据的图形表示来辅助探索性数据分析的过程。最近,许多研究人员尝试将人工智能(AI)应用于可视化任务[2, 3, 4, 5, 6]。特别是由于可视化本质上涉及对原始数据的表示和交互,许多可视化研究人员开始采用快速发展的生成式人工智能(GenAI)技术,这是一种通过学习现有的人造样本生成合成内容和数据的AI技术[7, 8]。近几年,GenAI在人工智能领域崭露头角,对各种研究和应用领域如工件设计和交互设计产生了深远而广泛的影响(例如[9, 10, 11])。 最近,多模态AI生成模型如Stable Diffusion [12]或DaLL-E 2 [13]使得没有传统艺术和设计技能的普通用户可以通过简单的文本提示轻松生成高质量的数字绘画或设计。在自然语言生成方面,大型语言模型如GPT [14]和LLaMa [15]也展示了惊人的对话、推理和知识嵌入能力。在计算机图形学领域,最近的模型如DreamFusion [16]也在3D生成方面展示了令人印象深刻的潜力。GenAI的独特优势在于其灵活的能力,可以基于从现实世界数据中隐含获得的知识进行数据建模和设计生成。这一特性使GenAI成为一种变革力量,能够减轻传统计算方法的工作负担和复杂性,并通过比以往方法更具创意的生成结果扩展设计的多样性。 GenAI的巨大潜力在其增强和简化数据可视化过程中的操作能力中尤为明显。从数据处理到映射阶段及其后,GenAI可以在数据推理和增强、自动可视化生成以及图表问答等任务中发挥关键作用。例如,自动可视化生成在当前的GenAI方法浪潮之前一直是研究重点,为非专业用户提供了一种有效进行数据分析和创建视觉表示的方法(例如[17, 18])。传统上,自动可视化方法依赖于基于设计原则的专家设计规则[19]。然而,这些方法受到基于知识系统的限制,难以在复杂规则或过于简化的目标函数中全面整合专家知识[20]。GenAI的出现引入了一种范式转变,不仅提高了效率,还在一个前所未有的技术进步时代提供了一种更直观和可访问的可视化方法。
尽管GenAI表现出色,但在可视化应用中它可能面临许多挑战,因为可视化有其独特的数据结构和分析需求。例如,可视化图像的生成与自然或艺术图像的生成有显著不同。首先,GenAI在可视化任务中的评估比自然图像生成更复杂,因为需要考虑许多超出图像相似性的因素,如效率[21]和数据完整性[22]。其次,与在具有简单注释的大型数据集上训练的通用GenAI任务相比,可视化任务的多样性和复杂性需要更复杂的训练数据[23],这更难以策划。第三,传统可视化管道与强规则约束之间的差距使得与端到端GenAI方法的完全整合变得困难。这些独特的特性使得利用最新的通用预训练GenAI模型来实现特定可视化生成变得不那么直接。因此,了解以前的工作如何利用GenAI进行各种可视化应用,面临的挑战是什么,尤其是如何调整GenAI方法以适应这些任务是很重要的。
虽然之前的一些综述涵盖了AI在可视化中的一般应用[3],但据我们所知,没有研究专门集中在综述GenAI方法在可视化中的应用。本文广泛综述了文献并总结了为可视化开发的AI驱动生成方法。我们根据具体任务将各种GenAI方法分类,这些任务对应于可视化生成的不同阶段。通过这种方式,我们收集了81篇关于GenAI4VIS的研究论文。我们特别关注在特定任务中使用的不同算法,希望帮助研究人员理解最新技术的发展及其挑战。我们还讨论并突出潜在的研究机会。 本文的结构如下。第二部分概述了我们综述的范围和分类,并定义了关键概念。从第三部分到第六部分,每一部分对应于GenAI在可视化管道中的一个阶段。具体来说,第三部分讨论了GenAI在数据增强中的应用。第四部分总结了利用GenAI进行视觉映射生成的工作。第五部分重点介绍了GenAI如何用于风格化和与可视化的交流。第六部分涵盖了支持用户交互的GenAI技术。第三至第六部分的每个小节涵盖了该阶段中的一个特定任务。为了全面理解当前GenAI方法如何处理特定结构的数据以及在特定任务中仍然存在的挑战,小节的结构分为两部分:数据和算法以及讨论。最后,第七部分讨论了未来研究的主要挑战和研究机会。
范围与分类
范围与定义
生成式人工智能(GenAI)是一种通过分析训练样本,学习其模式和分布,然后创建逼真仿制品的AI技术。GenAI利用生成建模和深度学习(DL)的进步,通过利用现有的文本、图形、音频和视频等媒体,在大规模上生成多样化的内容[7, 8]。GenAI的一个关键特征是通过从数据中学习而不是通过显式编程来生成新内容。
** GenAI方法分类**
尽管生成目标在文本、代码、多媒体到3D生成等不同领域有所不同,但生成的具体算法实际上依赖于数据结构,这些数据结构在不同领域中表现出共同的特征。特别是在GenAI4VIS应用中,基于数据结构的分类可以促进对不同可视化任务中涉及的不同类型数据的算法的更具体理解。这里,我们概述了与数据可视化相关的典型数据结构的不同类型GenAI。
为了对收集到的文章进行分类和组织,我们借鉴了描述不同基本阶段的经典可视化管道[25]。然而,由于GenAI被应用于不同于传统操作的更广泛场景中,我们也修改了该管道以涵盖一些最新的研究主题,包括数据增强、视觉映射生成、风格化和交互。值得注意的是,数据转换部分被概括为数据增强的概念,这一术语灵感来自McNabb等人的研究[26]。此外,由于很少有GenAI用于可视化的工作专注于基本视图转换,我们将此部分替换为更广泛的风格化与交流概念。在不同阶段下,我们进一步将工作分类为具体任务,如图1所示。
由于GenAI4VIS的广泛多样化应用,不同GenAI方法与任务之间没有明确的一对一关系。然而,我们可以观察到一些有趣的关联。首先,序列生成主要应用于视觉映射或与交互相关的任务。这是因为如翻译模型和最新的大型语言模型(LLMs)或视觉-语言模型在生成指定视觉映射的代码序列或交互流程和输出序列方面非常有用。其次,表格生成主要用于数据增强。这是因为具有属性列的表格数据是可视化的最常见初始输入数据,通过数据增强(如代理数据生成)可以为后续任务带来好处。接下来,图生成也主要用于数据增强,因为数据推理和增强可以促进图数据的后续分析。然而,尽管其使用相对较少,它在视觉映射和风格化方面具有巨大潜力,因为图结构(如知识图谱或场景图)可以优化视觉编码和布局。最后,空间生成主要应用于数据增强和风格化任务。这是因为2D和3D数据(如图像和体数据)也是VIS4AI和SciVis应用中常见的输入类型,而将基本图表修饰为风格化图表则依赖于基于图像的生成方法。图2通过桑基图展示了GenAI4VIS任务与方法之间的关系,并例示了不同方法涉及的具体数据类型。表1进一步列出了每种数据结构和任务的详细方法。