【博士论文】视觉-语言模型时代的生成式视觉传播

视觉传达是利用视觉元素传达思想和信息的过程。

它被视为一门设计学科，常常与平面设计同义。视觉传达涵盖了各种视觉媒介，包括图画、标志、图标、海报、排版、插图、广告、动画等。有效的视觉传达设计应该简洁明了，能够清晰地传递信息给广泛的受众，超越地理和文化的障碍。此外，在一个充满视觉刺激的世界中，创作引人注目且令人难忘的设计的需求越来越难以满足。

本论文提出了一个问题：计算机是否能够自动生成跨多种媒介的有效视觉传达设计，且这些设计既清晰又简洁？

大型视觉-语言模型的最新进展使这一问题变得尤为突出。这些模型展示了前所未有的能力，可以根据文本描述生成高质量、逼真的图像，并迅速在专业和新手设计师中获得广泛应用。我们的目标是展示如何利用预训练的大型视觉-语言模型，解决视觉传达中的设计任务，这些任务需要丰富的视觉知识和对复杂概念的深入理解。这有潜力帮助设计师在创建有效传达信息的引人注目的图形设计过程中提供支持。我们从多个角度探讨这一目标。

第一研究方向：草图与视觉抽象

我们聚焦于草图与视觉抽象——视觉表达和创造力的基本元素。我们引入了两个基于优化的生成工具，CLIPasso 和 CLIPascene，用于从图像中生成不同抽象层次的草图。CLIPasso 专注于物体草图，通过调整矢量笔画的数量来控制抽象程度，而 CLIPascene 将这一方法扩展到场景草图，并拓展了草图抽象的概念。这两种工具利用预训练视觉-语言模型的先验知识来指导生成过程，减少了对人工绘制草图数据集的依赖。

第二研究方向：排版

我们展示了如何利用文本到图像的扩散模型的先验知识，自动生成以“文字为图像”的插图。这些插图旨在通过操控字母的外观，视觉化地表达给定单词的含义。在此基础上，我们进一步探索了如何利用预训练的文本到视频模型，根据提供的文本提示将静态输入草图动画化。通过结合领域特定的正则化方法，我们在这些挑战性任务中取得了成功。矢量表示的高度可编辑性使得这些成果作为复杂设计问题的初步解决方案具有很高的价值，为设计师提供了调整和改进生成输出的灵活性。

第三研究方向：视觉灵感的生成

我们探索了如何利用预训练大模型的先验知识，在设计过程中提供视觉灵感。在设计中，视觉灵感通常涉及将灵感来源分解为其关键方面，并将这些方面重新组合以满足设计目标。例如，印度的莲花寺是受莲花结构的启发而设计的，建筑师专注于其形式，而忽略了其颜色。我们利用文本到图像的个性化方法，将视觉概念分解为层次化树结构中的独立方面。然后，这些独立的方面可以与其他视觉参考元素结合，从而促进新颖视觉概念和设计的生成与探索。【博士】