生成型人工智能是一个快速发展和不断扩大的领域。随着研究领域转向构建大型基础模型和强大的架构,我们必须仔细考虑如何将这些模型适应到新的领域和任务中。本论文的工作展示了将大型生成模型和架构适应于特定应用的新方法,如虚拟试穿、概念艺术和领域特定图像分类。除了技术贡献外,本论文还探讨了关于领域特定生成模型的更广泛的开放性问题;例如,我们如何仔细构建训练数据以减少偏见?实践中创意生成型人工智能的人在循环方法是什么样的?大型视觉-语言模型在传统的仅图像任务中有多大用处?
生成式人工智能是一个快速发展的研究领域,涉及生成未见过的图像和文本。最近,图像生成 [88, 92, 95]、文本生成 [11, 22, 80]、图像字幕 [107, 118] 和视觉-语言表示学习 [85] 领域的模型和架构有了许多发展。这些模型即使在研究社区之外也产生了巨大影响。例如,人工智能生成的图像已经赢得了摄影奖项,1 在佳士得拍卖中售价高达数十万美元,2 并被作为杂志封面特色。3 例如ChatGPT [11, 80]等语言模型,已经影响了从教育到法律的各个领域。近年来,社会被生成式人工智能大大影响,但生成模型已经存在一段时间了。过去,生成对抗网络 [35] 和变分自编码器 [57, 58] 可以在特定领域的数据集上进行训练,生成该领域的新图像。近年来,生成模型的规模有了前所未有的增长。这些模型在生成高质量图像(图1.1)和文本方面表现出色,但它们需要大量数据和计算才能训练。因此,这些模型的开发和训练变得越来越不可行。一个重要的挑战是学习如何将这些大规模预训练模型和数据密集型架构适应于与原始意图不同的新领域。常见的方法是在新领域的数据上微调预训练模型。然而,当数据稀缺、训练数据与微调数据之间存在较大领域差距,或者领域需要特定用户输入和对输出的控制时,微调的有效性就受到了限制。本论文提供了如何将这些强大的大规模模型应用于新数据或任务的见解,并展示了视觉-语言模型如何弥合强大的大型语言模型和视觉任务之间的差距。此外,它还提供了在特定领域任务中使用较小、更专业模型的示例。 除了技术挑战之外,生成模型对社会的日益影响还引发了一系列需要计算机科学研究人员仔细考虑的伦理问题。例如,艺术领域新兴的生成技术引发了关于版权、所有权以及我们如何定义真正创造力的讨论。更广泛地说,人们越来越担心训练数据中的社会偏见被生成模型在它们创造的输出中持续传播。本论文的目标是在我们的技术贡献旁提供对生成式人工智能这些更广泛社会问题的见解。在以下小节中,我们概述了每个论文章节中的技术和社会问题。