语言是一种强大的表现形式,用于捕捉我们世界的知识和信息。它擅长以极其简洁的方式表达离散概念,例如对象及其属性、它们之间的关系,这一切都得益于其极高水平的抽象性。语言是我们沟通、理解和表达思想观点的主要手段,它位于人类智能的核心。随着强大的生成模型的出现,机器也开始以显著的流畅性和创造力理解和生成自然语言。然而,它们缺乏“基础”——即与视觉世界的直接联系。视觉在我们理解和产生语言中起着关键作用。当我们描述一个场景、理解指令或参与对话时,视觉上下文显著地帮助我们解释和生成语言。这凸显了将视觉整合到生成模型中的必要性。
第1章和第2章深入探讨了图像到文本领域,强调了文本生成的多模态方法的重要性。在第1章中,我们探讨了如何通过关注视觉化来生成文本理由,以增强视觉问答模型的透明度。在第2章中,我们构建了放弃传统自左向右序列化的生成模型,转而采用一种无监督技术来确定最优生成顺序。第3章和第4章将焦点转移到文本到图像生成。在第3章中,我们引入了一个无需训练的框架,它结合了语言线索和参考图像,允许使用去噪扩散概率模型进行可控的图像合成。最后,在第4章中,我们强调了在基于文本的图像编辑中保留对象形状的重要性,提出了一种独特的机制,使得文本到图像的模型更忠实于输入掩码和文本提示。
在过去的十年里,我们见证了更大、更先进的语言模型的巨大发展。重要的技术发展,如序列到序列学习[9-12]和基于变换器[14]驱动的生成模型[13],一直是这些基础进步的核心。当这些模型在来自网络的大量文本语料上进行训练时,它们能够像人类一样理解和生成自然语言,在解决各种自然语言处理(NLP)任务方面展示了前所未有的能力,如文档总结、机器翻译、代码完成和问题回答。
虽然这些模型在处理文本方面展示了显著的能力,但它们在真正掌握人类智能方面面临着根本性的挑战。一个重要的局限性在于,这些生成模型主要从文本数据中学习,而没有直接连接到物理世界。它们缺乏所谓的“基础”或对语言所存在的环境的视觉理解。毕竟,语言本质上与我们的感官体验和与视觉环境的互动紧密相连。 图像和文本的联合建模已经在多模态生成模型的形式下积极探索。它们主要可以分为图像到文本模型[15-20],其中模型主要通过学习如何生成与条件视觉信息一致的文本来进行优化,以及文本到图像模型,其中常见的训练目标是生成与输入文本一致的图像[21-27]。这些模型在从网络上收集的包含任意文本和图像对的大规模多模态数据集上进行训练。这些数据集的规模和质量对于赋予它们显著的泛化能力至关重要,通常被称为上下文内或零次/少次学习。通过无缝地弥合视觉和语言之间的差距,这些模型使与人工智能代理交互的界面更加直观,促进了更丰富的内容生成,并为丰富我们的生活开辟了创新的解决方案之路。
鉴于这些进展,本论文旨在解决一些多模态生成模型的局限性,并探索改进它们的方法。更具体地说,本论文涵盖了视觉问答(VQA)、活动识别和图像字幕领域的图像到文本模型,以及图像合成和形状引导编辑领域的文本到图像模型。
在第2章中,我们提出了一种多模态方法,使VQA系统更具可解释性,其中模型提供联合文本理由和注意力可视化,并主张这两种模式提供互补的解释力。我们进一步展示,使用文本解释进行训练不仅产生了更好的文本理由模型,而且还产生了更好地定位支持决策的证据的模型。
第3章介绍了一种无监督的并行化学习者,它仅从训练数据中发现高质量的文本生成顺序,偏离了传统的从左到右的排序。学习者包含一个编码器网络和解码器语言模型,它们执行具有自回归顺序(表示为排列矩阵)的变分推理作为潜在变量。相应的ELBO是不可微分的,因此我们开发了一种使用策略梯度进行端到端优化的实用算法。我们在代码生成、机器翻译和图像字幕等多样化任务上展示了我们方法的有效性。
在第4章中,我们将重点转移到文本到图像任务,并展示了一种用于语义扩散引导的新型统一框架,它允许将语言或图像引导,或两者都注入到预先训练的无条件扩散模型中进行图像合成。通过使用图像-文本或图像匹配分数的梯度,我们展示了一个无条件图像扩散模型可以被重新用于成为文本和/或图像条件,而无需任何类型的重新训练。此外,所提出的方法可以应用于没有相关文本注释的数据集,这使其更容易用作即插即用的解决方案。
第5章考察了与第4章截然不同的问题,我们在现有的文本到图像扩散模型中识别了一个关键问题。即在操纵对象时,它们经常忽略对象的形状,并生成不正确缩放、切断或用背景内容替换的内容。我们提出了一种无需训练的方法,形状引导扩散,它修改了预训练的扩散模型,使其对形状输入敏感。我们使用一种新颖的内外注意力机制,在反转和生成过程中指定哪个空间区域是对象(内部)与背景(外部),然后将文本提示指定的编辑与正确的区域关联起来。
最后,在第6章中,我们总结了这篇论文的发现,并讨论了可能的扩展和未来研究的进一步途径。