生物体通过各种感官系统体验到一个包含多种模态的世界。例如,它们可以通过视觉、嗅觉、味觉、触觉和听觉感知物理或化学刺激。不同物种的神经系统整合了不同感官的异质刺激,并形成了捕获模态间共享信息的多模态表征。类似地,机器可以通过不同类型的传感器,如摄像头和麦克风,来感知它们的环境。然而,尚不充分理解如何在硅基环境中(即通过计算机模拟)形成多模态表征。在这篇论文中,我们研究如何利用模态间的统计依赖性,通过机器学习在计算上形成多模态表征。我们的出发点是,现实世界的数据是由少数变化因素生成的。给定一组观测数据,表征学习试图推断这些潜在变量,而没有进一步的假设则根本无法实现。然而,当我们拥有不同模态的对应观测时,它们之间的统计依赖性可以携带关于潜在过程结构的有意义信息。受此思想的启发,我们研究了在弱监督下的多模态学习,这意味着我们考虑多种模态的对应观测,而不对它们之间的共享内容进行标记。对于这一具有挑战性的设置,我们设计了机器学习算法,将观测转化为共享和特定模态信息的表征,而无需通过标签进行明确的监督。因此,我们开发了一种方法,使用多种模态的形式的弱监督从低级观测中推断潜在结构。我们使用生成学习和区别学习两种方法来开发多模态表征学习的技术。
首先,我们专注于使用变分自编码器(VAEs)的生成学习,并提出了一种原理性且可扩展的方法,用于对模态集进行变分推断和密度估计。我们的方法增强了共享和特定模态信息的编码和解耦,并因此改善了与相关基准相比的生成性能。受到这些结果的启发,我们考虑将潜在空间显式地分割成共享和特定模态的子空间。我们探索了分区的利弊,并开发了一种模型,促进了各自子空间所需解耦的提升。因此,它进一步改善了与具有联合潜在空间的模型相比的生成性能。另一方面,我们还为使用多模态VAEs的生成学习确立了基本限制。我们展示了模态的子采样强制执行了对联合分布近似的不希望的界限。这限制了基于混合的多模态VAEs的生成性能,并限制了它们在相关信息可以通过模态间的观测水平上的期望预测的设置中的应用。为了解决这些问题,我们转向区别方法并专注于对比学习。我们展示了对比学习可以用来识别跨模态不变的共享潜在因素,即使在潜在变量之间存在非平凡的统计和因果依赖性的情况下也是如此。最后,我们演示了对比学习产生的表征如何能够超越多模态VAEs的限制,从而产生了一种用于多模态生成学习以及共享和特定模态信息解耦的混合方法。因此,我们为多模态表征学习建立了理论基础,并解释了在哪些设置中生成和区别方法在实践中可以有效。