随着我们构建能够与周围真实世界互动的新人工智能技术,从多种模态学习的问题占据了中心舞台。从医疗保健、教育到通信等应用,越来越多地依赖多种模态已被证明是更准确地感知和处理我们周围世界的一个独特因素。在这篇论文中,我们关注在现实世界中学习多模态表示的问题。我们概述了多模态机器学习的三个主要挑战,并采取具体步骤来解决它们。首先,我们解决了局部融合的挑战,重点是学习跨模态动力学,包括语言、视觉和听觉(我们周围最常见的三种模态)之间的单模态、双模态和三模态交互作用。随后,我们跃进到时间融合,其中局部融合挑战扩展到时间域。时间融合需要模式之间的对齐,这和学习跨模式动力学一样重要。随后,第三个挑战涉及的事实是,在现实世界中,多模态数据几乎总是部分可见的。我们扩展了变分推理(VI)的功能,以处理甚至是最极端的缺失率和缺失模式的情况。在本文深入研究这些挑战的过程中,我们对多模态机器学习做出了算法、理论和经验贡献。
本论文研究了语言、视觉和声学模态的多模态学习面临的三大挑战: 局部融合挑战涉及模态间复杂的跨模态交互建模。 时间融合挑战涉及建模可能存在于顺序模式之间的异步数据 丢失数据挑战涉及建模真实世界部分可观测的多模态数据