在这篇论文中,我们研究了多模态学习问题和算法。为此,我们将研究集中在三种模态上:(i) 音频,(ii) 图像,(iii) 文本。我们在两个方向上提供了新颖的方法和见解:多模态序列建模和多模态表示学习。在论文的第一部分中,我们介绍了两种用于多模态序列建模的新方法:一种用于上下文自动语音识别,另一种用于场景文本识别。在论文的第二部分中,我们重点关注两种模态的多模态表示学习:图像和文本。主要关注的是对比图像-文本表示学习,我们在理解和改进对比图像-文本方法方面提供了新的见解。 https://hdl.handle.net/11245.1/c978c2cb-08af-4cec-9f35-cf175b219f73
在人工智能(AI)研究的早期阶段,领域内的各个子任务主要是孤立研究的。例如,针对依赖不同数据模态的不同任务开发了不同的方法和理论,如自动语音识别(例如,Graves et al., 2006; Graves, 2012; Hannun et al., 2014),计算机视觉(例如,Krizhevsky et al., 2012; Simonyan and Zisserman, 2015; He et al., 2016),信息检索(例如,Manning et al., 2008; Guo et al., 2016),知识表示(例如,van Harmelen et al., 2008)和自然语言处理(例如,Mikolov et al., 2013; Sutskever et al., 2014; Bahdanau et al., 2015)。仅依靠单一模态,机器不太可能完全理解一个学习问题。例如,人类认知在处理各种任务和问题上表现良好(Noyes et al., 2004),显然不能被视为单模态(Barsalou, 2001)。因此,在本论文中,我们偏离传统的单模态AI方法,转而关注多模态学习问题和算法。多模态AI定义为包含多种数据模态的AI研究问题,如音频(语音)、图像/视频(视觉)和文本(语言)(Baltrusaitis et al., 2019)。 与单模态AI方法相比,利用多模态有几个好处。例如:(i)多模态提供了更丰富的训练信号,因为它从不同的角度描绘了一个数据点,从而增加了互补信息(Guo et al., 2019b)。(ii)多模态AI方法能够处理多种模态的数据,从而实现对内容和学习问题的更全面理解(Gautam, 2023)。 本论文的每一章都聚焦于一个多模态学习问题。贯穿整个论文,我们处理三种模态:(i)音频,(ii)图像,(iii)文本。这三种模态通过三个多模态任务来研究:(i)自动语音识别,(ii)场景文本识别,(iii)图像-标题检索(或更广泛的图像-文本表示学习)。前两个任务的特点是其序列性(即序列建模任务),而后者被定义为多模态表示学习任务。 由于本论文研究的任务特性明显不同,我们将论文分为两部分。在第一部分中,我们关注多模态序列建模。序列建模任务的特点是输入数据的序列性质(如文本或音频)或模型对序列输出进行预测或生成的能力。我们介绍了两种用于多模态序列建模的新方法:一种用于上下文自动语音识别(第2章),一种用于场景文本识别(第3章)。在第二部分中,我们关注图像和文本两种模态的多模态表示学习。表示学习旨在学习输入数据的表示,以便在构建分类器或其他预测器时更容易提取有用信息(Bengio et al., 2013)。图像-文本表示学习的目标是学习图像和文本的通用表示,使视觉概念和文本信息能够相互关联。主要关注的是对比图像-文本表示学习,我们在理解和改进对比图像-文本方法方面提供了新的见解(第4章,第5章和第6章)。