【阿姆斯特丹博士论文】多模态学习算法的序列建模和表示学习

在这篇论文中，我们研究了多模态学习问题和算法。为此，我们将研究集中在三种模态上：(i) 音频，(ii) 图像，(iii) 文本。我们在两个方向上提供了新颖的方法和见解：多模态序列建模和多模态表示学习。在论文的第一部分中，我们介绍了两种用于多模态序列建模的新方法：一种用于上下文自动语音识别，另一种用于场景文本识别。在论文的第二部分中，我们重点关注两种模态的多模态表示学习：图像和文本。主要关注的是对比图像-文本表示学习，我们在理解和改进对比图像-文本方法方面提供了新的见解。 https://hdl.handle.net/11245.1/c978c2cb-08af-4cec-9f35-cf175b219f73

在人工智能（AI）研究的早期阶段，领域内的各个子任务主要是孤立研究的。例如，针对依赖不同数据模态的不同任务开发了不同的方法和理论，如自动语音识别（例如，Graves et al., 2006; Graves, 2012; Hannun et al., 2014），计算机视觉（例如，Krizhevsky et al., 2012; Simonyan and Zisserman, 2015; He et al., 2016），信息检索（例如，Manning et al., 2008; Guo et al., 2016），知识表示（例如，van Harmelen et al., 2008）和自然语言处理（例如，Mikolov et al., 2013; Sutskever et al., 2014; Bahdanau et al., 2015）。仅依靠单一模态，机器不太可能完全理解一个学习问题。例如，人类认知在处理各种任务和问题上表现良好（Noyes et al., 2004），显然不能被视为单模态（Barsalou, 2001）。因此，在本论文中，我们偏离传统的单模态AI方法，转而关注多模态学习问题和算法。多模态AI定义为包含多种数据模态的AI研究问题，如音频（语音）、图像/视频（视觉）和文本（语言）（Baltrusaitis et al., 2019）。与单模态AI方法相比，利用多模态有几个好处。例如：（i）多模态提供了更丰富的训练信号，因为它从不同的角度描绘了一个数据点，从而增加了互补信息（Guo et al., 2019b）。（ii）多模态AI方法能够处理多种模态的数据，从而实现对内容和学习问题的更全面理解（Gautam, 2023）。本论文的每一章都聚焦于一个多模态学习问题。贯穿整个论文，我们处理三种模态：（i）音频，（ii）图像，（iii）文本。这三种模态通过三个多模态任务来研究：（i）自动语音识别，（ii）场景文本识别，（iii）图像-标题检索（或更广泛的图像-文本表示学习）。前两个任务的特点是其序列性（即序列建模任务），而后者被定义为多模态表示学习任务。由于本论文研究的任务特性明显不同，我们将论文分为两部分。在第一部分中，我们关注多模态序列建模。序列建模任务的特点是输入数据的序列性质（如文本或音频）或模型对序列输出进行预测或生成的能力。我们介绍了两种用于多模态序列建模的新方法：一种用于上下文自动语音识别（第2章），一种用于场景文本识别（第3章）。在第二部分中，我们关注图像和文本两种模态的多模态表示学习。表示学习旨在学习输入数据的表示，以便在构建分类器或其他预测器时更容易提取有用信息（Bengio et al., 2013）。图像-文本表示学习的目标是学习图像和文本的通用表示，使视觉概念和文本信息能够相互关联。主要关注的是对比图像-文本表示学习，我们在理解和改进对比图像-文本方法方面提供了新的见解（第4章，第5章和第6章）。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【牛津大学博士论文】图机器学习的鲁棒性分析

专知会员服务

31+阅读 · 2024年4月30日

【伯克利博士论文】控制长篇大型语言模型输出

专知会员服务

34+阅读 · 2024年3月6日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

49+阅读 · 2022年9月22日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知会员服务

89+阅读 · 2022年7月9日