在这篇论文中,我们研究了多模态学习问题和算法。为此,我们将研究集中在三种模态上:(i) 音频,(ii) 图像,(iii) 文本。我们在两个方向上提供了新颖的方法和见解:多模态序列建模和多模态表示学习。在论文的第一部分中,我们介绍了两种用于多模态序列建模的新方法:一种用于上下文自动语音识别,另一种用于场景文本识别。在论文的第二部分中,我们重点关注两种模态的多模态表示学习:图像和文本。主要关注的是对比图像-文本表示学习,我们在理解和改进对比图像-文本方法方面提供了新的见解。 https://hdl.handle.net/11245.1/c978c2cb-08af-4cec-9f35-cf175b219f73

在人工智能(AI)研究的早期阶段,领域内的各个子任务主要是孤立研究的。例如,针对依赖不同数据模态的不同任务开发了不同的方法和理论,如自动语音识别(例如,Graves et al., 2006; Graves, 2012; Hannun et al., 2014),计算机视觉(例如,Krizhevsky et al., 2012; Simonyan and Zisserman, 2015; He et al., 2016),信息检索(例如,Manning et al., 2008; Guo et al., 2016),知识表示(例如,van Harmelen et al., 2008)和自然语言处理(例如,Mikolov et al., 2013; Sutskever et al., 2014; Bahdanau et al., 2015)。仅依靠单一模态,机器不太可能完全理解一个学习问题。例如,人类认知在处理各种任务和问题上表现良好(Noyes et al., 2004),显然不能被视为单模态(Barsalou, 2001)。因此,在本论文中,我们偏离传统的单模态AI方法,转而关注多模态学习问题和算法。多模态AI定义为包含多种数据模态的AI研究问题,如音频(语音)、图像/视频(视觉)和文本(语言)(Baltrusaitis et al., 2019)。 与单模态AI方法相比,利用多模态有几个好处。例如:(i)多模态提供了更丰富的训练信号,因为它从不同的角度描绘了一个数据点,从而增加了互补信息(Guo et al., 2019b)。(ii)多模态AI方法能够处理多种模态的数据,从而实现对内容和学习问题的更全面理解(Gautam, 2023)。 本论文的每一章都聚焦于一个多模态学习问题。贯穿整个论文,我们处理三种模态:(i)音频,(ii)图像,(iii)文本。这三种模态通过三个多模态任务来研究:(i)自动语音识别,(ii)场景文本识别,(iii)图像-标题检索(或更广泛的图像-文本表示学习)。前两个任务的特点是其序列性(即序列建模任务),而后者被定义为多模态表示学习任务。 由于本论文研究的任务特性明显不同,我们将论文分为两部分。在第一部分中,我们关注多模态序列建模。序列建模任务的特点是输入数据的序列性质(如文本或音频)或模型对序列输出进行预测或生成的能力。我们介绍了两种用于多模态序列建模的新方法:一种用于上下文自动语音识别(第2章),一种用于场景文本识别(第3章)。在第二部分中,我们关注图像和文本两种模态的多模态表示学习。表示学习旨在学习输入数据的表示,以便在构建分类器或其他预测器时更容易提取有用信息(Bengio et al., 2013)。图像-文本表示学习的目标是学习图像和文本的通用表示,使视觉概念和文本信息能够相互关联。主要关注的是对比图像-文本表示学习,我们在理解和改进对比图像-文本方法方面提供了新的见解(第4章,第5章和第6章)。

成为VIP会员查看完整内容
21

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【斯坦福博士论文】生成模型的视觉与行为
专知会员服务
31+阅读 · 7月11日
【牛津大学博士论文】图机器学习的鲁棒性分析
专知会员服务
28+阅读 · 4月30日
【伯克利博士论文】控制长篇大型语言模型输出
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
46+阅读 · 2022年8月17日
专知会员服务
65+阅读 · 2021年10月15日
深入卷积神经网络背后的数学原理
人工智能学家
10+阅读 · 2019年4月26日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
论文浅尝 | 区分概念和实例的知识图谱嵌入方法
开放知识图谱
17+阅读 · 2019年1月19日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
406+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
146+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员