人类学习本质上是多模态的。我们通过观察、倾听、阅读和交流来学习和理解我们周围的环境。机器学习领域已经取得了一些与人类活动相关的进展,如语音识别或计算机视觉,这使得对这种类人固有的多模态学习进行计算建模成为可能。多模态视频理解作为一种机器学习任务,与这种学习形式很接近。本文提出将这个复杂的视频理解任务分解为一系列相对简单的任务,并增加复杂性。本文从语音识别的单调任务出发,介绍了一个端到端视听语音识别模型。语音翻译是一个更为复杂的任务,除了语音识别外,还需要处理重新排序的输出序列,这也是本文的第二个任务。对于语音翻译,我们引入了一个多模态融合模型,该模型学习以半监督的方式利用多视图多模态数据。此外,我们还将继续进行多模态视频摘要和问题回答的任务,以解决抽象层次的理解任务,进一步涉及信息压缩和重构。最后,我们将这项工作扩展到多模态自我理性化,不仅执行抽象层次的学习,而且还提供了对所获得的视频理解的解释。针对这四个主要任务,我们根据任务的性质和复杂性,提出了一系列多模态融合模型,并在常用的视频和语言理解数据集上对模型进行了比较和对比。

https://lti.cs.cmu.edu/sites/default/files/palaskar%2C%20shruti%20-%20Thesis.pdf

成为VIP会员查看完整内容
32

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
开课了!CMU《多模态机器学习》2022课程,附课件与视频
专知会员服务
153+阅读 · 2022年2月1日
专知会员服务
65+阅读 · 2021年10月15日
专知会员服务
71+阅读 · 2021年7月29日
【哥伦比亚大学博士论文】深度概率图建模147页pdf
专知会员服务
88+阅读 · 2021年4月27日
AAAI2022 预训练中的多模态信息融合与表征探究
RUC AI Box
3+阅读 · 2022年3月15日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年10月6日
Arxiv
0+阅读 · 2022年10月2日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
16+阅读 · 2021年7月18日
Arxiv
18+阅读 · 2021年6月10日
Arxiv
27+阅读 · 2020年12月24日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
微信扫码咨询专知VIP会员