【CMU博士论文】视频多模态学习:探索模型和任务复杂性,152页pdf

2022 年 8 月 10 日 专知


人类学习本质上是多模态的。我们通过观察、倾听、阅读和交流来学习和理解我们周围的环境。机器学习领域已经取得了一些与人类活动相关的进展,如语音识别或计算机视觉,这使得对这种类人固有的多模态学习进行计算建模成为可能。多模态视频理解作为一种机器学习任务,与这种学习形式很接近。本文提出将这个复杂的视频理解任务分解为一系列相对简单的任务,并增加复杂性。本文从语音识别的单调任务出发,介绍了一个端到端视听语音识别模型。语音翻译是一个更为复杂的任务,除了语音识别外,还需要处理重新排序的输出序列,这也是本文的第二个任务。对于语音翻译,我们引入了一个多模态融合模型,该模型学习以半监督的方式利用多视图多模态数据。此外,我们还将继续进行多模态视频摘要和问题回答的任务,以解决抽象层次的理解任务,进一步涉及信息压缩和重构。最后,我们将这项工作扩展到多模态自我理性化,不仅执行抽象层次的学习,而且还提供了对所获得的视频理解的解释。针对这四个主要任务,我们根据任务的性质和复杂性,提出了一系列多模态融合模型,并在常用的视频和语言理解数据集上对模型进行了比较和对比。


https://lti.cs.cmu.edu/sites/default/files/palaskar%2C%20shruti%20-%20Thesis.pdf



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“M152” 就可以获取【CMU博士论文】视频多模态学习:探索模型和任务复杂性,152页pdf》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
1

相关内容

【CMU博士论文】多视图上下文理解的知识增强表示学习
专知会员服务
34+阅读 · 2022年8月11日
【博士论文】多任务学习视觉场景理解,140页pdf
专知会员服务
90+阅读 · 2022年4月5日
专知会员服务
65+阅读 · 2021年10月15日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
129+阅读 · 2020年8月27日
《自监督学习》最新报告,45页ppt
专知
1+阅读 · 2022年9月14日
国家自然科学基金
22+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年11月23日
Arxiv
29+阅读 · 2022年3月28日
Arxiv
15+阅读 · 2018年4月5日
Arxiv
151+阅读 · 2017年8月1日
VIP会员
相关基金
国家自然科学基金
22+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员