【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf - 专知

会员服务 ·

0

【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf

2022 年 8 月 10 日 专知

人类学习本质上是多模态的。我们通过观察、倾听、阅读和交流来学习和理解我们周围的环境。机器学习领域已经取得了一些与人类活动相关的进展，如语音识别或计算机视觉，这使得对这种类人固有的多模态学习进行计算建模成为可能。多模态视频理解作为一种机器学习任务，与这种学习形式很接近。本文提出将这个复杂的视频理解任务分解为一系列相对简单的任务，并增加复杂性。本文从语音识别的单调任务出发，介绍了一个端到端视听语音识别模型。语音翻译是一个更为复杂的任务，除了语音识别外，还需要处理重新排序的输出序列，这也是本文的第二个任务。对于语音翻译，我们引入了一个多模态融合模型，该模型学习以半监督的方式利用多视图多模态数据。此外，我们还将继续进行多模态视频摘要和问题回答的任务，以解决抽象层次的理解任务，进一步涉及信息压缩和重构。最后，我们将这项工作扩展到多模态自我理性化，不仅执行抽象层次的学习，而且还提供了对所获得的视频理解的解释。针对这四个主要任务，我们根据任务的性质和复杂性，提出了一系列多模态融合模型，并在常用的视频和语言理解数据集上对模型进行了比较和对比。

https://lti.cs.cmu.edu/sites/default/files/palaskar%2C%20shruti%20-%20Thesis.pdf

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“M152” 就可以获取《【CMU博士论文】视频多模态学习：探索模型和任务复杂性，152页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

1

相关内容

如何全面学习多模态？CMU最新《多模态机器学习的基础和最新趋势》综述，65页pdf阐述MML原理、挑战和开放问题，附秋季课程资料

如何全面学习多模态？CMU最新《多模态机器学习的基础和最新趋势》综述，65页pdf阐述MML原理、挑战和开放问题，附秋季课程资料

专知会员服务

119+阅读 · 2022年10月11日

【CMU博士论文】多视图上下文理解的知识增强表示学习

【CMU博士论文】多视图上下文理解的知识增强表示学习

专知会员服务

35+阅读 · 2022年8月11日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知会员服务

56+阅读 · 2022年4月19日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

【CMU博士论文】语言、视觉和听觉模式的鲁棒多模态学习,148页pdf

【CMU博士论文】语言、视觉和听觉模式的鲁棒多模态学习,148页pdf

专知会员服务

78+阅读 · 2021年10月31日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

67+阅读 · 2021年10月15日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

37+阅读 · 2021年9月7日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【MIT博士论文】具有结构化域先验的神经时间序列生成模型，187页pdf

【MIT博士论文】具有结构化域先验的神经时间序列生成模型，187页pdf

专知

6+阅读 · 2022年11月13日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知

9+阅读 · 2022年11月9日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

《自监督学习》最新报告，45页ppt

《自监督学习》最新报告，45页ppt

专知

1+阅读 · 2022年9月14日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知

3+阅读 · 2022年8月29日

【CMU博士论文】神经序列建模与应用，102页pdf

【CMU博士论文】神经序列建模与应用，102页pdf

专知

3+阅读 · 2022年8月23日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知

3+阅读 · 2022年4月19日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

视频中事件的内容分析与语义描述

国家自然科学基金

1+阅读 · 2014年12月31日

基于多模态情感识别的人机交流氛围场建模方法

国家自然科学基金

3+阅读 · 2013年12月31日

动态场景下视觉事件建模与识别方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

多核学习若干关键问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

多维复发事件数据的统计建模及推断

国家自然科学基金

2+阅读 · 2012年12月31日

基于信息的自适应构造逼近

国家自然科学基金

0+阅读 · 2011年12月31日

混合口音语音识别中自适应分层发音变异模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于本体的深层网络数据集成方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

Human or Machine? Turing Tests for Vision and Language

Arxiv

0+阅读 · 2022年11月23日

Instance-specific and Model-adaptive Supervision for Semi-supervised Semantic Segmentation

Arxiv

0+阅读 · 2022年11月21日

Error estimates and variance reduction for nonequilibrium stochastic dynamics

Arxiv

0+阅读 · 2022年11月19日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

Data Augmentation Approaches in Natural Language Processing: A Survey

Arxiv

18+阅读 · 2021年10月5日

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions

Arxiv

21+阅读 · 2021年5月25日

Recent Advances and Trends in Multimodal Deep Learning: A Review

Arxiv

57+阅读 · 2021年5月24日

Commonsense Reasoning for Natural Language Understanding: A Survey of Benchmarks, Resources, and Approaches

Arxiv

16+阅读 · 2019年4月2日

Variational Knowledge Graph Reasoning

Arxiv

15+阅读 · 2018年4月5日

Multimodal Machine Learning: A Survey and Taxonomy

Arxiv

151+阅读 · 2017年8月1日

VIP会员

相关主题

多模态学习

相关VIP内容

如何全面学习多模态？CMU最新《多模态机器学习的基础和最新趋势》综述，65页pdf阐述MML原理、挑战和开放问题，附秋季课程资料

如何全面学习多模态？CMU最新《多模态机器学习的基础和最新趋势》综述，65页pdf阐述MML原理、挑战和开放问题，附秋季课程资料

专知会员服务

119+阅读 · 2022年10月11日

【CMU博士论文】多视图上下文理解的知识增强表示学习

【CMU博士论文】多视图上下文理解的知识增强表示学习

专知会员服务

35+阅读 · 2022年8月11日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知会员服务

56+阅读 · 2022年4月19日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

【CMU博士论文】语言、视觉和听觉模式的鲁棒多模态学习,148页pdf

【CMU博士论文】语言、视觉和听觉模式的鲁棒多模态学习,148页pdf

专知会员服务

78+阅读 · 2021年10月31日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

67+阅读 · 2021年10月15日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

37+阅读 · 2021年9月7日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体强化学习：全景综述

《城市滨海地区：理解复杂多变环境下的指挥控制框架》50页报告

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

美空军“顶点2025”实验：推进AI在C2、动态目标锁定与联盟集成中的应用

相关资讯

【MIT博士论文】具有结构化域先验的神经时间序列生成模型，187页pdf

【MIT博士论文】具有结构化域先验的神经时间序列生成模型，187页pdf

专知

6+阅读 · 2022年11月13日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知

9+阅读 · 2022年11月9日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知

9+阅读 · 2022年10月30日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

《自监督学习》最新报告，45页ppt

《自监督学习》最新报告，45页ppt

专知

1+阅读 · 2022年9月14日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知

3+阅读 · 2022年8月29日

【CMU博士论文】神经序列建模与应用，102页pdf

【CMU博士论文】神经序列建模与应用，102页pdf

专知

3+阅读 · 2022年8月23日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知

3+阅读 · 2022年4月19日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

视频中事件的内容分析与语义描述

国家自然科学基金

1+阅读 · 2014年12月31日

基于多模态情感识别的人机交流氛围场建模方法

国家自然科学基金

3+阅读 · 2013年12月31日

动态场景下视觉事件建模与识别方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

多核学习若干关键问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

多维复发事件数据的统计建模及推断

国家自然科学基金

2+阅读 · 2012年12月31日

基于信息的自适应构造逼近

国家自然科学基金

0+阅读 · 2011年12月31日

混合口音语音识别中自适应分层发音变异模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于本体的深层网络数据集成方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

相关论文

Human or Machine? Turing Tests for Vision and Language

Arxiv

0+阅读 · 2022年11月23日

Instance-specific and Model-adaptive Supervision for Semi-supervised Semantic Segmentation

Arxiv

0+阅读 · 2022年11月21日

Error estimates and variance reduction for nonequilibrium stochastic dynamics

Arxiv

0+阅读 · 2022年11月19日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

Data Augmentation Approaches in Natural Language Processing: A Survey

Arxiv

18+阅读 · 2021年10月5日

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions

Arxiv

21+阅读 · 2021年5月25日

Recent Advances and Trends in Multimodal Deep Learning: A Review

Arxiv

57+阅读 · 2021年5月24日

Commonsense Reasoning for Natural Language Understanding: A Survey of Benchmarks, Resources, and Approaches

Arxiv

16+阅读 · 2019年4月2日

Variational Knowledge Graph Reasoning

Arxiv

15+阅读 · 2018年4月5日

Multimodal Machine Learning: A Survey and Taxonomy

Arxiv

151+阅读 · 2017年8月1日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员