随着我们构建能够与周围真实世界互动的新人工智能技术,从多种模态学习的问题占据了中心舞台。从医疗保健、教育到通信等应用,越来越多地依赖多种模态已被证明是更准确地感知和处理我们周围世界的一个独特因素。在这篇论文中,我们关注在现实世界中学习多模态表示的问题。我们概述了多模态机器学习的三个主要挑战,并采取具体步骤来解决它们。首先,我们解决了局部融合的挑战,重点是学习跨模态动力学,包括语言、视觉和听觉(我们周围最常见的三种模态)之间的单模态、双模态和三模态交互作用。随后,我们跃进到时间融合,其中局部融合挑战扩展到时间域。时间融合需要模式之间的对齐,这和学习跨模式动力学一样重要。随后,第三个挑战涉及的事实是,在现实世界中,多模态数据几乎总是部分可见的。我们扩展了变分推理(VI)的功能,以处理甚至是最极端的缺失率和缺失模式的情况。在本文深入研究这些挑战的过程中,我们对多模态机器学习做出了算法、理论和经验贡献。

本论文研究了语言、视觉和声学模态的多模态学习面临的三大挑战: 局部融合挑战涉及模态间复杂的跨模态交互建模。 时间融合挑战涉及建模可能存在于顺序模式之间的异步数据 丢失数据挑战涉及建模真实世界部分可观测的多模态数据

成为VIP会员查看完整内容
76

相关内容

卡耐基梅隆大学(Carnegie Mellon University)坐落在宾夕法尼亚州的匹兹堡,是一所享誉世界的私立顶级研究型大学,学校面积不大,学科门类不多,但在其所设立的几乎所有专业都居于世界领先水平。卡内基梅隆大学享誉全国的认知心理学、管理和公共关系学、写作和修辞学、应用历史学、哲学和生物科学专业。它的计算机、机器人科学、理学、美术及工业管理都是举世公认的一流专业。
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
61+阅读 · 2021年12月1日
港中文等最新《多模态元学习》综述论文
专知会员服务
123+阅读 · 2021年10月8日
专知会员服务
71+阅读 · 2021年7月29日
专知会员服务
104+阅读 · 2021年7月17日
【CMU博士论文】可控文本生成,附107页pdf与Slides
专知会员服务
56+阅读 · 2021年4月21日
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
25+阅读 · 2020年9月18日
专知会员服务
223+阅读 · 2020年5月6日
2019->2020必看的十篇「深度学习领域综述」论文
极市平台
23+阅读 · 2020年1月2日
视觉恰可识别差阈值估计综述
FCS
3+阅读 · 2019年3月7日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
已删除
FCS
5+阅读 · 2018年9月29日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
Arxiv
17+阅读 · 2021年1月21日
Arxiv
15+阅读 · 2019年6月25日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
VIP会员
相关VIP内容
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
61+阅读 · 2021年12月1日
港中文等最新《多模态元学习》综述论文
专知会员服务
123+阅读 · 2021年10月8日
专知会员服务
71+阅读 · 2021年7月29日
专知会员服务
104+阅读 · 2021年7月17日
【CMU博士论文】可控文本生成,附107页pdf与Slides
专知会员服务
56+阅读 · 2021年4月21日
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
25+阅读 · 2020年9月18日
专知会员服务
223+阅读 · 2020年5月6日
相关资讯
2019->2020必看的十篇「深度学习领域综述」论文
极市平台
23+阅读 · 2020年1月2日
视觉恰可识别差阈值估计综述
FCS
3+阅读 · 2019年3月7日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
已删除
FCS
5+阅读 · 2018年9月29日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
微信扫码咨询专知VIP会员