【CMU博士论文】语言、视觉和听觉模式的鲁棒多模态学习,148页pdf

随着我们构建能够与周围真实世界互动的新人工智能技术，从多种模态学习的问题占据了中心舞台。从医疗保健、教育到通信等应用，越来越多地依赖多种模态已被证明是更准确地感知和处理我们周围世界的一个独特因素。在这篇论文中，我们关注在现实世界中学习多模态表示的问题。我们概述了多模态机器学习的三个主要挑战，并采取具体步骤来解决它们。首先，我们解决了局部融合的挑战，重点是学习跨模态动力学，包括语言、视觉和听觉(我们周围最常见的三种模态)之间的单模态、双模态和三模态交互作用。随后，我们跃进到时间融合，其中局部融合挑战扩展到时间域。时间融合需要模式之间的对齐，这和学习跨模式动力学一样重要。随后，第三个挑战涉及的事实是，在现实世界中，多模态数据几乎总是部分可见的。我们扩展了变分推理(VI)的功能，以处理甚至是最极端的缺失率和缺失模式的情况。在本文深入研究这些挑战的过程中，我们对多模态机器学习做出了算法、理论和经验贡献。

本论文研究了语言、视觉和声学模态的多模态学习面临的三大挑战：局部融合挑战涉及模态间复杂的跨模态交互建模。时间融合挑战涉及建模可能存在于顺序模式之间的异步数据丢失数据挑战涉及建模真实世界部分可观测的多模态数据

成为VIP会员查看完整内容

相关内容

卡内基梅隆大学 (Carnegie Mellon University)

关注 0

卡耐基梅隆大学（Carnegie Mellon University）坐落在宾夕法尼亚州的匹兹堡，是一所享誉世界的私立顶级研究型大学，学校面积不大，学科门类不多，但在其所设立的几乎所有专业都居于世界领先水平。卡内基梅隆大学享誉全国的认知心理学、管理和公共关系学、写作和修辞学、应用历史学、哲学和生物科学专业。它的计算机、机器人科学、理学、美术及工业管理都是举世公认的一流专业。

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

港中文等最新《多模态元学习》综述论文

专知会员服务

124+阅读 · 2021年10月8日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

37+阅读 · 2021年9月7日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

73+阅读 · 2021年7月29日