Multimodal learning, which aims to understand and analyze information from multiple modalities, has achieved substantial progress in the supervised regime in recent years. However, the heavy dependence on data paired with expensive human annotations impedes scaling up models. Meanwhile, given the availability of large-scale unannotated data in the wild, self-supervised learning has become an attractive strategy to alleviate the annotation bottleneck. Building on these two directions, self-supervised multimodal learning (SSML) provides ways to leverage supervision from raw multimodal data. In this survey, we provide a comprehensive review of the state-of-the-art in SSML, which we categorize along three orthogonal axes: objective functions, data alignment, and model architectures. These axes correspond to the inherent characteristics of self-supervised learning methods and multimodal data. Specifically, we classify training objectives into instance discrimination, clustering, and masked prediction categories. We also discuss multimodal input data pairing and alignment strategies during training. Finally, we review model architectures including the design of encoders, fusion modules, and decoders, which are essential components of SSML methods. We review downstream multimodal application tasks, reporting the concrete performance of the state-of-the-art image-text models and multimodal video models, and also review real-world applications of SSML algorithms in diverse fields such as healthcare, remote sensing, and machine translation. Finally, we discuss challenges and future directions for SSML. A collection of related resources can be found at: https://github.com/ys-zong/awesome-self-supervised-multimodal-learning.


翻译:多模态学习旨在理解和分析来自多种模态的信息,近年来在监督范式下取得了显著进展。然而,大量数据和昂贵的人工注释依赖性阻碍了模型的扩展。同时,自监督学习是减轻注释困境的一种有吸引力的策略,借助自然的大规模未注释数据。在这两个方向上,自监督多模态学习(SSML)提供了利用原始多模态数据的自我监督形式。在本文中,我们概述了SSML的最新进展,按照三个正交的维度进行分类:目标函数、数据对齐和模型架构。这些维度对应于自监督学习方法和多模态数据的固有特性。具体而言,我们将训练目标分类为实例鉴别、聚类和掩码预测类别。我们还讨论了训练期间的多模态输入数据组合和对齐策略。最后,我们回顾了模型结构,包括编码器、融合模块和解码器的设计,这些都是SSML方法的关键组成部分。我们回顾了下游多模态应用任务,报告了最先进的图像-文本模型和多模态视频模型的表现,并回顾了SSML算法在医疗保健,遥感和机器翻译等不同领域的实际应用。最后,我们讨论SSML的挑战和未来方向。您可以在以下链接中查找相关资源:https://github.com/ys-zong/awesome-self-supervised-multi-modal-learning。

0
下载
关闭预览

相关内容

复旦等最新《预训练3D点云的自监督学习》综述
专知会员服务
28+阅读 · 2023年5月10日
视频自监督学习综述
专知会员服务
50+阅读 · 2022年7月5日
自监督学习最新研究进展
专知会员服务
76+阅读 · 2021年3月24日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
视频自监督学习综述
专知
1+阅读 · 2022年7月5日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
26+阅读 · 2023年1月12日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
126+阅读 · 2020年9月6日
Arxiv
151+阅读 · 2017年8月1日
VIP会员
相关资讯
相关论文
相关基金
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员