多模态学习是现在研究关注的热点。芝加哥伊利诺斯理工学院计算机科学系的学者最新《多模态机器学习》综述论文,从数据模态角度综述了最新多模态机器学习的进展。

我们以多感官的方式感知世界,与世界交流,不同的信息源经过人脑不同部位的复杂处理和解释,构成一个复杂而和谐统一的感知系统。为了赋予机器真正的智能,融合不同模态数据的多模态机器学习近年来随着技术的不断进步,成为一个日益热门的研究领域。本文从一个新的角度对多模态机器学习进行了综述,不仅考虑了纯技术方面,而且还考虑了不同数据模态的性质。我们分析了从视觉、音频、文本等各个数据格式的共性和独特性,然后以视觉+X的组合分类介绍了技术发展,其中视觉数据在大多数多模态学习工作中发挥着基础作用。我们从表征学习和下游应用两个层面研究了现有的多模态学习文献,并根据它们与数据本质的技术联系进行了额外的比较,例如,图像对象和文本描述之间的语义一致性,或视频舞蹈动作和音乐节拍之间的节奏对应关系。这种对齐的开发,以及数据模态的内在本质与技术设计之间存在的差距,将有助于未来的研究,更好地解决与具体多模态任务相关的具体挑战,并促进统一的多模态机器学习框架更接近真实的人类智能系统

https://arxiv.org/abs/2210.02884

引言

我们通过一个多感官的人类系统,通过看物体,听声音,说语言,写和读文本,来感知和交流世界。来自不同来源的信息通常由人脑的不同部位处理[4],[17],[213]。例如,我们大脑中的枕叶是识别和解释视觉所见物体的距离和位置的主要视觉处理中心,而听觉信息通常由颞叶处理,以理解我们所听到的。大脑的语言区,也被称为韦尼克区,位于后上颞叶,主要负责理解书面语言和口语。其他信息处理,如触摸和动作协调,同样由大脑的不同部分处理,构成一个复杂但和谐统一的人类感知系统。人类神经处理的复杂划分意味着来自不同模态的信息应该具有内在的可区分性,但同时也有一些共性,这促使我们结合本文的数据来思考多模态机器学习问题

在历史上,视觉、音频和文本数据通常被分为不同的研究领域(即计算机视觉、数字信号处理和自然语言处理)。人工智能(AI)的最终目标是为机器带来真正的智能,如今的研究已经远远超出了单一感知视角的开发,而是进入了一个像人类大脑系统一样,以协作方式研究多个感知系统相互作用的时代。随着多模态学习的研究近年来越来越受欢迎,本文提出一项综述,不仅研究了最近文献的技术发展,还详细阐述了数据特征,并检查了这种技术设计的逻辑与各自数据性质之间的联系。

我们首先介绍主要的数据模态,视觉,包括图像和视频。以视觉为基本数据模态,进一步利用其他数据模态,包括音频、文本和其他数据形式,如运动。这些数据模态在数据性质、格式和具体评估标准的不同上既有共性,又有内在的独特性。例如,音频数据可以进一步划分为音乐、语音或环境声音。语音音频与语言和文本有直接关系,而音乐音频则更具主观性,与其他形式有隐性联系。在分析数据特征的基础上,进一步介绍了现有的各种多模态数据集及其适用领域。然后我们介绍了多模态表示学习的主题,根据它们的设置分为有监督和非有监督。该分类揭示了该领域的最新趋势,研究重点从使用人工标注数据的传统监督表示学习转向使用无人工标注数据的大规模预训练。

之后,我们继续讨论多模态学习的具体应用领域。在多模态应用的介绍中,本文按照两个主要方向来组织本文的综述:判别式和生成式应用。通过视觉+X形式的模态组合对每个方向进行分类,其中X主要代表音频或文本数据。我们使用视觉作为主要数据源,因为视觉数据通常在大多数计算机视觉文献的多模态学习工作中扮演着重要和基本的角色。多模态学习可以灵活而实际地应用于广泛的场景中。例如,类似于真实的人类多感官感知系统,将视觉和语言模态相结合是完成字幕任务的关键,该任务旨在提供视觉内容的文本描述,或人们可以很容易地将给定的视觉信息作为线索来想象伴随的声音。在总结了各种流行的多模式应用程序任务之后,我们强调,尽管数据模式和任务目标各不相同,但在这些感兴趣的方向中有共同的技术设计。通过分析和比较它们的技术细节,我们重新审视了数据特征,建立了内在数据性质和现有模型分解之间的联系,并就多模态学习领域的当前挑战和未来方向进行了讨论。

与其他多模态调查[14],[75],[96]相比,我们从数据的角度来处理问题。建立多模态数据本质与方法设计之间联系的新视角,促使我们从两个主要方面对多模态研究的未来进行了深入探讨。一方面,我们相信通过强调和利用某些数据模态的独特特性,将有助于解决与某些数据模态相关的更多具体应用问题。另一方面,了解它们的共性将有助于研究人员建立一个更加统一和协作的框架,最终类似于一个真正的人类智能系统。

本文的总体结构如下: 在第2节中,首先从不同模态的数据特征方面进行了分析,包括视觉、音频、文本和运动表示。在第3节中介绍了多模态数据集,包括模态属性及其适用的多模态下游任务。然后,我们继续在第4节中介绍多模态表示学习,主要根据它们的学习设置进行分类。在第5节和第6节中,分别提出了具有判别式和生成式任务的具体多模态应用。除了任务和技术介绍之外,我们还做了额外的努力,将现有的文献与第2节中提到的数据特征联系起来,揭示在特定的方法和模型中处理和处理哪些数据属性。上述回顾构成了我们在第7节讨论现有挑战和未来可能方向的基础。第8节包括最后的评论和结论。其主要结构也如图1所示。

多模态数据集

生成任务中不同的合成数据的共同评价指标

成为VIP会员查看完整内容
69

相关内容

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。
TPAMI 2022 | 最新综述:基于不同数据模态的行为识别
专知会员服务
51+阅读 · 2022年7月2日
专知会员服务
71+阅读 · 2021年7月29日
多模态深度学习综述,18页pdf
专知会员服务
213+阅读 · 2020年3月29日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
270+阅读 · 2020年1月1日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
专知会员服务
93+阅读 · 2019年10月18日
「多模态处理技术」最新2022研究进展综述
专知
4+阅读 · 2022年10月29日
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
8+阅读 · 2022年3月29日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年11月10日
Arxiv
15+阅读 · 2021年11月19日
Arxiv
31+阅读 · 2021年3月29日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员