数据受限条件下的多模态处理技术综述

2022 年 7 月 16 日 专知


随着多媒体技术的发展,可获取的媒体数据在种类和量级上都大幅提升。受人类感知方式的启发,多种媒体数据互相融合处理,促进了人工智能在计算机视觉领域的研究发展,在遥感图像解译、生物医学、深度估计等方面有广泛的应用。尽管多模态数据在描述事物特征时有着明显的优势,仍面临着较大的挑战。首先,受到不同成像设备和传感器的限制,难以收集到大规模、高质量的多模态数据集;其次,多模态数据需要匹配成对用于研究,任一模态的缺失都会造成可用数据的减少;同时,图像、视频数据在处理和标注上需要耗费较多的时间和人力成本,这些问题使得目前本领域的技术尚待攻关。本文立足于数据受限条件下的多模态学习方法,根据样本数量、标注信息、样本质量等不同的维度,将计算机视觉领域中的多模态数据受限方法分为小样本学习、缺乏强监督标注信息、主动学习、数据去噪和数据增强 5 个方向,详细阐述了各类方法的样本特点和模型方法的最新进展。并且,介绍了数据受限前提下的多模态学习方法使用的数据集(包括SUNRGB+D、SYSU-MM01 等)及其应用方向(包括人体姿态估计、行人重识别等),比对分析了现有算法的优缺点以及未来的发展方向,对该领域的发展具有积极的意义。


模态是事物的一种表现形式,是对事物某特 定角度的描述。多模态通常包含两个或者两个以 上的模态形式,是指从多个视角出发对事物进行 描述。人们在感知世界时,多种感官总是同时接 收外在信息,如看见图像、听见声音、闻到气味 和触摸感知等。随着多媒体技术的发展,可获取 的媒体数据在种类和量级上都大幅提升。例如, 传感器不仅可以生成图像或者视频,还包含与之 匹配的深度、温度信息等。为使人工智能技术更 好地解译数据,必须使人工智能具有多模态学习 的能力。在人工智能技术的早期研究中,学者通常使 用单一模态的数据。受到人类感知方式的启发, 研究认为每个模态对事物的描述具有相对独立性, 使用多模态数据的互补表述能够使事物呈现更立 体、表现更全面(Baltrušaitis 等,2019)。近年来,多模态数据的处理和应用成为重点研究方向,在情感分析、机器翻译、自然语言处理和生物医学等前沿方向取得了重要突破。计算机视觉是深度学习的重要应用领域和热点研究问题,本文重点围绕多模态在计算机视觉领域的发展进行介绍。如图 1 所示,计算机视觉领域内的多模态学习主要是通过对图像、视频等多模态数据进行分析,学习并互补不同模态间的信息,实现图像检测识别、语义分割、视频动作预测等任务(Liu等,2015a; Eigen 和R. Fergus, 2015),并广泛应用于自动驾驶、农业监测、生物医疗、交通管理和灾难预测等领域。如在医学领域,医学影像作为医疗诊断的重要依据,相较于单角度描述病灶特征的图像,多模态医疗影像能有效辅助医生从多个层面联合判断病灶及其周边部分,加快诊断时间;在遥感领域,单传感器依据设备特点从某种固定的角度描述地理目标,独立分析时会受到成 像原理限制,而对不同成像方式、不同传感器获取 到的多模态遥感影像进行分析,可以有效提取地物 目标的综合信息。


尽管多模态数据在描述事物特征时有着明显的 优势,但目前仍面临着较大的挑战。首先,虽然成 像技术层出不穷,但其同步带来的图像、视频数据 的处理和标注任务有着不容忽视的工作量,需要耗 费较多的时间成本和人力资源。其次,传统深度学 习模型需要将多模态数据匹配成对用于研究,任一 模态的缺失都会造成可用数据的减少。同时,由于 使用目的是利用多模态互补的特性,因此对数据内 部的完整度要求较高,但受到不同成像设备和传感 器的限制,数据量少、质量模糊和缺失现象严重, 这些现象都会对后续的研究造成不利影响。因此, 在数据受限的前提下进行的多模态处理研究具有重 要的现实意义。面对以上的难点问题,根据多模态样本数量、 标注信息、样本质量等不同的维度,目前处理多模 态数据受限的方法主要分为以下几类: 

1) 小样本学习方法。在多模态数据不足的情 况下,小样本学习方法仅通过学习少量样本就能做 出正确判断的认知能力,在数据量匮乏的情况下仍 能够有效地学习目标特征。 

2) 缺乏强监督标注信息的方法。由于数据标 注过程会产生高额的成本,较难获取所有模态的全 部真值标签对模型进行强监督学习。常见的非完全 监督的方法有基于弱监督、无监督、半监督、自监 督的学习方法,这些方法可以有效改善模态缺乏标 注信息的问题,大大减少人工标注成本。

3) 主动学习方法。该类方法通过设计具有自 主学习能力的模型,将人类经验与学习规则充分结 合,致力于研究如何使用标注尽可能少的样本来获 得尽可能较好的效果。通过选择最有用的样本,可 以在保持性能的同时有效降低标注成本。 

4) 数据去噪方法。在多模态数据的获取和处 理的过程中,外界环境和设备内部因素都可能会引 入噪声。任何模态的数据受到噪声污染都可能会影 响多模态数据处理的结果。多模态数据去噪是指减 少数据中的噪声,恢复原始数据,进而再提取感兴 趣的信息。 

5) 数据增强。在样本较少的前提下,为进行 有限多模态数据的充分利用,数据增强方法通过对 原始数据集进行一系列变换操作,扩张数据的可使用性。 


本文主要对数据受限下的多模态数据处理方法进行综述。在此之前,本文作者对相关领域进行了研究,在多模态学习、小样本学习、弱监督学习、主动学习、数据去噪和增强等方面进行了深入调研。Baltrušaitis 等人(2019)从整体的角度探讨了多模态机器学习的进展,并对多模态机器学习方法进行分类,但没有介绍具体的应用场景。Wang 等人(2020b)从网络架构的角度介绍了多模态模型,但没有讨论多模态数据本身的特点。Ramachandram等人(2017)对多模态深度学习现状进行了总结,并提出网络体系结构的设计应该考虑融合模式、模态信息和对缺失的数据或模态的处理,但没有详细综述目前处理缺失数据以提高模型的鲁棒性的方法。Gao等人(2020)总结了具有代表性的处理异构数据的深度学习网络架构,并认为一些深度学习模型只关注单模态噪声数据,未来迫切需要解决针对低质量多模态数据的深度学习模型。上述的综述缺乏对数据受限条件下多模态数据发展的详细介绍。Wang等人(2020a)综述了近年来小样本学习方法的进展,并进行统一分类。Zhou 等人(2018)综述了弱监督学习的一些研究进展。Settles 等人(2011)回顾了将主动学习应用于实践遇到的挑战,并介绍为解决挑战所做的工作。但上述文献都仅基于单模态数据进行总结,并没有关注多模态数据背景问题。针对在数据受限条件下多模态数据处理面临的各种挑战和难题,已有研究者提供了一些解决思路,但是尚未形成相关的综述文献。因此,本文总结了数据受限条件下多模态分析处理的研究方法和进展,以及多模态数据在不同领域的应用情况。首先阐述了多模态数据在计算机视觉方向的研究现状与数据受限的难题挑战,介绍了对不同数据受限情况的处理方法,帮助读者熟悉和了解该研究的背景和目的。然后分类阐明不同数据受限处理方法的现状与研究方法,区分不同的受限情况所面临的困难和挑战。最后对多模态数据的各个应用领域的典型数据集进行介绍,总结目前的研究成果,能够启发未来多模态的应用前景,展望下一步研究方向。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“DRMP” 就可以获取数据受限条件下的多模态处理技术综述》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
16

相关内容

基于无标签视频数据的深度预测学习方法综述
专知会员服务
34+阅读 · 2022年5月16日
面向图像分类的小样本学习算法综述
专知会员服务
62+阅读 · 2022年5月9日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
35+阅读 · 2021年5月10日
专知会员服务
121+阅读 · 2021年4月29日
专知会员服务
60+阅读 · 2021年3月25日
基于深度学习的数据融合方法研究综述
专知会员服务
136+阅读 · 2020年12月10日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
270+阅读 · 2020年1月1日
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
8+阅读 · 2022年3月29日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
2019->2020必看的十篇「深度学习领域综述」论文
极市平台
23+阅读 · 2020年1月2日
综述 | 近5年基于深度学习的目标检测算法
计算机视觉life
38+阅读 · 2019年4月18日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
16+阅读 · 2021年7月18日
Arxiv
23+阅读 · 2020年9月16日
Generative Adversarial Networks: A Survey and Taxonomy
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
21+阅读 · 2019年3月25日
VIP会员
相关VIP内容
基于无标签视频数据的深度预测学习方法综述
专知会员服务
34+阅读 · 2022年5月16日
面向图像分类的小样本学习算法综述
专知会员服务
62+阅读 · 2022年5月9日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
35+阅读 · 2021年5月10日
专知会员服务
121+阅读 · 2021年4月29日
专知会员服务
60+阅读 · 2021年3月25日
基于深度学习的数据融合方法研究综述
专知会员服务
136+阅读 · 2020年12月10日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
270+阅读 · 2020年1月1日
相关资讯
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
8+阅读 · 2022年3月29日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
2019->2020必看的十篇「深度学习领域综述」论文
极市平台
23+阅读 · 2020年1月2日
综述 | 近5年基于深度学习的目标检测算法
计算机视觉life
38+阅读 · 2019年4月18日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员