引言
深度学习已经实现了广泛的应用,并在近年来变得越来越流行。多模态深度学习的目标是创建可以使用各种模态处理和链接信息的模型。单模态学习虽然得到了广泛的发展,但还不能涵盖人类学习的所有方面。多模态学习有助于更好地理解和分析不同感官参与信息处理的过程。本文着重于多种模态,即图像、视频、文本、音频、身体手势、面部表情和生理信号。本文详细分析了过去和当前的基准方法,并对多模态深度学习应用的最新进展进行了深入研究。提出了多种多模态深度学习应用的细粒度分类,并对不同的应用进行了更深入的阐述。还讨论了这些应用中使用的架构和数据集,以及它们的评估指标。最后,分别对各个领域的主要问题和未来可能的研究方向进行了重点分析。
https://www.zhuanzhi.ai/paper/eaf89268e664a48119b223b0c86a7ed1
概述
机器学习(ML)是近年来研究的热点。它已经在图像识别、多媒体概念检索、社会网络分析、视频推荐、文本挖掘等领域得到了广泛的应用。深度学习(Deep Learning, DL)在这些应用中得到了广泛的应用[117]。计算技术的指数级增长、不可思议的发展和数据可用性促成了DL研究的兴起。DL的成功已经成为解决更复杂的ML问题的一个激励因素。此外,DL的主要优点是它以分层的形式表示,即它可以通过一个通用的学习过程有效地学习。各种新的DL方法已经被开发出来,并在多个应用中显示出令人印象深刻的结果,如视觉数据处理、自然语言处理(NLP)、语音和音频处理,以及许多其他广为人知的应用。多模态深度学习(Multimodal Deep learning, MMDL)是近年来随着深度学习的发展而引起的重要研究方向。
我们对周围事物的体验是多模态的;我们能看到、听到、触摸、闻到和尝到东西。捕获对象的多个方面,以图像、文本、视频、图形、声音等不同媒体形式传递信息。模态指定存储特定类型信息的表示格式。因此,上面提到的各种媒体形式都与模态有关,而这些多模态的共同表示可以定义为multimodal[47]。然而,对人类的全部方面进行建模是不够的。单模态工作更好的地方,方法的进展需要在一个模式。多模态学习表明,当多种感官参与信息处理时,我们能更好地理解和分析。本文着重讨论了各种各样的模态,本文从MMDL的角度探讨了多种模态,包括图像、视频、文本、音频、肢体动作、面部表情和生理信号。MMDL的主要目标是构建一个能够处理来自不同模式的信息并将其关联起来的模型。
人工智能(AI)的未来已经被DL彻底改变。它解决了AI社区中存在多年的几个复杂问题。对于MMDL,快速设计了各种具有不同学习框架的深度架构。机器开发出来了在其他应用领域,如自动驾驶汽车、图像处理、医疗诊断和预测预测等,表现得与人类相似,甚至更好[129]。MMDL的最新进展和发展趋势包括视听语音识别(AVSR)[173]、多模态情感识别[26]、图像和视频字幕[58,89]、视觉问答(VQA)[161]、多媒体检索[134]等.
在本研究中,我们讨论了多模态深度学习的最新进展和趋势。各种DL模型被划分为不同的应用程序组,并使用多种媒体进行了详尽的解释。本文重点介绍了使用图像、音频、视频、文本、身体姿势、面部表情和生理信号等多种形式的应用,并与之前的相关调查进行了比较。提出了一种新的多模式DL应用的细粒度分类方法。此外,还提供了在这些MMDL应用中使用的体系结构、数据集和评估指标的简要讨论。最后,针对每一组应用分别提出了有待解决的研究问题,并详细列出了未来可能的研究方向。我们希望我们提出的分类和研究方向将促进未来多模态深度学习的研究,并有助于更好地理解这一特定领域尚未解决的问题。