多模态表示学习旨在缩小不同模态之间的异质性差距,在利用普遍存在的多模态数据方面起着不可或缺的作用。基于深度学习的多模态表示学习由于具有强大的多层次抽象表示能力,近年来受到了广泛的关注。在本文中,我们提供了一个全面的深度多模态表示学习的综述论文。为了便于讨论如何缩小异质性差距,根据不同模态集成的底层结构,我们将深度多模态表示学习方法分为三种框架:联合表示、协调表示和编解码。此外,我们回顾了该领域的一些典型模型,从传统模型到新开发的技术。本文强调在新开发的技术的关键问题,如encoder-decoder模型,生成对抗的网络,和注意力机制学习的角度来看,多通道表示,我们所知,从来没有审核之前,即使他们已经成为当代研究的主要焦点。对于每个框架或模型,我们将讨论其基本结构、学习目标、应用场景、关键问题、优缺点,以使新研究者和有经验的研究者都能从中受益。最后,提出了今后工作的一些重要方向。