近年来,在Instagram、Podcast、Clubhouse、YouTube等各种平台上产生和发布了大量的多媒体数据。这一现象启发了大规模多媒体分析的研究工作,包括分析方法的基础,以及一些具体的下游应用(如识别、检索和信息提取)。特别是多媒体的表示学习是其中最重要的研究方向之一。一个良好的多媒体数据实例特征表示具有可解释性和通用性,可以提高下游任务的性能和效率。 由于多媒体内容的丰富性和噪声性,对其进行良好的表示具有挑战性。例如,在语音处理任务中,人类的话语包含语言信息,以及说话人的身份、说话风格和背景噪声等其他因素。在这种情况下,我们需要一种表示类型,它从所有这些因素中捕获信息,并为下游应用程序恢复有用的因素。大多数主流技术利用特征向量来表示训练数据集中的每个实例,并通过进行预训练任务来优化特征提取器。然而,基于向量的表示方法不足以保持多媒体数据的丰富度和处理噪声。此外,常见的预训练程序,如计算机视觉研究领域的ImageNet分类任务,只关注单一类型的鉴别信息,对于某些应用可能是不够的。因此,在本文中,我探索了两个研究方向来解决这些问题。 在本文的第一部分,我提出了两种新的多媒体内容表示类型:概率分布和线性子空间。与基于向量的表示方法相比,这两种方法都能较好地处理多媒体的丰富度和噪声。为了在下游任务中利用这两种表示,设计特定的算法和训练策略是必要的。在这部分论文中,我介绍了将分布和子空间表示与深度神经网络架构相结合的方法,这些方法可以端到端地进行优化。在下游任务上的实验结果表明,与主流的向量表示方法相比,本文提出的两种表示方法具有更好的性能。 在本文的第二部分,我研究了风格和内容解纠缠技术,它明确地保留了表征学习过程中多媒体内容中的不同因素。解纠缠表示提供了更好的可解释性,并允许在数据合成场景中操纵隐藏因素。基于这一动机,我提出了两种方法来有效地分离多媒体数据中的隐藏因素。第一种方法将风格和内容之间的关系建模为隐藏特征空间中的简单矩阵操作。第二种方法通过制定对抗训练准则来最小化两个隐藏因素之间的互信息。在数据合成/生成任务的定性和定量实验中,评价了两种方法的优势。此外,我进一步论证了风格和内容解纠缠技术的适用性,通过构建一个预训练框架与生成模型。具体来说,生成模型产生的合成数据可以支持语音识别、人的重新识别等下游任务的监督训练过程。此外,解缠生成过程将数据扩充的思想从原始数据空间扩展到可解释的表示空间,允许我们在下游任务中纳入更多的先验知识。