在综合对比传统知识图谱表示学习模型优缺点以及适用任务后,发现传统的单一模态知识图谱无法很好地表示知识。因此,如何利用文本、图片、视频、音频等多模态数据进行知识图谱表示学习成为一个重要的研究方向。同时,详细分析了常用的多模态知识图谱数据集,为相关研究人员提供数据支持。在此基础上,进一步讨论了文本、图片、视频、音频等多模态融合下的知识图谱表示学习模型,并对其中各种模型进行了总结和比较。最后,总结了多模态知识图谱表示学习如何改善经典应用,包括知识图谱补全、问答系统、多模态生成和推荐系统在实际应用中的效果,并对未来的研究工作进行了展望。 “模态”(Modality)是德国理学家赫尔姆霍茨提出的生物学概念,指的是将多种感官信息进行融合,包括嗅觉、味觉、视觉、听觉和触觉等。随着互联网的普及和大数据的发展,不同模态的数据不断涌现,多模态知识图谱表示学习的发展在人工智能领域中引起了广泛关注。目前大多数研究主要针对单一模态的文本,然而,只有对不同模态数据的研究相互辅佐才能使知识的表示更完善。在人工智能领域中,多模态往往指感知信息,如图像、文本、语音和音频等,通过对这些多模态信息的综合理解,可以帮助人工智能更准确地理解外部世界。 知识图谱由Google公司于2012年提出[1],是知识表示的一种方法。最初,它是以文本形式表示实体关系属性的三元组,但在机器描述和理解世界的能力方面存在缺陷。随着机器视觉和多模态学习研究的推进,研究人员发现结合视觉可以更好地为图谱中的实体进行相关表示学习,而多模态研究的最早例子之一是视听语音识别(Audio-Visual Speech Recognition, AVSR)[2]。 随着多模态研究的逐渐深入,从单一模态的表示学习逐渐发展为多模态的表示学习。早期的知识图谱表示学习模型主要学习基于实体和关系的结构信息,忽略了其他模态数据类型的实体知识。近年来的相关研究工作表明,从实体的图像和文本描述中可以获得丰富的补充知识,在知识图谱补全和三元组分类工作中发挥重要作用[3]。同样,在关系提取任务中,附加图像通常会大幅提高属性和关系的性能。因此,融合各类模态的数据可以更好地对知识进行表示学习,以推动更多相关的典型任务。多模态知识图谱表示学习与应用的研究已经成为必然的趋势。
当前针对多模态知识图谱表示学习与应用的综述大多停留在传统的单一模态下。因此,本文将从传统的知识图谱表示学习模型出发,对单一模态模型进行总结分析,并得出结论:目前的知识图谱表示学习模型仅在单一模态上进行,没有充分利用多模态数据。本文调研分析了近年来多模态数据在知识图谱表示学习中的应用模型,发现综合使用多种模态可以弥补单一模态知识表示的不足。此外,本文还分析了多模态知识图谱表示学习在知识图谱补全、问答系统、多模态生成和推荐系统场景中的应用,并从大规模数据处理、数据多样性和数据质量、数据缺失与任务联合、非监督学习、可解释性、评价体系以及人工智能生成内容(Artificial Intelligence Generated Content, AIGC)与知识图谱等方面展望了该领域的研究工作。 本文旨在对多模态知识图谱表示学习领域的研究进展进行全面的回顾与总结,将多模态知识图谱表示学习分为四个方面:1)文本信息用于知识图谱表示学习;2)图片信息用于知识图谱表示学习;3)音视频信息用于知识图谱表示学习;4)多模态信息用于知识图谱表示学习。