KG如何结合多模态？《知识图谱遇见多模态学习》综述，55页pdf

知识图谱（KGs）在推进各种AI应用中发挥着关键作用，语义网社区对多模态维度的探索解锁了创新的新途径。在这份综述中，我们仔细回顾了超过300篇文章，专注于两个主要方面的KG-aware研究：KG驱动的多模态（KG4MM）学习，其中KGs支持多模态任务，以及多模态知识图谱（MM4KG），将KG研究扩展到MMKG领域。我们首先定义KGs和MMKGs，然后探讨它们的构建进展。我们的回顾包括两个主要任务类别：KG-aware的多模态学习任务，如图像分类和视觉问答，以及内在的MMKG任务，如多模态知识图谱补全和实体对齐，强调特定的研究轨迹。对于这些任务中的大多数，我们提供定义、评估基准，并概述了进行相关研究的基本见解。最后，我们讨论当前挑战并识别新兴趋势，如大型语言建模和多模态预训练策略的进展。这份综述旨在为已经参与或考虑深入KG和多模态学习研究的研究人员提供一个全面的参考，提供关于MMKG研究不断演变的景观的见解，并支持未来的工作。 https://www.zhuanzhi.ai/paper/1436ef4c19527e3da47b0db3167d1a5a

将知识推理和多模态感知孤立地考虑可能并不是最合适的方法【1】。这与人类的认知过程相似，其中大脑随时间积累的记忆构成了社会适应和生存的关键基础，使得有意义的行动和互动成为可能。这些记忆可以分为两个主要类别。

第一类似于条件反射。通过重复练习，人类发展出一种直观的记忆，增强了直觉和类比推理技能，通常被称为浅层知识。当这种浅层知识与视觉、听觉和触觉等感官输入结合时，它使我们能够高效地执行基本任务。这种能力是传统多模态任务努力实现的核心。多模态任务涉及使用来自多种模态的数据进行问题解决，比传统的单模态自然语言处理（NLP）或计算机视觉（CV）任务更接近真实生活情境。例如，视觉问题回答在NLP QA任务的基础上，通过整合视觉数据来从图像和文本问题中预测答案。同样，图像描述扩展了NLG原则，为图像创建描述性句子，提供对内容的更全面理解。因此，随着互联网的快速发展和带宽限制的消除，多模态信息来源已变得至关重要且容易获得，使得信息访问更加精确。

第二种类型**，称为躯干到尾部知识，日常生活中遇到的频率较低，通常不会导致条件反射的形成。这一类别需要主动记忆或深思，凸显了知识图谱（KGs）在捕获和结构化长尾知识方面的重要性**。尽管当前的大规模预训练努力吸收了知识，但面临着幻觉现象和在非常规知识中模糊不清的挑战【2】-【5】，我们的研究主要关注KGs内的符号化、结构化知识。鉴于KGs在结构化长尾知识中的关键作用及其在许多成功的AI和信息系统中作为基础知识表示元素的既定地位【6】，因此将KGs和多模态学习结合考虑是合理的。如图1所示，现实生活中的个体需要同时处理来自环境的多模态信息，同时不断吸收和利用知识。这些元素不应孤立工作；相反，知识和多模态本质上是互补的。尽管存在这种内在的联系，但历史上，这两个领域独立发展。因此，以往的工作要么专注于KG增强的多模态学习，要么专注于多模态KG研究本身。直到现在，还没有任何研究或综述提供了这些领域的全面、均衡分析，导致它们的发展进一步分化。 在本文中，我们首先系统回顾了从传统KGs到MMKGs的发展，重点关注语义网社区在各个阶段的演变优先级。然后，我们仔细分类KG驱动的多模态任务（KG4MM），其中KGs作为知识的关键仓库，为各种下游多模态任务提供推理基础和必要的长尾知识。继之后，我们探讨多模态技术对KGs的影响，讨论它们当前的状态和未来的前景。为了提供清晰的概览，我们分析了每个任务内的方法论演进并对关键领域进行基准测试，使读者能够有效地比较不同任务的方法。我们的综述主要集中在过去三年（2020-2023）的研究上，并考虑到最近大型语言模型（LLMs）技术的快速进步，我们还探讨了LLMs与我们研究中讨论的各个主题之间的相互作用。 这份综述适合所有AI研究者，特别是那些将要进入具有知识要求的多模态学习领域的研究者。对于那些已经在这一领域从事研究但热衷于探索利用跨模态知识表示和知识驱动的多模态推理解决方案的人，以及从事KG和语义技术工作的个人而言，这份综述也大有裨益。

本综述的剩余部分组织如下。第二节介绍初步概念，定义KG和多模态学习中的关键概念，并提供KG4MM和MM4KG设置的概览。在第三节中，我们讨论KGs的范围和构建，过渡到MMKGs的演化。第四节深入探讨各种KG4MM任务，详细说明每项任务的资源和在过去三年内开发的先进方法，这些方法分为四个范式：理解与推理；分类；内容生成；检索；以及多模态预训练。第五节回顾MM4KG领域内的任务，将关键方法分类为四个领域：MMKG获取，融合，推理，以及MMKG驱动的任务。

虽然由于不同KG4MM或MM4KG任务之间方法设计的潜在重叠，按特定任务分类内容可能并不总是最佳选择，但这种组织有助于划分研究景观，鼓励跨学科探索和不同任务的整合。此外，我们仔细平衡细节以解决任务间的内容重叠，重点关注代表性任务。

我们还分析了KG4MM和MM4KG的当前趋势和工业应用，提供了这些技术如何影响各个行业的见解。展望未来，第六节考虑多模态方法与（MM）KGs的未来整合，解决前几节讨论的任务可能的增强。它还探讨了在LLMs和AI-for-Science快速发展的背景下，维持KG4MM和MM4KG增长的挑战和机遇。最后，第七节总结本文。