知识图谱(KGs)在推进各种AI应用中发挥着关键作用,语义网社区对多模态维度的探索解锁了创新的新途径。在这份综述中,我们仔细回顾了超过300篇文章,专注于两个主要方面的KG-aware研究:KG驱动的多模态(KG4MM)学习,其中KGs支持多模态任务,以及多模态知识图谱(MM4KG),将KG研究扩展到MMKG领域。我们首先定义KGs和MMKGs,然后探讨它们的构建进展。我们的回顾包括两个主要任务类别:KG-aware的多模态学习任务,如图像分类和视觉问答,以及内在的MMKG任务,如多模态知识图谱补全和实体对齐,强调特定的研究轨迹。 对于这些任务中的大多数,我们提供定义、评估基准,并概述了进行相关研究的基本见解。最后,我们讨论当前挑战并识别新兴趋势,如大型语言建模和多模态预训练策略的进展。这份综述旨在为已经参与或考虑深入KG和多模态学习研究的研究人员提供一个全面的参考,提供关于MMKG研究不断演变的景观的见解,并支持未来的工作。 https://www.zhuanzhi.ai/paper/1436ef4c19527e3da47b0db3167d1a5a

将知识推理和多模态感知孤立地考虑可能并不是最合适的方法【1】。这与人类的认知过程相似,其中大脑随时间积累的记忆构成了社会适应和生存的关键基础,使得有意义的行动和互动成为可能。这些记忆可以分为两个主要类别。

第一类似于条件反射。通过重复练习,人类发展出一种直观的记忆,增强了直觉和类比推理技能,通常被称为浅层知识。当这种浅层知识与视觉、听觉和触觉等感官输入结合时,它使我们能够高效地执行基本任务。这种能力是传统多模态任务努力实现的核心。多模态任务涉及使用来自多种模态的数据进行问题解决,比传统的单模态自然语言处理(NLP)或计算机视觉(CV)任务更接近真实生活情境。例如,视觉问题回答在NLP QA任务的基础上,通过整合视觉数据来从图像和文本问题中预测答案。同样,图像描述扩展了NLG原则,为图像创建描述性句子,提供对内容的更全面理解。因此,随着互联网的快速发展和带宽限制的消除,多模态信息来源已变得至关重要且容易获得,使得信息访问更加精确。

第二种类型**,称为躯干到尾部知识,日常生活中遇到的频率较低,通常不会导致条件反射的形成。这一类别需要主动记忆或深思,凸显了知识图谱(KGs)在捕获和结构化长尾知识方面的重要性**。尽管当前的大规模预训练努力吸收了知识,但面临着幻觉现象和在非常规知识中模糊不清的挑战【2】-【5】,我们的研究主要关注KGs内的符号化、结构化知识。鉴于KGs在结构化长尾知识中的关键作用及其在许多成功的AI和信息系统中作为基础知识表示元素的既定地位【6】,因此将KGs和多模态学习结合考虑是合理的。 如图1所示,现实生活中的个体需要同时处理来自环境的多模态信息,同时不断吸收和利用知识。这些元素不应孤立工作;相反,知识和多模态本质上是互补的。尽管存在这种内在的联系,但历史上,这两个领域独立发展。因此,以往的工作要么专注于KG增强的多模态学习,要么专注于多模态KG研究本身。直到现在,还没有任何研究或综述提供了这些领域的全面、均衡分析,导致它们的发展进一步分化。 在本文中,我们首先系统回顾了从传统KGs到MMKGs的发展,重点关注语义网社区在各个阶段的演变优先级。然后,我们仔细分类KG驱动的多模态任务(KG4MM),其中KGs作为知识的关键仓库,为各种下游多模态任务提供推理基础和必要的长尾知识。继之后,我们探讨多模态技术对KGs的影响,讨论它们当前的状态和未来的前景。为了提供清晰的概览,我们分析了每个任务内的方法论演进并对关键领域进行基准测试,使读者能够有效地比较不同任务的方法。我们的综述主要集中在过去三年(2020-2023)的研究上,并考虑到最近大型语言模型(LLMs)技术的快速进步,我们还探讨了LLMs与我们研究中讨论的各个主题之间的相互作用。 这份综述适合所有AI研究者,特别是那些将要进入具有知识要求的多模态学习领域的研究者。对于那些已经在这一领域从事研究但热衷于探索利用跨模态知识表示和知识驱动的多模态推理解决方案的人,以及从事KG和语义技术工作的个人而言,这份综述也大有裨益。

本综述的剩余部分组织如下。第二节介绍初步概念,定义KG和多模态学习中的关键概念,并提供KG4MM和MM4KG设置的概览。在第三节中,我们讨论KGs的范围和构建,过渡到MMKGs的演化。第四节深入探讨各种KG4MM任务,详细说明每项任务的资源和在过去三年内开发的先进方法,这些方法分为四个范式:理解与推理;分类;内容生成;检索;以及多模态预训练。第五节回顾MM4KG领域内的任务,将关键方法分类为四个领域:MMKG获取,融合,推理,以及MMKG驱动的任务。

虽然由于不同KG4MM或MM4KG任务之间方法设计的潜在重叠,按特定任务分类内容可能并不总是最佳选择,但这种组织有助于划分研究景观,鼓励跨学科探索和不同任务的整合。此外,我们仔细平衡细节以解决任务间的内容重叠,重点关注代表性任务。

我们还分析了KG4MM和MM4KG的当前趋势和工业应用,提供了这些技术如何影响各个行业的见解。展望未来,第六节考虑多模态方法与(MM)KGs的未来整合,解决前几节讨论的任务可能的增强。它还探讨了在LLMs和AI-for-Science快速发展的背景下,维持KG4MM和MM4KG增长的挑战和机遇。最后,第七节总结本文。

多模态知识图谱

KG驱动的多模态学习任务

本节探讨了KGs在增强多模态学习任务中的作用。作为关键的符号知识载体,KGs在启用一系列需要丰富背景知识的任务中发挥着至关重要的作用,包括但不限于生成、推理、理解、分类、检索和预训练。通过在统一框架内提出系统的分类法,我们旨在明晰各种方法的本质,从而丰富对该领域的理解并指导未来的研究方向。

多模态知识图谱任务

本节转向关注多模态知识图谱(MMKG)研究内的最新趋势和讨论。如图3所示,MMKG的构建过程反映了人类的认知操作,包括信息的获取、融合和推理。在这一发展过程中,已经识别出了各种任务(即In-MMKG任务),将MMKG定位为解决一系列下游多模态任务的基石。

成为VIP会员查看完整内容
60

相关内容

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。 知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【KDD2022教程】多模态自动机器学习教程,130页ppt
专知会员服务
76+阅读 · 2022年8月19日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
126+阅读 · 2020年7月20日
基于模型的强化学习综述
专知
28+阅读 · 2022年7月13日
神经网络的基础数学,95页pdf
专知
25+阅读 · 2022年1月23日
【干货书】高维统计学,572页pdf
专知
15+阅读 · 2021年12月3日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
层级强化学习概念简介
CreateAMind
17+阅读 · 2019年6月9日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【KDD2022教程】多模态自动机器学习教程,130页ppt
专知会员服务
76+阅读 · 2022年8月19日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
126+阅读 · 2020年7月20日
相关资讯
基于模型的强化学习综述
专知
28+阅读 · 2022年7月13日
神经网络的基础数学,95页pdf
专知
25+阅读 · 2022年1月23日
【干货书】高维统计学,572页pdf
专知
15+阅读 · 2021年12月3日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
层级强化学习概念简介
CreateAMind
17+阅读 · 2019年6月9日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
相关基金
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员