多模态KG如何持续学习？浙大等提出首个《持续多模态知识图谱构建》框架

多模态知识图谱构建（MMKC）是指通过多种模态（如文本、图像、视频等）创建实体和关系的结构化表示的持续过程。然而，现有的MMKC模型在处理新实体和关系引入时存在限制，这是由于现实世界的动态性。此外，大多数最先进的MMKC研究只考虑从文本数据中提取实体和关系，而忽视了其他多模态来源。同时，当前的持续设置下的知识图谱构建也只考虑从文本数据中提取实体和关系，而忽视了其他多模态来源。因此，需要探索持续多模态知识图谱构建的挑战，以解决灾难性遗忘现象，并确保保留从不同形式数据中提取的过去知识。本研究的重点是通过开发终身多模态基准数据集来研究这一复杂课题。根据实证研究结果，发现一些最先进的MMKC模型在训练多媒体数据时，与仅利用文本资源的模型相比，可能会意外地表现不佳。因此，我们提出了一种持续多模态知识图谱构建的终身一致Transformer框架（LMC）。通过在持续学习的背景下结合一致的KGC策略，我们在稳定性和可塑性之间取得了更好的平衡。我们的实验表明，在动态场景中，我们的方法相对于现有的持续学习技术或多模态方法具有优越的性能。代码和数据集可在https://github.com/zjunlp/ContinueMKGC找到。

https://www.zhuanzhi.ai/paper/f5ff364a95925f3c5f5e4b369b426d3e

1. 引言

由于多模态数据在社交媒体平台上变得越来越受欢迎，多模态知识图谱（MKG）近年来在知识图谱和多媒体领域引起了极大关注[19, 22, 39, 43, 48, 54, 57, 62]。为了避免高质量MKG依赖人工策划的半结构多模态数据，提出了多模态知识图谱构建（MKGC）[27, 55, 60]，将多模态数据视为辅助信息，有助于解决模糊的多义词和从大规模多媒体信息中自动发现实体和关系的事实，包括多模态命名实体识别（MNER）[26, 49]和多模态关系提取（MRE）[5, 58]。然而，当前的MKGC模型[3, 5, 58]主要关注“静态”知识图谱的情景，即实体类别和关系的大小在学习过程中保持不变。模型是在单个数据集上进行训练的，因此不适用于经常出现新实体类型和关系的环境。随着现实世界的不断变化，开发适应新实体类别和关系出现的模型变得至关重要，这在实际应用中常常发生，因为世界的性质不断演变[15]。为了适应流式数据中出现新的实体类别和关系的情况，提出了持续知识图谱构建（CKGC）的范式[8, 28, 44, 50]，以在可塑性和稳定性之间找到平衡，即学习良好地识别新的实体类别和关系，同时避免遗忘已学知识。最近，许多基于回放的CKGC模型，如EMAR [16]、CML [47]、RP-CRE [8]、Xia等人 [50]和Wang等人 [44]，在学习新的实体类别和关系时在克服灾难性遗忘方面取得了重大进展。EMAR通过模仿人类类似的长期记忆机制，并引入情节记忆激活来应对灾难性遗忘，但它严重依赖回放模块的容量。另一方面，Xia等人 [50]和Wang等人 [44]提出的方法通过使用合成数据进行蒸馏，防止遗忘之前的NER任务。此外，RP-CRE [8]利用基于关系原型的方法充分利用RE任务的典型样本。然而，当前的KGC连续设置仅考虑基于文本模态的实体和关系提取，而忽视了MKGC任务。利用多模态数据的MKGC模型可以提供比在单模态数据上训练的模型更全面的视角。实际上，以前的MKGC方法在“静态”KG设置中确实展示了其比单模态KGC更先进的性能。因此，预期在持续设置中，利用多模态数据进行学习的性能至少与单模态模型持平，如果不是超越。为了验证这一预期，我们进行了初步实验，研究了当前多模态KGC模型在持续学习场景中的性能，并将其与单模态模型进行比较。连续多模态知识图谱构建的具体过程如图1所示。然而，结果显示将这些MKGC模型应用于连续学习场景并不简单。

在图2(a)中，引人注目的观察结果是，与仅使用文本资源的情况（Vanilla）相比，过去任务的F1分数在多模态资源上下降更为显著，这违反了通过整合多模态信息提高KGC性能的初衷。这个观察结果违背了预期。此外，图2(b)说明了在𝑘-th任务的训练集上训练时，几种方法在当前𝑘-th任务的测试集上的表现。我们可以发现，将所有先前样本存储在内存中进行训练的联合训练方法无法与其单模态对应模型相匹配或在识别新关系方面表现优于其单模态对应模型（Vanilla）。这个现象表明，具有重放策略的MKGC模型可能严重失去可塑性，这极大地阻碍了MKGC方法在持续学习场景中的应用。我们认为原因可能是不同的模态具有不同的收敛速度[45, 46]，导致当前的MKGC模型在持续学习场景中失去了稳定性（保留先前知识的能力）。因此，持续的MKGC任务带来了几个新的挑战，如下所述：(1) 多模态学习节奏不平衡。MKGC模型具有重放策略失去可塑性的现象表明，模态的不同收敛速度可能会加剧多模态学习节奏的不平衡，导致在持续学习新实体和关系类型时，两种模态的表示都不够优化。(2) 多模态交互中的不一致遗忘。不同模态具有不同的遗忘速度，在持续学习场景中，次要模态更容易被遗忘，导致模态融合后整个模型出现偏差，甚至比单模态情况下表现更差。因此，持续的MKGC模型应该在保持强大的模态融合的同时保持一致的多模态遗忘。为了克服上述挑战，我们提出了一种用于KGC的持续多模态一致Transformer（LMC），它发挥了持续学习中一致多模态优化的优势，实现了更好的稳定性和可塑性的平衡**。解决多模态学习节奏不平衡的问题，同时在持续学习中保持可塑性**。我们设计了一种梯度调节策略，用于实现平衡的多模态学习节奏，该策略根据每种模态对优化目标的贡献度进行自适应调整梯度，从而赋予MKGC模型对新任务更好的稳定性。缓解多模态交互中的不一致遗忘问题，引入手牵手的多模态交互和注意力蒸馏。具体而言，我们通过计算两种模态的自查询与可学习的外部键之间的关联性来进行多模态交互。我们进一步利用注意力蒸馏来蒸馏基于上述多模态交互模块的注意力级别矩阵。综上所述，本论文的主要贡献有：

-据我们所知，这篇论文是首次在具有高要求的持续学习环境中探索多模态知识图谱的构建。我们进行了实验分析，并发现先前的MKGC模型在处理一系列具有新实体类别和关系的KGC任务时无法与其单模态对应模型相匹配或超越其性能。

-我们是第一个（即将）发布全面的持续MKGC基准数据集和基线模型，以鼓励MKGC社区在具有现实世界KG增长的MKGC任务上进行更多的研究。我们还设计了一个新颖的框架，即LMC，考虑了多模态学习中的不一致性和不平衡性，并在内存重放过程中进一步利用随机采样的多模态实例以更有效地抵抗遗忘。

-我们在现实世界增量设置中对两个子任务进行了大量实验和分析。广泛的实验结果表明，所提出的LMC框架在一系列类别增量设置下优于传统的MKGC模型和持续单模态KGC模型。

本文的其余部分安排如下：第2节介绍问题陈述和多模态学习收敛问题的实证分析，第3节详细介绍了我们提出的框架。我们在第4节展示实验结果。第5节回顾了相关工作，第6节对论文进行总结。

方法框架

如图4所示，我们的持续KGC框架采用具有特定任务范式的双流Transformer结构，包括:(1)结构。该方法使用视觉Transformer (ViT)模型[11]进行视觉表示，使用BERT模型[25]进行文本表示。由于之前的工作[4,7]揭示了在更高层的语言模型上的操作可以更好地更有效地刺激来自下游任务的语言模型知识，本文选择在最后三层transformer上进行注意力蒸馏的手拉手多模态交互。(2) 任务特定范式。我们连接来自ViT和BERT的[CLS]表示，以获得MRE任务的关系集R上的概率分布:

(3) 训练过程。算法1描述了整个训练过程。该框架在每个步骤都包括三个模块来学习新的实体类别和关系，并复习旧的实体关系，包括平衡的多模态学习节奏、基于注意力蒸馏的当前任务训练和多模态排练。整个框架的详细信息如下所示。

实验

Lifelong Twitter2017.我们将原始设置转换为增量类型设置，使用众所周知的Twitter-2017 [24]多模态NER数据集，该数据集主要由2016年至2017年在Twitter上发布的多模态用户帖子组成。一个示例可能具有多个具有不同类型的实体。假设我们在几个类型增量任务中使用相同的实例。在当前步骤中标记为O的标记很可能包含来自先前类别的丰富实体。然而，这种方法会导致标签混淆，使模型的学习过程矛盾。为了避免学习混乱的模式并实现更真实的设置，我们重新构建了只在一个任务中出现一次的具有一种类型的示例。 Lifelong MNRE. MNRE数据集[58]是一个最近创建的、手动标注的数据集，包括多模态神经关系抽取的20种关系。图像和文本帖子是从Twitter收集的。我们按照基线方法的实验设置；选择了20种关系和相应的样本，将它们分成10个子集对应于10个任务。然而，先前的设置有两个与终身学习概念不符合的不真实限制：(1)他们通常选择在一个聚类中具有更多语义相关性的关系。(2)将“N/A”类从持续学习过程中丢弃。因此，在我们的实验中，我们在每个任务中包括了“N/A”类，并采用了完全随机的关系级抽样策略，使基准数据更加多样化和真实。

作为第一个持续的MKGC模型，首先将所提出的LMC与之前的SOTA多模态基线进行了比较，以证明所提出LMC的优越性。1) UMT[51]是Transformer模型到多模态版本的扩展，其中包括添加了一个辅助实体跨度检测模块;2) UMGF[53]提出了一种针对MNER的统一多模态图融合方法。3) MEGA[58]实现了一种双图对齐策略来捕获实体和对象之间的关系，在MRE方面取得了最先进的结果。4) MKGformer[3]是MNER和MRE最新的SOTA模型，具有统一的双流transformer结构。除了之前的多模态方法外，本文还将LMC与典型的持续学习方法进行了公平比较，如下所示:

Vanilla是一种仅根据新任务的训练数据对BERT模型进行微调的方法，而不使用任何内存数据。这种方法可能会遭受严重的灾难性遗忘，并作为下限。

联合训练包括将之前的所有样本存储在内存中，并在每个新任务的所有数据上训练MKGformer模型，作为理论上限。

实现了EWC算法[17]，以防止人工神经网络中重要参数偏离旧值太远。

EMR[42]是一种方法，它将以前任务中的基本样本保存在记忆中，并在学习新任务时根据新的训练数据和记忆数据的组合进行训练。

EMAR-BERT[16]是一种持续学习方法，使用再巩固和记忆激活来缓解灾难性遗忘问题。 RP-CRE[8]是连续关系抽取(CRE)的SOTA方法，它利用关系原型为每个关系抽取相关信息。特定关系的原型嵌入是根据该关系的存储样本计算的。

ExtendNER[28]利用知识蒸馏(KD)框架进行连续NER，现有的NER模型充当新的NER模型(学生)的老师。

终身MNRE的表现

从表2所示的终身MNRE实验可以看出: Vanilla模型仅通过对新样本进行微调来使用单模态BERT模型，由于严重的过拟合和灾难性遗忘，导致性能迅速下降。然而，所有的多模态模型，本应用于提高单模态性能，表现都比Vanilla模型更差，这进一步验证了对持续多模态学习进行研究的必要性。我们提出的LMC方法在性能上远远优于所有MKGC模型。尽管先前的持续学习方法，如EMR、EMAR-BERT和RP-CRE等，也采用了记忆模块来减轻遗忘，并且其中一些方法设计了复杂的采样策略，但它们的性能仍然弱于我们的LMC方法，在具有相同记忆大小和随机采样策略的MNRE实验中，这证明了我们的方法充分利用多模态交互以获得更好的持续学习性能的优越性。我们还对MKGC模型应用了几种持续学习策略进行比较。我们发现，尽管“M-[]”系列方法的性能优于纯多模态方法RP-CRE和我们的LMC，但仍低于SOTA单模态持续关系抽取方法，这表明简单的迁移持续学习策略无法达到理想的性能。虽然我们的LMC方法的性能仍落后于联合训练方法，但这激发了进一步探索持续多模态学习以接近上限的研究动力。

在Lifelong Twitter2017任务上的性能

我们从两种任务顺序的角度比较了我们的LMC和其他基线模型的表现，结果如表3所示。我们可以观察到以下情况： (1)** 总体性能**：尽管各种各样的MKGC模型在持续学习场景下的性能波动较大，多模态KGC模型在MNER基准测试中表现不如单模态BERT的现象仍然存在。我们可以看到，LMC在Lifelong Twitter-2017基准测试中也明显优于所有其他方法，这验证了我们提出的方法的强大适用性。 (2) 不同顺序的排列：为了探索我们的方法的鲁棒性，并消除对实体类型添加顺序的依赖，我们还在不同的排列方式上评估了模型，其中实体类型被添加到我们的模型中。具体而言，我们将第一个顺序设置为“PER → ORG → LOC → MISC”，第二个顺序设置为“PER → LOC → ORG → MISC”。从结果中，我们可以观察到LMC在所有排列方式上优于先前的基线模型，表明我们方法的泛化能力。

4. 结论

尽管持续性多模态知识图谱构建（MKGC）领域具有重要的潜在影响，但直到现在它还没有得到足够的关注。由于多模态模型的复杂性，对新实体类型和关系的持续性识别构成了重大挑战。本文通过引入创新的基准测试和独特的算法，即终身MKGC基准测试和一种名为LMC的新方法，在该领域做出了开创性的贡献，以在持续学习中解决灾难性遗忘和可塑性问题，这是持续学习的核心问题。LMC通过实施平衡的多模态学习节奏来更好地把握新模式，并采用手牵手的多模态交互和注意力蒸馏来记忆先前的知识。我们广泛的实验结果和分析显示，LMC方法在本研究中的所有持续学习场景中优于以前的方法。未来，我们计划：1）将我们的方法扩展到更多的持续性多模态学习任务，如持续性多模态事件检测；2）探索将提示学习和元学习方法与持续性MKGC任务相结合的方式；3）探索更有效的持续策略，无需进行存储。

成为VIP会员查看完整内容