模型编辑旨在在无需重新训练的前提下,修正大型语言模型(LLMs)中的错误知识、更新过时信息并融入新数据。该任务在终身学习场景中尤为具有挑战性,因为编辑操作需要持续进行,以满足真实世界应用的需求。尽管部分编辑方法在纯语言模型中展现出较强的稳健性,但视觉语言模型(Vision LLMs, VLLMs)由于引入了视觉模态,无法直接适配现有的语言模型编辑器。
为弥合终身LLM编辑与VLLM之间的差距,本文提出LiveEdit,一种用于终身VLLM知识编辑的新方法。我们首先训练一个“编辑专家生成器”,能够为每次编辑实例独立生成低秩专家,旨在修正VLLM的相关输出响应。为此,我们设计了一种硬过滤机制,利用视觉语义知识在推理阶段粗略剔除与输入查询视觉无关的专家。随后,我们引入一种基于文本语义相关性的软路由机制,以融合多个视觉相关专家,从而实现多专家信息整合。
为评估方法有效性,我们构建了一个用于终身VLLM编辑的基准测试集。大量实验证明,LiveEdit在终身VLLM编辑任务中具有显著优势,进一步实验也验证了各模块设计的合理性与有效性。
https://arxiv.org/pdf/2411.15432