多模态学习中的不完整模态问题既实用又具有挑战性。
近年来,研究人员主要集中在通过应用可学习的提示,增强预训练的多模态变换器(MMTs)在缺失模态条件下的鲁棒性。然而,这些基于提示的方法面临若干限制:(1)不完整的模态仅提供有限的模态线索,难以进行特定任务的推理;(2)对缺失内容进行虚拟填充会导致信息丢失并引入噪声;(3)静态提示是与实例无关的,无法为具有不同缺失条件的实例提供足够的知识。为了解决这些问题,我们提出了一种新颖的检索增强动态提示调优框架——RAGPT。RAGPT由三个模块组成:(I)多通道检索器,通过模态内检索策略识别相似实例;(II)缺失模态生成器,利用检索到的上下文恢复缺失信息;(III)上下文感知提示生成器,从相关实例中捕获上下文知识,并生成动态提示,从而显著增强MMT的鲁棒性。在三个真实世界数据集上的大量实验表明,RAGPT在处理不完整模态问题时始终优于所有竞争基准方法。我们的工作代码以及基于提示的基准方法已在https://github.com/Jian-Lang/RAGPT发布。