本文解决了视觉识别的多模态学习中的两个挑战:1)在现实世界的训练或测试中发生模态缺失时;以及2)当计算资源无法对重型transformer模型进行微调时。**为此,我们提出利用提示学习和缓解上述两个挑战。模态缺失感知提示可插入到多模态transformer中,以处理一般的模态缺失情况,而与训练整个模型相比,只需要不到1%的可学习参数。**此外,本文还进一步探讨了不同提示配置的影响,并分析了对缺失模态的鲁棒性。大量实验表明,所提出的快速学习框架有效地提高了各种模态缺失情况下的性能,同时缓解了繁重的模型再训练需求。
https://www.zhuanzhi.ai/paper/c405e8bee58751611062dfa939e74fa3