一种基于知识蒸馏的弱监督图像文本匹配模型
Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation
本文由腾讯 AI Lab 主导完成。弱监督的图像文本匹配旨在学习仅使用图像句子的对应来得到细颗粒度的图像区域和短语的对应. 因此,主要的挑战在于训练期间图像区域和句子短语之间缺少匹配的数据。
为了应对这一挑战,我们在训练时利用了通用的物体检测器知识蒸馏,并提出了利用对比学习来得到图像和文本细颗粒度匹配的新方法。我们的方法在弱监督的视觉区域和短语匹配任务上超越了以前的方法。
https://www.zhuanzhi.ai/paper/d59e9b614122852f5a78b38a14d43921