一种基于知识蒸馏的弱监督图像文本匹配模型
Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation
本文由腾讯 AI Lab 主导完成。弱监督的图像文本匹配旨在学习仅使用图像句子的对应来得到细颗粒度的图像区域和短语的对应. 因此,主要的挑战在于训练期间图像区域和句子短语之间缺少匹配的数据。
为了应对这一挑战,我们在训练时利用了通用的物体检测器知识蒸馏,并提出了利用对比学习来得到图像和文本细颗粒度匹配的新方法。我们的方法在弱监督的视觉区域和短语匹配任务上超越了以前的方法。
https://www.zhuanzhi.ai/paper/d59e9b614122852f5a78b38a14d43921
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“CKD” 就可以获取《【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型》专知下载链接