一种基于知识蒸馏的弱监督图像文本匹配模型

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

本文由腾讯 AI Lab 主导完成。弱监督的图像文本匹配旨在学习仅使用图像句子的对应来得到细颗粒度的图像区域和短语的对应. 因此,主要的挑战在于训练期间图像区域和句子短语之间缺少匹配的数据。

为了应对这一挑战,我们在训练时利用了通用的物体检测器知识蒸馏,并提出了利用对比学习来得到图像和文本细颗粒度匹配的新方法。我们的方法在弱监督的视觉区域和短语匹配任务上超越了以前的方法。

https://www.zhuanzhi.ai/paper/d59e9b614122852f5a78b38a14d43921

成为VIP会员查看完整内容
34

相关内容

专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
43+阅读 · 2021年4月18日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
专知会员服务
19+阅读 · 2021年3月18日
【CVPR2021】细粒度多标签分类
专知会员服务
60+阅读 · 2021年3月8日
【CVPR2021】自监督几何感知
专知会员服务
45+阅读 · 2021年3月6日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
60+阅读 · 2020年6月25日
【CVPR2021】细粒度多标签分类
专知
44+阅读 · 2021年3月8日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
通过时空模型迁移学习的无监督的跨数据集行人重新识别
统计学习与视觉计算组
8+阅读 · 2018年10月23日
Arxiv
0+阅读 · 2021年6月1日
Arxiv
19+阅读 · 2021年4月8日
VIP会员
相关VIP内容
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
43+阅读 · 2021年4月18日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
专知会员服务
19+阅读 · 2021年3月18日
【CVPR2021】细粒度多标签分类
专知会员服务
60+阅读 · 2021年3月8日
【CVPR2021】自监督几何感知
专知会员服务
45+阅读 · 2021年3月6日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
60+阅读 · 2020年6月25日
微信扫码咨询专知VIP会员