We propose CLIP-Lite, an information efficient method for visual representation learning by feature alignment with textual annotations. Compared to the previously proposed CLIP model, CLIP-Lite requires only one negative image-text sample pair for every positive image-text sample during the optimization of its contrastive learning objective. We accomplish this by taking advantage of an information efficient lower-bound to maximize the mutual information between the two input modalities. This allows CLIP-Lite to be trained with significantly reduced amounts of data and batch sizes while obtaining better performance than CLIP. We evaluate CLIP-Lite by pretraining on the COCO-Captions dataset and testing transfer learning to other datasets. CLIP-Lite obtains a +15.4% mAP absolute gain in performance on Pascal VOC classification, and a +22.1% top-1 accuracy gain on ImageNet, while being comparable or superior to other, more complex, text-supervised models. CLIP-Lite is also superior to CLIP on image and text retrieval, zero-shot classification, and visual grounding. Finally, by performing explicit image-text alignment during representation learning, we show that CLIP-Lite can leverage language semantics to encourage bias-free visual representations that can be used in downstream tasks.


翻译:我们提出CLIP-Lite, 这是一种信息高效方法, 用于通过特征与文本说明保持一致来进行视觉表现学习。 与先前提议的 CLIP 模型相比, CLIP- Lite 在优化其对比性学习目标时, 只需要对每个正面图像文本样本使用一个负图像-文本样本。 我们通过利用一个信息高效度较低且能最大限度地增加两种输入模式之间的相互信息来实现这一目标。 这样, CLIP- Lite 就可以在获得比 CLIP 更好的性能的同时,以大量数据和批量大小来接受培训。 我们通过对 COCO- Caption 数据集进行预培训来评估 CLIP- Lite, 测试将学习转移到其他数据集。 CLIP- Lite 在Pascal VOC 分类和图像网络上, +22.1% 的顶级-1 准确度收益中获得了绝对收益。 同时, CLIP- Lite 在图像和文本检索、 零发分级分类和直观地面演示中, 通过进行清晰的图像- 图像- L 展示, 能够显示我们使用的图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 显示- 显示- 显示- 能够 显示- 显示- 显示- 显示- 显示- 显示- 显示- 直观 显示- 显示- C- L- 图像- 图像- 图像- 显示- 显示- 图像- 图像- 图像- 图像- 显示- 显示- 图像- 显示- 图像- 上- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 图像- 的 的 演示 演示 显示- 图像- 图像- 图像- 显示- 图像- 显示- 显示- 上- 的 的 的 的 的 的 的 演示- 的 的 演示- 显示- 显示- 演示- 演示- 演示- 演示- 图像-

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
14+阅读 · 2021年3月10日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员