This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-supervised learning from images. The idea behind I-JEPA is simple: from a single context block, predict the representations of various target blocks in the same image. A core design choice to guide I-JEPA towards producing semantic representations is the masking strategy; specifically, it is crucial to (a) sample target blocks with sufficiently large scale (semantic), and to (b) use a sufficiently informative (spatially distributed) context block. Empirically, when combined with Vision Transformers, we find I-JEPA to be highly scalable. For instance, we train a ViT-Huge/14 on ImageNet using 16 A100 GPUs in under 72 hours to achieve strong downstream performance across a wide range of tasks, from linear classification to object counting and depth prediction.


翻译:本文展示了一种学习高度语义图像表示的方法,不依赖于手工制作的数据增强。我们引入基于图像联合嵌入预测架构(I-JEPA)的非生成式方法进行自我监督学习。I-JEPA 的设计思路很简单:从单个上下文块中,预测同一图像中各种目标块的表示。指导 I-JEPA 产生语义表示的核心设计选择是屏蔽策略。具体而言,重要的是(a)使用具有足够大的规模(语义)的目标块,并且(b)使用足够信息量(空间分布的)的上下文块。在实证方面,当与 Vision Transformers 结合使用时,我们发现 I-JEPA 具有高度可扩展性。例如,我们使用 16 个 A100 GPU,在不到 72 小时的时间内对 ImageNet 上的 ViT-Huge/14 进行训练,以实现广泛的下游任务强大的性能,从线性分类到对象计数和深度预测。

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月26日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Arxiv
15+阅读 · 2018年4月3日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
相关基金
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员