We present TWIST, a simple and theoretically explainable self-supervised representation learning method by classifying large-scale unlabeled datasets in an end-to-end way. We employ a siamese network terminated by a softmax operation to produce twin class distributions of two augmented images. Without supervision, we enforce the class distributions of different augmentations to be consistent. However, simply minimizing the divergence between augmentations will cause collapsed solutions, i.e., outputting the same class probability distribution for all images. In this case, no information about the input image is left. To solve this problem, we propose to maximize the mutual information between the input and the class predictions. Specifically, we minimize the entropy of the distribution for each sample to make the class prediction for each sample assertive and maximize the entropy of the mean distribution to make the predictions of different samples diverse. In this way, TWIST can naturally avoid the collapsed solutions without specific designs such as asymmetric network, stop-gradient operation, or momentum encoder. As a result, TWIST outperforms state-of-the-art methods on a wide range of tasks. Especially, TWIST performs surprisingly well on semi-supervised learning, achieving 61.2% top-1 accuracy with 1% ImageNet labels using a ResNet-50 as backbone, surpassing previous best results by an absolute improvement of 6.2%. Codes and pre-trained models are given on: https://github.com/bytedance/TWIST


翻译:我们提出了一个简单和理论上可解释的自我监督的代表学习方法TWIST, 这是一种简单和理论上可以自我监督的自我监督学习方法, 以端到端的方式对大型无标签的数据集进行分类。 我们使用一个由软式操作终止的硅状网络, 以产生双类分发两个增强的图像。 没有监督, 我们强制执行不同增强的类分布, 以便保持一致性。 然而, 仅仅将增强之间的差异最小化就会导致解决方案崩溃, 即输出所有图像的同一类概率分布。 在这种情况下, 没有留下关于输入图像的信息 。 为了解决这个问题, 我们建议最大限度地扩大输入和类预测之间的相互信息。 我们使用一个软式的网络网络, 以最小化的方式对每个样本进行分类预测, 并尽可能扩大平均分配的元素分布, 以使不同的样本的预测多样化。 这样, 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、 技术、

1
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
4+阅读 · 2018年6月4日
Arxiv
0+阅读 · 2022年2月9日
Arxiv
11+阅读 · 2021年2月17日
Arxiv
17+阅读 · 2021年2月15日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
4+阅读 · 2018年6月4日
Top
微信扫码咨询专知VIP会员