Recent advances in deep unsupervised learning have renewed interest in semi-supervised methods, which can learn from both labeled and unlabeled data. Presently the most successful approaches to semi-supervised learning are based on consistency regularization, whereby a model is trained to be robust to small perturbations of its inputs and parameters. We show that consistency regularization leads to flatter but narrower optima. We also show that the test error surface for these methods is approximately convex in regions of weight space traversed by SGD. Inspired by these observations, we propose to train consistency based semi-supervised models with stochastic weight averaging (SWA), a recent method which averages weights along the trajectory of SGD. We also develop fast-SWA, which further accelerates convergence by averaging multiple points within each cycle of a cyclical learning rate schedule. With fast-SWA we achieve the best known semi-supervised results on CIFAR-10 and CIFAR-100 over many different numbers of observed training labels. For example, we achieve 5.0% error on CIFAR-10 with only 4000 labels, compared to 6.28% of the previous best result in the literature. We also improve the best known result from 80% accuracy to 83% for domain adaptation from CIFAR-10 to STL. Finally, we show that with fast-SWA the simple $\Pi$ model becomes state-of-the-art for large labeled settings.


翻译:在未经监督的深层次学习方面最近的进展使人们对半监督方法重新产生兴趣,这些方法可以从标签和未标签数据中学习。目前半监督学习的最成功方法基于一致性规范,即模型经过训练能够稳健到小扰动其投入和参数。我们显示,一致性正规化导致偏斜,但范围缩小了optima。我们还显示,这些方法的测试错误表面在由SGD所穿透的重力空间区域中大致接近于已知的半监督方法。受这些观察的启发,我们提议对基于半监督模型的一致性进行以平均超重(SWA)为基础的半监督模型培训。这是在SGD轨迹上平均加权(SWA)的最新方法。我们还开发了快速SWA,通过在周期学习进度的每个周期中平均多点来进一步加速趋同。随着快速SWA,我们取得了在CFAR-10和CFAR-100模型中最著名的半监督结果,超过许多观察到的培训标签数量。例如,我们在CFAR-10上实现5.0的错误5.0%,只有4000个普通标签,而我们在SGDGDG的轨道上达到8.8%,最后显示,从S-SR-R-RO-CFAR-10的精确度为80-CFAR-CFAR-CFA-CFA-C-C-C-C-C-C-C-C-C-C-C-C-CFA-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-CFAR-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-

0
下载
关闭预览

相关内容

【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
17+阅读 · 2018年4月2日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员