半监督学习(Semi-supervised Learning, SSL)提供了一种利用未标记数据改进模型性能的有效方法。Google研究院近期在论文《FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence》中提出了一种简单粗暴却极其有效的半监督学习方法FixMatch。

论文展示了将两种常见半监督学习方法(一致性正则化和伪标签)简单结合后产生的威力。论文提出的FixMatch方法首先利用模型为经过弱增强的无标签图像生成伪标签。对于给定的图像,只有在模型产生高可信预测时,才保留伪标签。然后,该模型被训练来预测当输入同一图像的强增强版本时的伪标签。

尽管这个模型很简单,但论文展示了FixMatch在各种标准的半监督学习基准测试中都取得了最先进的性能,包括在CIFAR-10上使用250个标签获得94.93%的准确率,使用40个标签(相当于每个类只有4个标签)获得88.61%的准确率。由于FixMatch与现有的性能更差的半监督学习方法有许多相似之处,论文中进行了大量的消去测试,以梳理出对FixMatch成功最重要的实验因素。

论文开源了代码:

  • https: //github.com/google-research/fixmatch

简单介绍一下上面提到的两种常见半监督学习方法:

  • 一致性正则化(Consistency Regularization): 它是当前许多最先进的半监督学习算法的重要组成部分。一致性正则化依赖以下假设来利用未标注数据:当输入扰动版本的图像时,模型应该输出相似的预测。

  • 伪标签(Pseudo-labeling): 它的核心思想是利用模型自身来为未标注数据生成标签。该方法几十年前就被提出。伪标签特别指使用“硬”标签(模型输出中概率最高的标签)并且只保留概率大于指定阈值的标签。

FixMatch通过将这两种已有的方法进行简单的组合,取得了惊人的效果:

更多详细内容可以参考论文原文《FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence》:

成为VIP会员查看完整内容
FixMatch Simplifying Semi-Supervised Learning with Consistency and Confidence.pdf
52

相关内容

半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
一文综述经典的深度文本分类方法
AI100
12+阅读 · 2019年6月8日
一文读懂深度学习文本分类方法
AINLP
15+阅读 · 2019年6月6日
超强半监督学习 MixMatch
极市平台
8+阅读 · 2019年5月22日
该如何对「半监督学习算法」实际性应用进行评估?
炼数成金订阅号
7+阅读 · 2018年4月27日
Arxiv
13+阅读 · 2020年4月12日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
8+阅读 · 2018年1月19日
VIP会员
相关VIP内容
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
微信扫码咨询专知VIP会员