收录160+篇文章!清华唐杰团队详解自监督学习

2020 年 6 月 19 日 学术头条

来源:图灵TOPIA
作者:安然

多年来,深度监督学习取得了巨大的成功,然而,其依赖于人工标注和易受攻击的弱点使人们一直在探索更好的解决方案。
 
自监督学习作为一种新的学习方法,近几年在表征学习方面取得了骄人的成绩,其利用输入数据本身作为监督,并使得几乎所有类型的下游任务都受益。 
 
近日,清华大学教授唐杰发表了一篇 《Self-supervised Learning: Generative or Contrastive》 的综述文章,文章收录了160+篇文章,包括NLP、CV、Graph等领域的算法。

文章中,研究者讨论了新的自监督学习方法在计算机视觉、自然语言处理和图形学习中的表征。


论文概述如下:

深度神经网络在机器学习任务中表现出色,特别是在计算机视觉中的监督学习(图像分类、语义分割)、自然语言处理(预训练语言模型、情绪分析、问题回答)和图形学习(节点分类、图形分类)。
 
通常,监督学习是在一个特定的任务上进行训练,使用一个人工标记的大型数据集,该数据集被随机分为训练集、验证集和测试集。
 
然而,监督学习遇到了瓶颈——它不仅严重依赖昂贵的人工标记,而且具有泛化错误、虚假相关性和易受攻击等缺点。
 
研究者期望神经网络通过更少的标签、更少的样本或更少的试验来学习更多。
 
作为一种有发展前景的学习方法,自监督学习以其出色的数据效率和泛化能力引起了广泛关注,许多新的模型都遵循这一范式。
 
在该研究中, 研究者全面了解了自监督学习模型的发展,并讨论其理论的合理性,包括框架如预训练语言模型(PTM),生成对抗网络(GAN),自动编码器及其扩展,深度信息和对比编码。
 
“自监督学习”最早是在机器人技术中引入的,其中通过查找和利用不同传感器信号之间的关系来自动标记训练数据。
 
然后,它被机器学习领域借用。在关于AAAI 2020的演讲中,Yann LeCun将自我监督学习描述为“机器会为其观察到的任何部分预测其输入的部分。” 可以将其概括为遵循LeCun的两个经典定义:
 
  • 通过“半自动”过程从数据本身获取“标签”。

 
  • 从其他部分预测部分数据。

 
具体而言,此处的“其他部分”可能是不完整的、扭曲或损坏的。换句话说,机器学会了“恢复”其原始输入的全部或部分特征。
 
人们常常被无监督学习和自监督学习所迷惑。自我监督学习可以看作是无监督学习的一个分支,因为它不涉及人工标注。
 
但是,狭义地讲,无监督学习专注于检测特定的数据模式,而自监督学习旨在恢复,这仍然处于监督环境的范式中。

区分有监督,无监督和自监督学习框架的示意图
 
关于预训练语言模型、生成对抗网络、自动编码器和视觉表示的对比学习已有一些相关的综述, 但它们都没有集中于启发性的自监督学习概念。
 
在这项工作中,研究者收集了近年来对自然语言处理,计算机视觉和图形学习的研究,以对自监督学习的前沿领域进行最新、全面的回顾。

综上所述,他们的贡献如下:
 
  • 提供了自监督学习最新、最详细的概述,介绍了背景知识、变量模型和重要的框架,人们可以很容易地掌握自我监督学习的前沿思想。

 
  • 将自我监督的学习模型分为生成型,对比型和生成对比型(对抗性),每种都包含特定的类型。展示了每种分类的利弊,并讨论了最近从生成转向对比的转变。深度 

  • 研究了自我监督学习方法的理论合理性,并说明了它如何有益于下游监督学习任务。

 
  • 确定了该领域中的几个未解决的问题,分析了其局限性和边界,并讨论了自监督表示学习的未来方向。


论文链接:
https://arxiv.org/pdf/2006.08218.pdf

点击 阅读原文 ,查看更多精彩!
喜欢本篇内容,请点在看
登录查看更多
3

相关内容

监督学习是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。 监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
【图神经网络(GNN)结构化数据分析】
专知会员服务
115+阅读 · 2020年3月22日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【自监督学习】OpenAI科学家一文详解自监督学习
产业智能官
25+阅读 · 2020年3月18日
AAAI 2020 | 北大:图卷积中的多阶段自监督学习算法
AI科技评论
8+阅读 · 2020年1月12日
OpenAI科学家一文详解自监督学习
新智元
18+阅读 · 2019年11月20日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
CVPR 2018文章解读——腾讯AI Lab
计算机视觉战队
4+阅读 · 2018年5月16日
南京大学周志华教授综述论文:弱监督学习
云头条
9+阅读 · 2018年3月5日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
9+阅读 · 2018年10月18日
Arxiv
4+阅读 · 2018年5月21日
VIP会员
相关资讯
【自监督学习】OpenAI科学家一文详解自监督学习
产业智能官
25+阅读 · 2020年3月18日
AAAI 2020 | 北大:图卷积中的多阶段自监督学习算法
AI科技评论
8+阅读 · 2020年1月12日
OpenAI科学家一文详解自监督学习
新智元
18+阅读 · 2019年11月20日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
CVPR 2018文章解读——腾讯AI Lab
计算机视觉战队
4+阅读 · 2018年5月16日
南京大学周志华教授综述论文:弱监督学习
云头条
9+阅读 · 2018年3月5日
Top
微信扫码咨询专知VIP会员