近年来,人工智能领域,在开发人工智能系统方面取得了巨大进展,这些系统可以从大量精心标记的数据中学习。这种监督学习范式在训练专门的模型方面性能极好,在它们训练的任务上往往能够获得极高的性能表现。

但不幸的是,仅靠监督学习,人工智能领域难以走远。

监督学习在构建更智能的通用模型上存在本质上的瓶颈,例如处理多任务问题,或者通过大量存在的无标签数据学习新技能等。实际上,我们不可能对世界上一切事物都做标注;即使可以标注,但数量也可能并不足够,例如低资源语言翻译任务。

如果人工智能系统能够在训练数据集之外,对现实世界能够有更深入、更细致的理解,显然它们将更有用,最终也将使人工智能更接近人类层面的智能。

人类婴儿学习世界运作,主要是通过观察。我们会通过学习物体的持久性、重力等概念,从而形成关于世界上物体的广义预测模型。在随后的人生里,我们不断观察世界,然后对它进行作用,然而再观察作用的效果等等,通过反复尝试,从而建立假设,解释我们的行动如何能够改变我们的环境。

一种有效的假设是,人类和动物的生物智能,主要的成分是由关于世界的普遍知识或常识构成的,这种常识在生物智能中会被默认为自然而存在的背景。但对于人工智能来说,如何构建这种常识却一直是一个开放的挑战难题。在某种程度上,常识正是人工智能的暗物质。

常识可以帮助人们学习新技能,而无需为每项任务做大量的监督训练。

例如,我们只需要给小孩子看几张奶牛的图画,他们以后便可以轻松地识别出任何奶牛。相比之下,经过监督学习训练的人工智能系统,则需要许多奶牛的标注图像,即使这样,训练出的模型在一些特殊情况下,依然无法做出准确判断。

人类通过 20 个小时的练习,便能够学会驾驶汽车,但人类司机数千小时的数据却无法训练出一个很好的自动驾驶系统。

答案很简单:人类借助了他们以前获得的关于世界如何运作的背景知识。

我们如何让机器也能这样做呢?

我们认为,自我监督学习(self-supervised learning)是建立这种背景知识和近似人工智能系统中一种常识的最有前途的方法之一。

自我监督学习使人工智能系统能够从数量级更大的数据中学习,这对于识别和理解世界更微妙、更不常见的表示模式很重要。

长期以来,自我监督学习在推进自然语言处理(NLP)领域取得了巨大成功,包括 Collobert-Weston 2008 model,Word2Vec,GloVE,fastText 以及最近的BERT,RoBERTa,XLM-R等。通过这些方法训练的系统,会比以监督学习的方式训练的系统,性能要高得多。

我们最新的研究项目 SEER 利用 SwAV 和其他方法,在10亿张随机的未标记图像上预训练了一个大型网络,在各种视觉任务上获得了最高的精度。这一进展表明,在复杂的现实环境中,自监督学习也可以在 CV 任务中有出色表现。

在接下来的这篇文章中,我们将讲述,为什么自监督学习可能有助于解开智能暗物质,以及为什么它将是人工智能的下一个前沿。我们也将列出一些有前途的新方向,包括:在存在不确定性的情况下,基于能量的预测模型、联合嵌入方法、人工智能系统中用于自监督学习和推理的隐变量体系结构等。

目录内容: 人类和动物如何快速学习? 自监督学习 基于能量的模型 EBM Architectures for multimodal prediction Non-Contrastive EBM Training Architectural EBM Generative Regularized Latent-Variable Architectures Amortized Inference: Learning to predict the latent variable

成为VIP会员查看完整内容
0
39

相关内容

自监督学习(self-supervised learning)可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。

为什么要进行自监督学习? 一个常见的回答是:“因为数据标签是昂贵的。”在这次报告中,我将会提出,进行自监督学习还有其他的,也许是更根本的原因。首先,它应该允许我们摆脱自上而下的语义分类的暴力方法,迫使有意义的关联以一种自底向上的方式从原始传感器数据中自然地出现。其次,它应该允许我们抛弃固定的数据集,并实现持续的在线学习,这对现实世界的代理来说是一个更自然的设置。第三,也是最有趣的是,有可能强迫一个自监督的任务课程从第一原则中出现,即使在没有预定义的下游任务或目标的情况下,类似于进化。在这次演讲中,我将谈到这些主题来说明,自监督学习的研究才刚刚开始。

成为VIP会员查看完整内容
0
28

【导读】在最新AAAI2020的邀请嘉宾报告上,Facebook人工智能总监、图灵奖得主Yann Lecun给了自监督学习的报告《Self-Supervised Learning 》,44页ppt,介绍了深度学习面临的挑战,自监督学习的光明前景,基于能量学习的因变量模型,介绍最新自监督学习的进展与问题,是非常值得看的报告。

自监督学习 Self-Supervised Learning

计算机感知、语音识别和自然语言处理的最新进展几乎都是建立在有监督的深度学习的基础上的,在这种学习中,机器预测需要人类提供的标注。如今,DL系统已经成为搜索引擎和社交网络内容过滤和检索、医学图像分析、驾驶辅助以及许多科学领域的核心。但是,最好的机器学习方法仍然需要比人类和动物学习多得多的数据或与环境的交互。我们如何让机器像动物和人类一样,通过独立于任务的观察来学习关于世界如何运作的大量背景知识?一种有前途的方法是自监督学习(SSL),即机器从输入的其他部分预测输入的一部分。SSL已经在离散领域带来了巨大的进步,例如语言理解。问题是如何在音频、图像和视频等高维连续域中使用SSL。

成为VIP会员查看完整内容
0
132

报告主题: Energy-Based Self-Supervised Learning

报告摘要:

在监督或多任务学习中,将不会获得像人类一样可以泛化的智能。监督学习是有效的,但需要许多带标签的样本,通过举例而不是编程来训练机器,当输出错误时,调整机器的参数。在整个领域中可能需要在基于能量的学习方法上做更多的工作,能量函数在AI领域已经存在数十年了,无需创建大量带有标签的数据集,也不用花费数千个小时训练模型,而只是获取一些丰富的原始数据,让机器变得足够大,由此可以训练机器预测,预测与现实之间的兼容性就是所谓的能级。能量越少越好,更兼容、更准确,因此神经网络需要努力达到理想的低能量状态。

嘉宾介绍:

Yann Lecun是一位法裔美国计算机科学家,主要研究领域为机器学习、计算机视觉、移动机器人和计算神经科学。他是纽约大学Courant数学科学研究所的银牌教授,也是Facebook的副总裁兼首席人工智能科学家。他以研究卷积神经网络(CNN)的光学字符识别和计算机视觉而闻名,是卷积网络的创始人之一。他也是DjVu图像压缩技术的主要创建者之一(与Leon Bottou和Patrick Haffner一起)。他与Leon Bottou共同开发了Lush编程语言。他是2018年ACM A.M.的联合获奖者因为他在深度学习方面的工作获得了图灵奖。

成为VIP会员查看完整内容
0
57
小贴士
相关论文
Yu Yao,Ella Atkins,Matthew Johnson Roberson,Ram Vasudevan,Xiaoxiao Du
0+阅读 · 5月10日
Yunlong Song,Davide Scaramuzza
0+阅读 · 5月9日
Karl Schmeckpeper,Georgios Georgakis,Kostas Daniilidis
0+阅读 · 5月6日
Gabriele Di Stefano
0+阅读 · 5月6日
Dan Xu,Andrea Vedaldi,Joao F. Henriques
0+阅读 · 5月5日
Hang Dong,Víctor Suárez-Paniagua,Huayu Zhang,Minhong Wang,Emma Whitfield,Honghan Wu
0+阅读 · 5月5日
Humam Alwassel,Dhruv Mahajan,Bruno Korbar,Lorenzo Torresani,Bernard Ghanem,Du Tran
3+阅读 · 2020年10月26日
Davide Abati,Jakub Tomczak,Tijmen Blankevoort,Simone Calderara,Rita Cucchiara,Babak Ehteshami Bejnordi
5+阅读 · 2020年3月31日
Yogarshi Vyas,Xing Niu,Marine Carpuat
3+阅读 · 2018年3月29日
Anastasia Pentina,Christoph H. Lampert
3+阅读 · 2017年6月8日
Top