题目: CURL: Contrastive Unsupervised Representations for Reinforcement Learning

摘要:

我们提出了CURL:用于强化学习的对比无监督表示法。CURL使用对比学习从原始像素中提取高级特征,并在提取的特征之上执行off-policy控制。在DeepMind控制套件和Atari游戏中,在100K交互步骤基准测试中,CURL在复杂任务上的表现优于先前基于模型和非模型的基于像素的方法,分别提高了2.8倍和1.6倍的性能。在DeepMind控制套件中,CURL是第一个基于图像的算法,它的效率和性能几乎与使用基于状态的特性的方法不相上下。

成为VIP会员查看完整内容
0
16

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

论文标题:CURL: Contrastive Unsupervised Representations for ReinforcementLearning(CURL:用于强化学习的对比无监督表示)

论文来源:ICML 2020 论文下载:https://www.zhuanzhi.ai/paper/6fb5994c1f98b326b45fb83ce319f0b9

代码链接:https://github.com/MishaLaskin/curl

摘要:

我们提出CURL:用于强化学习的对比无监督表示法。CURL使用表示学习从原始像素中提取高级特征,并在提取的特征上执行off-policy控制。在DeepMind控制套件和Atari游戏中,CURL在复杂任务中的表现优于之前基于像素的方法,无论是基于模型的还是无模型的,在100K环境和交互步骤的基准测试中,分别获得1.9倍和1.6倍的性能提升。在DeepMind控制套件中,CURL是第一个与使用基于状态特征的方法的采样效率和性能接近的基于图像的算法。

成为VIP会员查看完整内容
0
17

We present CURL: Contrastive Unsupervised Representations for Reinforcement Learning. CURL extracts high-level features from raw pixels using contrastive learning and performs off-policy control on top of the extracted features. CURL outperforms prior pixel-based methods, both model-based and model-free, on complex tasks in the DeepMind Control Suite and Atari Games showing 1.9x and 1.6x performance gains at the 100K environment and interaction steps benchmarks respectively. On the DeepMind Control Suite, CURL is the first image-based algorithm to nearly match the sample-efficiency and performance of methods that use state-based features.

0
11
下载
预览

交叉熵是图像分类模型监督训练中应用最广泛的损失函数。在这篇论文中,我们提出了一种新的训练方法,在不同架构和数据扩充的监督学习任务中,它的表现始终优于交叉熵。我们修改了批量对比损失,这是最近被证明在自监督学习强大表示是非常有效的。我们能够比交叉熵更有效地利用标签信息。在嵌入空间中,将同一类的点聚在一起,同时将不同类的样本聚在一起。除此之外,我们还利用了关键的成分,如大批量和标准化嵌入,这些已经被证明有利于自监督学习。在ResNet-50和ResNet-200上,我们的交叉熵性能都超过了1%,在使用自动增广数据增强的方法中,我们设置了78.8%的最新水平。这一损失也清楚地表明,在校准和准确性方面,对标准基准的自然损坏具有鲁棒性。与交叉熵相比,我们的监督对比损失更稳定的超参数设置,如优化或数据扩充。

成为VIP会员查看完整内容
0
46

题目

跨语言表示学习,Unsupervised Cross-lingual Representation Learning at Scale

关键词

自然语言处理,表示学习,跨语言,人工智能

简介

本文表明,针对多种跨语言转换任务,大规模地对多语言语言模型进行预训练可以显着提高性能。 我们使用超过2 TB的经过过滤的CommonCrawl数据在一百种语言上训练了基于Transformer的屏蔽语言模型。 我们的模型称为XLM-R,在各种跨语言基准测试中,其性能明显优于多语言BERT(mBERT),包括XNLI的平均精度为+ 13.8%,MLQA的平均F1得分为+ 12.3%,NER的平均F1得分为+ 2.1%。 XLM-R在低资源语言上表现特别出色,与以前的XLM模型相比,斯瓦希里语的XNLI准确性提高了11.8%,乌尔都语的准确性提高了9.2%。 我们还对获得这些收益所需的关键因素进行了详细的实证评估,包括(1)积极转移和能力稀释以及(2)大规模资源资源的高低性能之间的权衡。 最后,我们首次展示了在不牺牲每种语言性能的情况下进行多语言建模的可能性。 XLM-R在GLUE和XNLI基准测试中具有强大的单语言模型,因此非常具有竞争力。 我们将公开提供XLM-R代码,数据和模型。

作者

Alexis Conneau, Kartikay Khandelwal等。

成为VIP会员查看完整内容
0
18

This paper presents SimCLR: a simple framework for contrastive learning of visual representations. We simplify recently proposed contrastive self-supervised learning algorithms without requiring specialized architectures or a memory bank. In order to understand what enables the contrastive prediction tasks to learn useful representations, we systematically study the major components of our framework. We show that (1) composition of data augmentations plays a critical role in defining effective predictive tasks, (2) introducing a learnable nonlinear transformation between the representation and the contrastive loss substantially improves the quality of the learned representations, and (3) contrastive learning benefits from larger batch sizes and more training steps compared to supervised learning. By combining these findings, we are able to considerably outperform previous methods for self-supervised and semi-supervised learning on ImageNet. A linear classifier trained on self-supervised representations learned by SimCLR achieves 76.5% top-1 accuracy, which is a 7% relative improvement over previous state-of-the-art, matching the performance of a supervised ResNet-50. When fine-tuned on only 1% of the labels, we achieve 85.8% top-5 accuracy, outperforming AlexNet with 100X fewer labels.

0
17
下载
预览

NeurIPS 2019(Neural Information Processing Systems)将在12月8日-14日在加拿大温哥华举行。NeurIPS 是全球最受瞩目的AI、机器学习顶级学术会议之一,每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究。今天小编整理了表示学习相关论文。

  1. Self-attention with Functional Time Representation Learning

作者: Da Xu, Chuanwei Ruan, Evren Korpeoglu, Sushant Kumar, Kannan Achan

摘要:在自然语言处理中,具有self-attention的序列模型已经取得了很好的效果。self-attention具有模型灵活性、计算复杂性和可解释性等优点,正逐渐成为事件序列模型的重要组成部分。然而,像大多数其他的序列模型一样,自我注意并不能解释事件之间的时间跨度,因此它捕捉的是序列信号而不是时间模式。在不依赖递归网络结构的情况下,self-attention通过位置编码来识别事件的顺序。为了弥补时间无关和时间相关事件序列建模之间的差距,我们引入了一个嵌入时间跨度到高维空间的功能特征映射。通过构造相关的平移不变时间核函数,揭示了经典函数函数分析结果下特征图的函数形式,即Bochner定理和Mercer定理。我们提出了几个模型来学习函数性时间表示以及与事件表示的交互。这些方法是在各种连续时间事件序列预测任务下对真实数据集进行评估的。实验结果表明,所提出的方法与基线模型相比,具有更好的性能,同时也能捕获有用的时间-事件交互。
论文链接:
https://papers.nips.cc/paper/9720-self-attention-with-functional-time-representation-learning

  1. Large Scale Adversarial Representation Learning

作者:Jeff Donahue, Karen Simonyan

摘要:对抗训练生成模型(GANs)最近取得了引人注目的图像合成结果。GANs在无监督的表现学习中尽管在早期取得了的成功,但是它们已经被基于自监督的方法所取代。在这项工作中,我们证明了图像生成质量的进步转化为极大地改进了表示学习性能。我们的方法BigBiGAN建立在最先进的BigGAN模型之上,通过添加编码器和修改鉴别器将其扩展到表示学习。我们广泛地评估了这些BigBiGAN模型的表示学习和生成能力,证明了这些基于生成的模型在ImageNet的无监督表示学习方面达到了最新的水平,并在无条件生成图像方面取得了令人信服的结果。

论文链接: https://papers.nips.cc/paper/9240-large-scale-adversarial-representation-learning

  1. Rethinking Kernel Methods for Node Representation Learning on Graphs

作者:Yu Tian, Long Zhao, Xi Peng, Dimitris Metaxas

摘要:图核是度量图相似性的核心方法,是图分类的标准工具。然而,作为与图表示学习相关的一个问题,使用核方法进行节点分类仍然是不适定的,目前最先进的方法大多基于启发式。在这里,我们提出了一个新的基于核的节点分类理论框架,它可以弥补这两个图上表示学习问题之间的差距。我们的方法是由图核方法驱动的,但是扩展到学习捕获图中结构信息的节点表示。我们从理论上证明了我们的公式与任何半正定核一样强大。为了有效地学习内核,我们提出了一种新的节点特征聚合机制和在训练阶段使用的数据驱动的相似度度量。更重要的是,我们的框架是灵活的,并补充了其他基于图形的深度学习模型,如图卷积网络(GCNs)。我们在一些标准节点分类基准上对我们的方法进行了经验评估,并证明我们的模型设置了最新的技术状态。
论文链接: https://papers.nips.cc/paper/9342-rethinking-kernel-methods-for-node-representation-learning-on-graphs

  1. Continual Unsupervised Representation Learning

作者:Dushyant Rao, Francesco Visin, Andrei Rusu, Razvan Pascanu, Yee Whye Teh, Raia Hadsell

摘要:持续学习旨在提高现代学习系统处理非平稳分布的能力,通常是通过尝试按顺序学习一系列任务。该领域的现有技术主要考虑监督或强化学习任务,并经常假设对任务标签和边界有充分的认识。在这项工作中,我们提出了一种方法(CURL)来处理一个更普遍的问题,我们称之为无监督连续学习。重点是在不了解任务身份的情况下学习表示,我们将探索任务之间的突然变化、从一个任务到另一个任务的平稳过渡,甚至是数据重组时的场景。提出的方法直接在模型中执行任务推断,能够在其生命周期内动态扩展以捕获新概念,并结合其他基于排练的技术来处理灾难性遗忘。我们用MNIST和Omniglot演示了CURL在无监督学习环境中的有效性,在这种环境中,没有标签可以确保没有关于任务的信息泄露。此外,与现有技术相比,我们在i.i.中表现出了较强的性能。在i.i.d的设置下,或将该技术应用于监督任务(如渐进式课堂学习)时。 论文链接: https://papers.nips.cc/paper/8981-continual-unsupervised-representation-learning

  1. Unsupervised Scalable Representation Learning for Multivariate Time Series

作者: Jean-Yves Franceschi, Aymeric Dieuleveut, Martin Jaggi

摘要:由于时间序列在实际应用中具有高度可变的长度和稀疏标记,因此对机器学习算法而言,时间序列是一种具有挑战性的数据类型。在本文中,我们提出了一种学习时间序列通用嵌入的无监督方法来解决这一问题。与以前的工作不同,它的长度是可伸缩的,我们通过深入实验和比较来展示学习表示的质量、可移植性和实用性。为此,我们将基于因果扩张卷积的编码器与基于时间负采样的新三重态损耗相结合,获得了可变长度和多元时间序列的通用表示。
论文链接: https://papers.nips.cc/paper/8713-unsupervised-scalable-representation-learning-for-multivariate-time-series

  1. A Refined Margin Distribution Analysis for Forest Representation Learning

作者:Shen-Huan Lyu, Liang Yang, Zhi-Hua Zhou

摘要:在本文中,我们将森林表示学习方法casForest作为一个加法模型,并证明当与边际标准差相对于边际均值的边际比率足够小时,泛化误差可以以O(ln m/m)为界。这激励我们优化比例。为此,我们设计了一种边际分布的权重调整方法,使深林模型的边际比较小。实验验证了边缘分布与泛化性能之间的关系。我们注意到,本研究从边缘理论的角度对casForest提供了一个新的理解,并进一步指导了逐层的森林表示学习。

论文链接: https://papers.nips.cc/paper/8791-a-refined-margin-distribution-analysis-for-forest-representation-learning

  1. Adversarial Fisher Vectors for Unsupervised Representation Learning

作者:Shuangfei Zhai, Walter Talbott, Carlos Guestrin, Joshua Susskind

摘要:我们通过基于深度能量的模型(EBMs)来研究生成对抗网络(GANs),目的是利用从这个公式推导出的密度模型。与传统的鉴别器在达到收敛时学习一个常数函数的观点不同,这里我们证明了它可以为后续的任务提供有用的信息,例如分类的特征提取。具体来说,在EBM公式中,鉴别器学习一个非归一化密度函数(即,负能量项),它描述了数据流形。我们建议通过从EBM中获得相应的Fisher分数和Fisher信息来评估生成器和鉴别器。我们证明了通过假设生成的示例形成了对学习密度的估计,费雪信息和归一化费雪向量都很容易计算。我们还证明了我们能够推导出例子之间和例子集之间的距离度量。我们进行的实验表明,在分类和感知相似性任务中,甘氏神经网络诱导的费雪向量作为无监督特征提取器表现出了竞争力。代码地址:https://github.com/apple/ml-afv。
论文链接: https://papers.nips.cc/paper/9295-adversarial-fisher-vectors-for-unsupervised-representation-learning

  1. vGraph: A Generative Model for Joint Community Detection and Node Representation Learning

作者:Fan-Yun Sun, Meng Qu, Jordan Hoffmann, Chin-Wei Huang, Jian Tang

摘要:本文重点研究了图数据分析的两个基本任务:社区检测和节点表示学习,它们分别捕获图数据的全局结构和局部结构。在现有的文献中,这两个任务通常是独立研究的,但实际上是高度相关的。提出了一种协作学习社区成员和节点表示的概率生成模型vGraph。具体地说,我们假设每个节点都可以表示为群落的混合,并且每个群落都定义为节点上的多项分布。混合系数和群落分布均由节点和群落的低维表示参数化。我们设计了一种有效的变分推理算法,通过反向传播进行优化,使相邻节点的社区成员关系在潜在空间中相似。在多个真实图上的实验结果表明,vGraph在社区检测和节点表示学习两方面都非常有效,在两方面都优于许多有竞争力的基线。结果表明,该vGraph框架具有良好的灵活性,可以方便地扩展到层次社区的检测。
论文链接: https://papers.nips.cc/paper/8342-vgraph-a-generative-model-for-joint-community-detection-and-node-representation-learning

成为VIP会员查看完整内容
0
47

论文题目: A Divergence Minimization Perspective on Imitation Learning Methods

论文摘要: 在许多情况下,希望通过专家演示的学习或引导来学习决策和控制策略。这种模仿学习(IL)框架下最常见的方法是行为克隆(BC)和逆强化学习(IRL)。IRL的最新方法已经证明了可以通过访问非常有限的一组演示来学习有效策略的能力,一种情况BC方法经常失败。不幸的是,由于变化的多种因素,直接比较这些方法并不能提供足够的直觉来理解这种性能差异。在这项工作中,我们提出了基于散度最小化的IL算法的统一概率观点。我们提出了f-MAX,这是AIRL的一种泛化概括,它是一种最新的IRL方法。 f-MAX使我们能够关联以前的IRL方法,例如GAIL和AIRL,并了解它们的算法特性。通过散度最小化的镜头,我们可以找出BC和成功的IRL方法之间的差异,并在模拟的高维连续控制域上经验地评估这些细微差别。我们的发现最终确定了IRL的州际匹配目标是其卓越绩效的最大贡献。最后,我们将对IL方法的新理解应用于状态-边际匹配的问题,其中我们证明了在模拟推臂环境中,我们可以使用简单的手动指定状态分布来教给代理各种行为,而无需奖励函数或专家。

论文作者: Richard Zemel ,Vector人工智能研究所的联合创始人兼研究总监,多伦多大学机器学习工业研究主席,加拿大高级研究所高级研究员,研究兴趣包括:图像和文本的生成模型,基于图的机器学习,少量数据学习,词典,单词列表和公平性。

github链接: https://github.com/KamyarGh/rl_swiss/blob/master/reproducing/fmax_paper.md

成为VIP会员查看完整内容
0
13

While supervised learning has enabled great progress in many applications, unsupervised learning has not seen such widespread adoption, and remains an important and challenging endeavor for artificial intelligence. In this work, we propose a universal unsupervised learning approach to extract useful representations from high-dimensional data, which we call Contrastive Predictive Coding. The key insight of our model is to learn such representations by predicting the future in latent space by using powerful autoregressive models. We use a probabilistic contrastive loss which induces the latent space to capture information that is maximally useful to predict future samples. It also makes the model tractable by using negative sampling. While most prior work has focused on evaluating representations for a particular modality, we demonstrate that our approach is able to learn useful representations achieving strong performance on four distinct domains: speech, images, text and reinforcement learning in 3D environments.

0
5
下载
预览

Meta-learning is a powerful tool that builds on multi-task learning to learn how to quickly adapt a model to new tasks. In the context of reinforcement learning, meta-learning algorithms can acquire reinforcement learning procedures to solve new problems more efficiently by meta-learning prior tasks. The performance of meta-learning algorithms critically depends on the tasks available for meta-training: in the same way that supervised learning algorithms generalize best to test points drawn from the same distribution as the training points, meta-learning methods generalize best to tasks from the same distribution as the meta-training tasks. In effect, meta-reinforcement learning offloads the design burden from algorithm design to task design. If we can automate the process of task design as well, we can devise a meta-learning algorithm that is truly automated. In this work, we take a step in this direction, proposing a family of unsupervised meta-learning algorithms for reinforcement learning. We describe a general recipe for unsupervised meta-reinforcement learning, and describe an effective instantiation of this approach based on a recently proposed unsupervised exploration technique and model-agnostic meta-learning. We also discuss practical and conceptual considerations for developing unsupervised meta-learning methods. Our experimental results demonstrate that unsupervised meta-reinforcement learning effectively acquires accelerated reinforcement learning procedures without the need for manual task design, significantly exceeds the performance of learning from scratch, and even matches performance of meta-learning methods that use hand-specified task distributions.

0
6
下载
预览
小贴士
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
7+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
28+阅读 · 2019年1月3日
RL 真经
CreateAMind
4+阅读 · 2018年12月28日
OpenAI强化学习实战
炼数成金订阅号
6+阅读 · 2018年5月14日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
8+阅读 · 2017年12月10日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
5+阅读 · 2017年11月4日
强化学习族谱
CreateAMind
11+阅读 · 2017年8月2日
相关论文
Simple and effective localized attribute representations for zero-shot learning
Shiqi Yang,Kai Wang,Luis Herranz,Joost van de Weijer
4+阅读 · 2020年6月10日
Aravind Srinivas,Michael Laskin,Pieter Abbeel
11+阅读 · 2020年4月28日
Simple Multi-Resolution Representation Learning for Human Pose Estimation
Trung Q. Tran,Giang V. Nguyen,Daeyoung Kim
5+阅读 · 2020年4月14日
Shangwen Lv,Yuechen Wang,Daya Guo,Duyu Tang,Nan Duan,Fuqing Zhu,Ming Gong,Linjun Shou,Ryan Ma,Daxin Jiang,Guihong Cao,Ming Zhou,Songlin Hu
9+阅读 · 2020年4月12日
Ting Chen,Simon Kornblith,Mohammad Norouzi,Geoffrey Hinton
17+阅读 · 2020年2月13日
Continual Unsupervised Representation Learning
Dushyant Rao,Francesco Visin,Andrei A. Rusu,Yee Whye Teh,Razvan Pascanu,Raia Hadsell
5+阅读 · 2019年10月31日
Aaron van den Oord,Yazhe Li,Oriol Vinyals
5+阅读 · 2019年1月22日
Antoine J. -P. Tixier
10+阅读 · 2018年8月30日
Relational Deep Reinforcement Learning
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
5+阅读 · 2018年6月28日
Abhishek Gupta,Benjamin Eysenbach,Chelsea Finn,Sergey Levine
6+阅读 · 2018年6月12日
Top