一文览尽 Facebook ICML 2019 成果集锦

2019 年 6 月 14 日 AI研习社

ICML 2019正如火如荼举办中,雷锋字幕组成员为你编译整理了 Facebook ICML 2019 成果集锦,供大家查看学习。

翻译 | 汪鹏、敬爱的勇哥

编辑 | 王立鱼

原文链接:

https://ai.facebook.com/blog/facebook-research-at-icml-2019/

注:本文的相关链接请访问文末【阅读原文】

本周,来自于世界各地的机器学习专家将齐聚长滩(Long Beach),参加2019年国际机器学习会议(ICML 2019)。在本次会议中,Facebook的相关研究将会在口头报告和小组海报会议等多个场合上展示。

我们的研究人员和工程师也将参与本周的其他活动,包括从生成建模、机器人和人工智能中基于模型的推理、自主学习等多个研讨会。作为我们多元化领域承诺的一部分,Facebook AI还联合赞助了ICML的另外两项活动:机器学习会议中的女士晚宴(WiML)和人工智能研讨会中的Latinx。

对于那些参加ICML的人,请一定要来参观Facebook的研究展位,了解更多关于我们正在做的事情。

  ICML上展示的Facebook研究成果

A Fully Differentiable Beam Search Decoder

  • 作者:Ronan Collobert, Awni Hannun, Gabriel Synnaeve

  • 论文地址:https://arxiv.org/abs/1902.06022

本文引入了一种全新的完全可微的集束搜索解码器(beam search decoder),它可以通过在训练时进行优化进而提高推理过程。我们的解码器允许我们将不同粒度的模型(例如,声学模型和语言模型)组合起来。当目标序列没有与输入序列对齐时,可以考虑两者之间所有可能的对齐。我们通过将其应用于语音识别,联合训练声学和单词级语言模型来演示我们的方法。该系统是端到端的,从字级转录到整个体系结构都有梯度。最新的研究表明,基于注意力机制的深层神经网络可以从最终转录开始训练一个声学模型,同时隐式学习一个语言模型。相反,我们证明了有可能用一个显式的、可能预先训练过的语言模型来鉴别地训练一个声学模型。

AdaGrad Stepsizes: Sharp Convergence Over Non-convex Landscapes

  • 作者:Rachel Ward, XiaoXia Wu, Leon Bottou

  • 论文地址:https://arxiv.org/abs/1806.01811

如AdaGrad及其各种变体的自适应梯度方法,根据即时计算的梯度,实时更新随机梯度下降过程中的步长;该方法具有鲁棒的收敛性,无需对步长等参数进行微调,在大规模优化中得到了广泛的应用。然而,迄今为止AdaGrad的理论保证是要求在线优化和凸优化。我们为AdaGrad在光滑、非凸情况下的收敛性提供了强有力的理论证明,进而填补了这一差距。我们证明了规范版本的AdaGrad(AdaGrad-Norm)在随机的设置下,会以O (log(N)/√N)的速率收敛到一个固定点,在批量(非随机)设置下,会以最优O(1/N)的速率收敛到一个固定点——在这个意义上,我们的收敛保证是“尖锐的”。特别是,我们的理论结果和大量的数值实验都表明,AdaGrad-Norm对梯度上未知的Lipschitz常数和随机强度的噪声都具有很强的鲁棒性。  

Deep Counterfactual Regret Minimization

  • 作者:Noam Brown, Adam Lerer, Sam Gross, Tuomas Sandholm

  • 论文地址:https://arxiv.org/abs/1811.00164

虚拟遗憾最小化算法(Counterfactual Regret Minimization,CFR)是解决大型不完全信息博弈的主要框架。通过迭代遍历博弈树,它收敛于一个均衡。为了处理非常大型的博弈,通常在运行CFR之前进行抽象。用表状CFR求解抽象博弈,并将其解映射回完整博弈。这个过程可能会有问题,因为抽象通常是手工的和领域限制的,抽象算法可能会遗漏博弈中重要的战略细微差别,而且存在鸡生蛋还是蛋生鸡的问题,因为确定一个好的抽象需要了解博弈的均衡。本文介绍了一种深度虚拟遗憾最小化算法,该算法不需要抽象,而是使用深度神经网络来逼近整个博弈过程中的行为。我们证明了该策略是有原则的,并在大型扑克游戏中取得了良好的表现。这是第一个在大型博弈中获得成功的非表状变量CFR。 

Discovering Context Effects from Raw Choice Data

  • 作者:Arjun Seshadri, Alex Peysakhovich, Johan Ugander

  • 论文地址:https://arxiv.org/abs/1902.03266

偏好学习中的许多应用都假设决策来自于稳定效用函数的最大化。然而,大量的实验文献表明,个人的选择和判断可能受到其所处环境“无关”方面的影响。此类上下文的一个重要类是选择集的组成。在这项工作中,我们的目标是从原始选择数据中发现此类选择集的作用。我们引入了多项Logit (Multinomial Logit,MNL)模型的一个扩展,称为上下文相关随机实用模型(context dependent random utility model, CDM),它允许特定的选择集效应。我们证明CDM可以被认为是一般选择系统的二阶近似,可以用最大似然最优地推导出来,而且重要的是,它很容易解释。我们将CDM应用于真实和模拟的选择数据,对选择集影响的存在进行有原则的探索性分析。  

ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero

  • 作者:Yuandong Tian, Jerry Ma, Qucheng Gong, Shubho Sengupta, Zhuoyuan Chen, James Pinkerton, Larry Zitnick

  • 论文地址:https://arxiv.org/abs/1902.04522

AlphaGo、AlphaGo Zero和AlphaZero系列算法是深度强化学习能力的显著体现,在复杂的围棋游戏中有过人的表现,并在后续的版本中逐步增强了自主性。然而,科研界对这些有前途方法的理解和可用性方面仍然存在许多障碍。为了阐明未解之谜并促进未来的研究,我们提出ELF OpenGo,这是AlphaZero算法的一个开源重现。ELF OpenGo是第一个开源的围棋人工智能,令人信服地展示了超人的表现,在与全球顶级专业人士的比赛中取得了完美的成绩(20:0)。我们运用ELF OpenGo进行了广泛的消融研究(ablation studies),并在模型训练和游戏玩法推断过程中发现和分析了许多有趣的现象。我们的代码、模型、自博弈数据集和辅助数据都是公开的。

First-Order Adversarial Vulnerability of Neural Networks and Input Dimension

  • 作者:Carl-Johann Simon-Gabriel, Yann Ollivier, Bernhard Scholkopf, Leon Bottou, David Lopez-Paz

  • 论文地址:https://arxiv.org/abs/1802.01421

在过去的几年里,很多证据表明神经网络容易受到对抗图像的攻击:图像中有针对性但不易察觉的扰动会导致截然不同的预测结果。我们发现,当把对抗脆弱性视为有输入的函数时,它会随着训练目标的梯度而增加。令人惊讶的是,该漏洞并不依赖于具体的网络拓扑结构:对于许多标准的网络架构,我们证明了在初始化时,这些梯度的L1正则随着输入维度的平方根增长,使得网络随着图像尺寸的增长变得越来越脆弱。经验表明,这种维度依赖现象在常规训练或鲁棒训练之后仍然存在,但随着更高维的正则化而减弱。  

Garbage In, Reward Out: Bootstrapping Exploration in Multi-Armed Bandits

  • 作者:Branislav Kveton, Csaba Szepesvari, Sharan Vaswani, Zheng Wen, Mohammad Ghavamzadeh, Tor Lattimore

  • 论文地址:https://arxiv.org/abs/1811.05154

我们提出了一种bandit算法,通过随机化其历史奖励来实现。 具体来说,它在具有伪奖励的历史的非参数自举样本中拉动具有最高平均奖励的手臂。 我们设计伪奖励,使得其自助均值具有足够高的概率是乐观的。 我们称之为Giro算法,它代表“垃圾进,奖励出”。我们在伯努利bandit中分析Giro,并在其n轮遗憾中得出O(K∆−1 log n) 界限,其中Δ是 最佳和最佳次优武器的预期奖励,以及武器的数量。 我们的勘探设计的主要优点是它很容易推广到结构化问题。 为了表明这一点,我们提出了具有任意奖励泛化模型的上下文Giro。 我们在多个合成和现实问题上评估Giro及其上下文变体,并观察它表现良好。

GDPP: Learning Diverse Generations Using Determinental Point Processes

  • 作者:Mohamed Elfeki, Camille Couprie, Morgane Rivière, Mohamed Elhoseiny

  • 论文地址:https://arxiv.org/abs/1812.00068

生成模型已被证明是表示高维概率分布和生成逼真图像的出色工具。生成模型的一个基本特征是能够产生多模态输出。然而,在训练过程中,它们往往容易受到模式崩溃的影响,即模型在将输入噪声映射到真实数据分布的少数模式时受到了限制。本文从行列式点过程(Determinantal Point Process,DPP)中得到启发,实现了一种生成模型,在生成高质量样本的同时,减少模式崩溃。DPP是一种优雅的概率度量方法,用于对子集内的负相关性建模,从而量化其多样性。我们使用DPP内核对真实数据和合成数据的多样性进行建模。然后,我们设计了一个代惩罚项,鼓励生成器合成与实际数据具有类似多样性的数据。与以往使用额外可训练参数或复杂训练范例的先进生成模型相比,我们的方法没有改变原始的训练方法。我们的生成式DPP方法嵌入了对抗性训练和变分自动编码器,在各种合成数据和自然图像数据集上显示出一致的抗模式崩溃能力,同时在数据效率、收敛时间和生成质量方面优于最先进的方法。最终代码将会开源。  

GEOMetrics: Exploiting Geometric Structure for Graph-Encoded Objects

  • 作者:Edward J. Smith, Scott Fujimoto, Adriana Romero, Dave Meger

  • 论文地址:https://arxiv.org/abs/1901.11461

网格模型是一种很有效的三维物体结构编码方法。目前的网格重建系统通过一系列的图卷积来预测一个预定图的均匀分布顶点位置,从而导致性能或分辨率的降低。在本文中,我们认为几何对象的图形表示允许额外的结构,这应该用于增强重建。因此,我们通过引入(1)一个保存顶点信息的图形卷积更新,提出了一个充分利用图形编码对象几何结构优点的系统;(2)允许细节呈现的自适应分裂启发式;(3)既在顶点定义的局部曲面上优化,又在网格定义的全局结构上优化的训练目标。我们通过从ShapeNet数据集图像中重建三维对象的任务来评估提出的方法,在此过程中,我们在视觉和数值上都获得了最好的效果,同时,这种通过生成自适应网格的方法具有更小的空间需求。

Making Deep Q Learning Methods Robust to Time Discretization

  • 作者:Corentin Tallec, Léonard Blier, Yann Ollivier

  • 论文地址:https://arxiv.org/abs/1901.09732

尽管取得了显着的成功,但深度强化学习(DRL)对于超参数化,实施细节或小环境变化并不稳健(Henderson等,2017,Zhang等,2018)。 克服这种敏感性是使DRL适用于现实世界问题的关键。 在本文中,我们将近连续时间环境中对时间离散化的敏感性识别为关键因素;这包括例如改变每秒的帧数或控制器的动作频率。 根据经验,我们发现基于Q学习的方法,如Deep Q-learning(Mnih et al,2015)和Deep Deterministic Policy Gradient(Lillicrap et al,2015),都是以较小的时间序列上崩溃。 在形式上,我们证明Q-learning不是连续存在的。 我们详细介绍了构建非策略RL算法的原理方法,该算法在很宽的时间离散度范围内产生类似的性能,并根据经验证实了这种鲁棒性。

Manifold Mixup: Learning Better Representations by Interpolating Hidden States

  • 作者:Vikas Verma, Alex Lamb, Christopher Beckham, Amir Najafi Sharif, Ioannis Mitliagkas, David Lopez-Paz, Yoshua Bengio

  • 论文地址:https://arxiv.org/abs/1806.05236

深度神经网络在学习训练数据方面表现出色,但在稍微不同的测试示例上进行评估时,往往会提供不正确的预测。这包括分布转移,异常值和对抗性示例。为了解决这些问题,我们提出了Manifold Mixup,这是一个简单的正则化器,它鼓励神经网络对隐藏表示的插值进行较少的自信预测。 Manifold Mixup利用语义插值作为附加训练信号,在多个表示级别获得具有更平滑决策边界的神经网络。因此,使用Manifold Mixup训练的神经网络可以学习更平滑的类表示,即方差方向更少。我们证明了为什么在理想条件下发生这种扁平化的理论,在实际情况下凭经验验证,并将其与之前的信息理论和泛化工作联系起来。尽管没有进行重大计算并且在几行代码中实现,但Manifold Mixup改进了监督学习中的baseline,单步对抗攻击的稳健性以及测试对数可能性。

Mixture Models for Diverse Machine Translation: Tricks of the Trade

  • 作者:Tianxiao Shen, Myle Ott, Michael Auli, Marc'Aurelio Ranzato

  • 论文地址:https://arxiv.org/abs/1902.07816

通过EM(Expectation Maximization)训练的混合模型是机器学习中最简单,最广泛使用和易于理解的潜变量模型。令人惊讶的是,这些模型在诸如机器翻译之类的文本生成应用中几乎没有被使用过。原则上,它们提供了一个潜在的变量来控制生成并产生一系列不同的假设。然而,在实践中,混合模型易于退化—通常只有一个组件被训练或者潜在变量被简单地忽略。我们发现,在责任计算中禁用噪声对于成功培训至关重要。此外,参数化,先验分布,硬软EM和在线与离线分配的设计选择可以显着影响模型性能。我们开发了一个评估协议,以评估多个参考的质量和多样性,并提供了几个混合模型变体的广泛实证研究。我们的分析表明,与变分模型和各种解码方法相比,某些类型的混合模型更加稳健,并提供了翻译质量和多样性之间的最佳平衡。

Multi-modal Content Localization in Videos Using Weak Supervision

  • 作者:Gourab Kundu, Prahal Arora, Ferdi Adeputra, Polina Kuznetsova, Daniel McKinnon, Michelle Cheung, Larry Anazia, Geoffrey Zweig

  • 论文地址:https://research.fb.com/publications/multi-modal-content-localization-in-videos-using-weak-supervision/

识别包含与类别或任务相关的内容的视频中的时间片段是一个困难但有趣的问题。 这适用于细粒度视频索引和检索。 这个问题的部分困难来自缺乏监督,因为包含感兴趣内容的本地化片段的大规模注释非常耗费时间。 在本文中,我们建议使用分配给整个视频的类别作为对我们模型的弱监督。 使用这种弱监督,我们的模型学习联合视频级别分类和与视频类别相关的内容的本地化。 这可以被认为是以视频的相关区域的形式提供分类标签和解释。 对大规模数据集的大量实验表明,我们的模型可以在没有任何直接监督的情况下实现良好的定位性能,并且可以组合来自多种形式的信号,如语音和视觉。

Non-Monotonic Sequential Text Generation

  • 作者:Sean Welleck, Kianté Brantley, Hal Daumé III, Kyunghyun Cho

  • 论文地址:https://arxiv.org/abs/1902.02192

标准顺序生成方法采用预先指定的生成顺序,例如从左到右生成单词的文本生成方法。 在这项工作中,我们提出了一个培训文本生成模型的框架,该模型以非单调的顺序运行;模型直接学习良好的样本,没有任何额外的注释。 我们的框架通过在任意位置生成一个单词,然后在其左侧递归生成单词,然后在其右侧生成单词,生成一个二叉树。 学习被定义为模仿学习,包括从模仿神谕到强化自身偏好的监督方法。 实验结果表明,使用所提出的方法,可以学习生成文本的策略,而无需预先指定生成顺序,同时通过传统的从左到右生成实现竞争性能。

Probabilistic Neural-Symbolic Models for Interpretable Visual Question Answering

  • 作者:Ramakrishna Vedantam, Karan Desai, Stefan Lee, Marcus Rohrbach, Dhruv Batra, Devi Parikh

  • 论文地址:https://arxiv.org/abs/1902.07864

我们提出了一类新的概率神经符号模型,它将符号函数程序作为潜在的随机变量。 在视觉问题回答的背景下实例化,我们的概率公式拥有超过VQA的先前神经符号模型的两个关键概念优势。 首先,我们的模型生成的程序更容易理解,同时需要更少的教学示例。 其次,我们证明了,人们可以对模型提出反事实情景,并探讨其对程序的观念,这些程序可以在给定图像的情况下产生特定答案。 我们对CLEVR和SHAPES数据集的结果验证了我们的假设,表明该模型即使在低数据状态下也能获得更好的程序(和答案)预测准确度,并且允许人们探索所执行推理的一致性和一致性。

Self-Supervised Exploration via Disagreement

  • 作者:Deepak Pathak, Dhiraj Gandhi, Abhinav Gupta

  • 论文地址:https://arxiv.org/abs/1906.04161

探索用于感知运动控制的基于模型和无模型的学习方法,一直是一个长期存在的问题。近年来在无噪声,非随机领域(如视频游戏和模拟)中取得了重大进展。然而,当存在随机动态时,大多数当前方案都会卡住。在本文中,我们从主动学习文献的工作中提出了一个探索的表述。具体来说,我们训练动态模型的集合并激励代理人以最大化这些集合的分歧或变化。我们证明了这个公式在非随机情景中与其他公式一样有效,并且能够在具有随机动力学的情景中更好地进行探索。此外,我们表明可以利用此目标来执行可区分的策略优化。这导致了样本有效的勘探政策。我们在大量标准环境中展示了实验,以证明这种方法的有效性。此外,我们在真实机器人上实现我们的探索算法,该机器人可以学会完全从头开始与物体交互。

Separating Value Functions Across Time-Scales

  • 作者:Joshua Romoff, Peter Henderson, Ahmed Touati, Emma Brunskill, Joelle Pineau, Yann Ollivier

  • 论文地址:https://arxiv.org/abs/1902.01883

在许多有限时间的强化学习(RL)设置中,需要优化未实现的返回值—例如Atari等设置,目标是在长期保持活力的同时收集最多的点数。然而,用这个目标学习数学可能很困难(甚至难以处理)。因此,时间贴现通常用于优化较短的有效计划范围。这是以可能使优化目标偏离未折现目标为代价的。在这种偏差是不可接受的情况下—系统必须以更高的折扣优化更长的视野—价值函数近似值的目标可能会增加,导致学习上的困难。我们提出了时间差(TD)学习的扩展,我们称之为TD(Δ),它基于具有较小折扣因子的值函数之间的差异将值函数分解为一系列分量。将较长的水平值函数分离为这些组件在可伸缩性和性能方面具有有用的属性。我们讨论了这些属性,并在某些情况下显示了对标准TD学习的理论和实证改进。

Stochastic Gradient Push for Distributed Deep Learning

  • 作者:Mahmoud Assran, Nicolas Loizou, Nicolas Ballas, Mike Rabbat

  • 论文地址:https://arxiv.org/abs/1811.10792

分布式数据并行算法旨在通过并行化跨多个节点的大型小批量梯度更新的计算来加速深度神经网络的训练。 使用精确分布式平均(例如,通过ALLREDUCE)同步节点的方法对分离器和通信延迟敏感。 PUSHSUM算法对这些问题很稳健,但只执行近似分布式平均。 本文研究了随机梯度推导(SGP),它将PUSHSUM与随机梯度更新相结合。 我们证明SGP以与SGD相同的亚线性速率收敛到平滑非凸目标的平稳点,并且所有节点都达成共识。 我们凭经验验证了SGP在图像分类(ResNet-50,ImageNet)和机器翻译(Transformer,WMT'16 EnDe)工作负载方面的性能。 我们的代码将在之后公开发布。

TarMAC: Targeted Multi-Agent Communication

  • 作者:Abhishek Das, Théophile Gervet, Joshua Romoff, Dhruv Batra, Devi Parikh, Mike Rabbat, Joelle Pineau

  • 论文地址:https://arxiv.org/abs/1810.11187

我们为多智能体强化学习提出了一种有针对性的通信体系结构,其中智能体在部分可观察的环境中执行协作任务时学习要发送的消息以及向谁发送消息。此目标行为仅从下游任务特定奖励中学习,无需任何通信监督。我们还通过多轮通信方法对此进行了补充,其中智能体在环境中采取行动之前通过多轮通信进行协调。我们评估我们针对各种各样的协作多智能体任务的方法,这些任务具有不同的困难,具有不同数量的代理,在各种环境中,从形状和模拟交通路口的2D网格布局到3D室内环境,并展示其优势有针对性的和多轮的沟通。此外,我们表明智能体学习的有针对性的沟通策略是可解释和直观的。最后,我们展示了我们的架构可以轻松扩展到混合和竞争环境,从而导致与最新的最先进方法相比,性能和样本复杂性得到改善。

Trainable Decoding of Sets of Sequences for Neural Sequence Models

  • 作者:Ashwin Vijayakumar, Peter Anderson, Stefan Lee, Dhruv Batra

  • 论文地址:http://proceedings.mlr.press/v97/kalyan19a.html

许多序列预测任务允许多个正确的输出,因此,解码一组输出通常是有用的,这些输出最大化某些特定于任务的设置级别度量。然而,重新设计用于预测单个最佳输出的标准序列预测程序倾向于产生包含非常相似序列的集合;无法捕获输出空间的变化。为了解决这个问题,我们提出了∇BS,一种可训练的解码程序,它输出一组序列,根据度量值进行高度评估。我们的方法紧密集成了训练和解码阶段,并进一步优化了针对标准序列预测缺点的任务特定度量。此外,我们讨论了常用的集合级度量标准的权衡,并激发了一个新的集合级度量,自然地评估了“捕获输出空间中的变化”的概念。最后,我们在图像字幕任务上显示结果,发现我们的模型优于标准技术和自然消融技术。

Unreproducible Research Is Reproducible

  • 作者:Xavier Bouthillier, César Laurent, Pascal Vincent

  • 论文地址:http://proceedings.mlr.press/v97/bouthillier19a.html

标题中的明显矛盾是关于不同科学领域中可重复词的不同含义的文字游戏。我们暗示的是,不可重复的发现可以建立在可重复的方法之上。在不否认促进方法复制的重要性的同时,我们认为发现复制是科学探究的基本步骤。我们认为,对方法和数值结果的简单确定性再现性是值得赞扬的,不应该让我们忘记通过适当考虑差异的基本来源来确保经验结论和结果的可重复性是更重要。我们提供实验来举例说明在深度学习领域的模型评估中当前常见做法的脆弱性,表明即使结果可以再现,稍微不同的实验也不会支持这些发现。我们希望有助于澄清深度学习领域探索性和实证性研究之间的区别,并相信应该将更多的精力投入到我们社区的适当实证研究中。这项工作旨在促进使用更严格和多样化的方法。它不是试图强加新的方法论,也不是对探索性研究性质的批评。

White-box vs. Black-box: Bayes Optimal Strategies for Membership Inference

  • 作者:Alexandre Sablayrolles, Matthijs Douze, Yann Ollivier, Cordelia Schmid, Hervé Jegou

  • 论文地址:http://proceedings.mlr.press/v97/sablayrolles19a.html

在给定机器学习模型的样本和训练参数的情况下,成员推断确定样本是否是训练集的一部分。 在本文中,我们通过对参数分布的一些假设推导出成员推理的最优策略。 我们证明最优攻击仅依赖于丢失函数,因此黑盒攻击与白盒攻击一样好。 由于最优策略不易处理,我们提供了它的近似值导致了几种推理方法,并表明现有的隶属度推理方法是这种最优策略的粗略近似。 我们的攻击在各种环境中都优于最先进的技术,从简单的逻辑回归到更复杂的架构和数据集,如ResNet-101和ImageNet。

  ICMl 2019的其他活动

研讨会:Generative Modeling and Model-Based Reasoning for Robotics and AI

地址:https://sites.google.com/view/mbrl-icml2019

组织者:Aravind Rajeswaran, Emanuel Todorov, Igor Mordatch, William Agnew, Amy Zhang, Joelle Pineau, Michael Chang, Dumitru Erhan, Sergey Levine, Kimberly Stachenfeld, Marvin Zhang

特邀讲者:David Silver, Chelsea Finn, Byron Boots, Jessica Hamrick, Rob Fergus, Abhinav Gupta, Yann LeCun

研讨会: Identifying and Understanding Deep Learning Phenomena

地址:http://deep-phenomena.org/

组织者: Ari Morcos, Samy Bengio, Behnam Neyshabur, Ludwig Schmidt, Maithra Raghu, Hanie Sedghi, Kenji Hata, Ying Xiao, Ali Rahimi

研讨会: Multi-Task and Lifelong Reinforcement Learning

地址:https://sites.google.com/view/mtlrl

组织者: Sarath Chandar, Chelsea Finn, Abhishek Gupta, Khimya Khetarpal, Andrei Rusu, Shagun Sodhani, Amy Zhang

研讨会: Reinforcement Learning for Real Life

地址:https://sites.google.com/view/RL4RealLife

组织者: Alborz Geramifard, Lihong Li, Yuxi Li, Csaba Szepesvari, Tao Wang, Pieter Abbeel, Craig Boutilier, Emma Brunkskill, John Langford, David Silver, David Sontag

顾问: Kyunghyun Cho, Rob Fergus, Shie Mannor, Daniel J. Mankowitz, Doina Precup, Balaraman Ravindran, Tom Zahavy

研讨会: Self-Supervised Learning

地址:https://sites.google.com/view/self-supervised-icml2019

Speakers: Yann LeCun, Chelsea Finn, Andrew Zisserman, Alexei Efros, Jacob Devlin, Abhinav Gupta

想要继续查看该篇文章相关链接和参考文献?

点击底部【阅读原文】即可访问:

https://ai.yanxishe.com/page/TextTranslation/1818

滑动查看更多内容

每天进步一点点

扫码参与每日一题

赶紧来看看

CVPR 2019 NVIDIA 成果汇总

扫码查看

300篇 CVPR 2019 Oral 论文精选汇总

扫码查看

适用于 Python 的符号版俄罗斯方块

<<  滑动查看更多栏目  >>

 点击阅读原文,查看本文更多内容

登录查看更多
18

相关内容

[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
重磅资料! | 新鲜出炉 700 + ICML 2019 论文集合!
AI研习社
24+阅读 · 2019年6月14日
快讯 | Facebook开源语音识别工具包wav2letter
大数据文摘
6+阅读 · 2018年1月2日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
Arxiv
5+阅读 · 2018年5月28日
Arxiv
6+阅读 · 2018年3月12日
Arxiv
4+阅读 · 2018年1月29日
Arxiv
8+阅读 · 2018年1月25日
VIP会员
相关VIP内容
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
相关论文
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
Arxiv
5+阅读 · 2018年5月28日
Arxiv
6+阅读 · 2018年3月12日
Arxiv
4+阅读 · 2018年1月29日
Arxiv
8+阅读 · 2018年1月25日
Top
微信扫码咨询专知VIP会员