强化学习(RL)的一个主要挑战是在探索环境以收集信息和利用到目前为止观察到的样本来执行“好的”(近乎最佳的)行动之间进行权衡。在本研讨会中,我们将回顾在连续状态-动作空间中如何将探索技术与函数近似相结合。我们将特别关注探索机制与深度学习技术的整合。研讨会应提供足够的理论和算法背景,以了解现有的技术,并可能设计新的方法。在整个讲座中,我们将讨论开放性问题和未来可能的研究方向。

https://rl-vs.github.io/rlvs2021/exploration.html

成为VIP会员查看完整内容
0
30

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

强化学习(RL)方法的进展与挑战环境的发展密切相关,这些环境测试了当前方法的极限。虽然现有的RL环境要么足够复杂,要么基于快速模拟,但它们很少同时具备这两点。此外,RL的研究主要集中在可以接近白板的环境上,也就是说,不需要将任何领域或世界知识转移到模拟环境之外的代理。我将谈论《NetHack学习环境》(NLE),这是一个可扩展的、程序生成的、随机的、丰富的和具有挑战性的研究环境,基于流行的单人终端游戏《NetHack》。我们认为,《NetHack》足够复杂,能够推动对探索、规划、技能习得和语言条件下的RL等问题的长期研究,同时大大减少收集大量经验所需的计算资源。有趣的是,这款游戏甚至对人类玩家来说都是极具挑战性的,因为人类玩家通常需要多年时间才能第一次解决这一问题,他们通常会求助于外部自然语言知识资源,如《NetHack Wiki》,以提高自己的技能。在演讲的最后,我还将介绍我们最近在大规模文本知识源的条件作用方面的工作,以及这些技术如何为将来在更复杂、更真实的环境中实现高效的样本RL铺平道路。

https://nlp.stanford.edu/seminar/details/timrocktaschel.shtml

成为VIP会员查看完整内容
0
20

近年来,人工智能领域,在开发人工智能系统方面取得了巨大进展,这些系统可以从大量精心标记的数据中学习。这种监督学习范式在训练专门的模型方面性能极好,在它们训练的任务上往往能够获得极高的性能表现。

但不幸的是,仅靠监督学习,人工智能领域难以走远。

监督学习在构建更智能的通用模型上存在本质上的瓶颈,例如处理多任务问题,或者通过大量存在的无标签数据学习新技能等。实际上,我们不可能对世界上一切事物都做标注;即使可以标注,但数量也可能并不足够,例如低资源语言翻译任务。

如果人工智能系统能够在训练数据集之外,对现实世界能够有更深入、更细致的理解,显然它们将更有用,最终也将使人工智能更接近人类层面的智能。

人类婴儿学习世界运作,主要是通过观察。我们会通过学习物体的持久性、重力等概念,从而形成关于世界上物体的广义预测模型。在随后的人生里,我们不断观察世界,然后对它进行作用,然而再观察作用的效果等等,通过反复尝试,从而建立假设,解释我们的行动如何能够改变我们的环境。

一种有效的假设是,人类和动物的生物智能,主要的成分是由关于世界的普遍知识或常识构成的,这种常识在生物智能中会被默认为自然而存在的背景。但对于人工智能来说,如何构建这种常识却一直是一个开放的挑战难题。在某种程度上,常识正是人工智能的暗物质。

常识可以帮助人们学习新技能,而无需为每项任务做大量的监督训练。

例如,我们只需要给小孩子看几张奶牛的图画,他们以后便可以轻松地识别出任何奶牛。相比之下,经过监督学习训练的人工智能系统,则需要许多奶牛的标注图像,即使这样,训练出的模型在一些特殊情况下,依然无法做出准确判断。

人类通过 20 个小时的练习,便能够学会驾驶汽车,但人类司机数千小时的数据却无法训练出一个很好的自动驾驶系统。

答案很简单:人类借助了他们以前获得的关于世界如何运作的背景知识。

我们如何让机器也能这样做呢?

我们认为,自我监督学习(self-supervised learning)是建立这种背景知识和近似人工智能系统中一种常识的最有前途的方法之一。

自我监督学习使人工智能系统能够从数量级更大的数据中学习,这对于识别和理解世界更微妙、更不常见的表示模式很重要。

长期以来,自我监督学习在推进自然语言处理(NLP)领域取得了巨大成功,包括 Collobert-Weston 2008 model,Word2Vec,GloVE,fastText 以及最近的BERT,RoBERTa,XLM-R等。通过这些方法训练的系统,会比以监督学习的方式训练的系统,性能要高得多。

我们最新的研究项目 SEER 利用 SwAV 和其他方法,在10亿张随机的未标记图像上预训练了一个大型网络,在各种视觉任务上获得了最高的精度。这一进展表明,在复杂的现实环境中,自监督学习也可以在 CV 任务中有出色表现。

在接下来的这篇文章中,我们将讲述,为什么自监督学习可能有助于解开智能暗物质,以及为什么它将是人工智能的下一个前沿。我们也将列出一些有前途的新方向,包括:在存在不确定性的情况下,基于能量的预测模型、联合嵌入方法、人工智能系统中用于自监督学习和推理的隐变量体系结构等。

目录内容: 人类和动物如何快速学习? 自监督学习 基于能量的模型 EBM Architectures for multimodal prediction Non-Contrastive EBM Training Architectural EBM Generative Regularized Latent-Variable Architectures Amortized Inference: Learning to predict the latent variable

成为VIP会员查看完整内容
0
39

蒙特卡罗树搜索是一种游戏树搜索算法,其最著名的应用是AlphaGo。我将给出一个关于这个算法的教程,其中将包含Python中一个重要的实用组件。对Python和Numpy非常基本的了解对于希望独立完成实用组件的学生来说是很有用的。

https://rl-vs.github.io/rlvs2021/mcts.html

成为VIP会员查看完整内容
0
26

强化学习(RL)研究的是当环境(即动力和回报)最初未知,但可以通过直接交互学习时的顺序决策问题。RL算法最近在许多问题上取得了令人印象深刻的成果,包括游戏和机器人。 然而,大多数最新的RL算法需要大量的数据来学习一个令人满意的策略,并且不能用于样本昂贵和/或无法进行长时间模拟的领域(例如,人机交互)。朝着更具样本效率的算法迈进的一个基本步骤是,设计适当平衡环境探索、收集有用信息的方法,以及利用所学策略收集尽可能多的回报的方法。

本教程的目的是让您认识到探索性开发困境对于提高现代RL算法的样本效率的重要性。本教程将向观众提供主要算法原理(特别是,面对不确定性和后验抽样时的乐观主义)、精确情况下的理论保证(即表格RL)及其在更复杂环境中的应用,包括参数化MDP、线性二次控制,以及它们与深度学习架构的集成。本教程应提供足够的理论和算法背景,以使AI和RL的研究人员在现有的RL算法中集成探索原理,并设计新颖的样本高效的RL方法,能够处理复杂的应用,例如人机交互(例如,会话代理),医学应用(例如,药物优化)和广告(例如,营销中的终身价值优化)。在整个教程中,我们将讨论开放的问题和未来可能的研究方向。

成为VIP会员查看完整内容
0
72

主题: Exploration-Exploitation in Reinforcement Learning

摘要: 强化学习(RL)研究的是当环境(即动力和反馈)最初未知,但可以通过直接交互学习时的顺序决策问题。学习问题的一个关键步骤是恰当地平衡对环境的探索,以便收集有用的信息,并利用所学的政策来收集尽可能多的回报。最近的理论结果证明,基于乐观主义或后验抽样的方法(如UCRL、PSRL等)成功地解决了勘探开发难题,并且可能需要比简单(但非常流行)的技术(如epsilon贪心)小指数的样本来收敛到接近最优的策略。乐观主义和后验抽样原则直接受到多臂bandit文献的启发,RL提出了具体的挑战(例如,“局部”不确定性如何通过Markov动力学传播),这需要更复杂的理论分析。本教程的重点是提供勘探开发困境的正式定义,讨论其挑战,并回顾不同优化标准(特别是有限时间和平均回报问题)的主要算法原则及其理论保证。在整个教程中,我们将讨论开放的问题和未来可能的研究方向。

邀请嘉宾: Ronan Fruit,Inria SequeL团队的博士生。他目前是蒙特利尔Facebook人工智能研究(FAIR)的研究实习生。他的研究集中在理论上理解强化学习中的探索性开发困境,以及设计具有可证明的良好后悔保证的算法。

Alessandro Lazaric,自2017年以来一直是Facebook AI Research(FAIR)实验室的研究科学家,他之前是SequeL团队Inria的研究员。他的主要研究主题是强化学习,在RL的理论和算法方面都做出了巨大贡献。在过去的十年中,他研究了多臂土匪和强化学习框架中的勘探与开发困境,特别是在遗憾最小化,最佳武器识别,纯粹探索和分层RL等问题上。

Matteo Pirotta,巴黎Facebook人工智能研究(FAIR)实验室的研究科学家。之前,他是SequeL团队的Inria博士后。2016年,他在米兰理工大学(意大利)获得计算机科学博士学位。他在强化学习方面的博士论文获得了Dimitris N.Chorafas基金会奖和EurAI杰出论文奖。他的主要研究兴趣是强化学习。近几年来,他主要关注的是RL的勘探开发困境。

成为VIP会员查看完整内容
0
16
小贴士
相关论文
Yuzhe Yang,Kaiwen Zha,Ying-Cong Chen,Hao Wang,Dina Katabi
0+阅读 · 5月13日
Ying Jin,Zhuoran Yang,Zhaoran Wang
0+阅读 · 5月12日
Shadi Endrawis,Gal Leibovich,Guy Jacob,Gal Novik,Aviv Tamar
0+阅读 · 5月10日
Yu Yao,Ella Atkins,Matthew Johnson Roberson,Ram Vasudevan,Xiaoxiao Du
0+阅读 · 5月10日
Xiaoxuan Cai,Eben Kenah,Forrest W. Crawford
0+阅读 · 5月7日
Abdulaziz Alaboudi,Thomas D. LaToza
0+阅读 · 5月5日
Jože M. Rožanec,Patrik Zajec,Klemen Kenda,Inna Novalija,Blaž Fortuna,Dunja Mladenić
0+阅读 · 5月5日
Lixin Zou,Long Xia,Linfang Hou,Xiangyu Zhao,Dawei Yin
0+阅读 · 5月5日
On Improving Decentralized Hysteretic Deep Reinforcement Learning
Xueguang Lu,Christopher Amato
3+阅读 · 2018年12月15日
Rahaf Aljundi,Klaas Kelchtermans,Tinne Tuytelaars
4+阅读 · 2018年12月10日
Top