强化学习(RL)方法的进展与挑战环境的发展密切相关,这些环境测试了当前方法的极限。虽然现有的RL环境要么足够复杂,要么基于快速模拟,但它们很少同时具备这两点。此外,RL的研究主要集中在可以接近白板的环境上,也就是说,不需要将任何领域或世界知识转移到模拟环境之外的代理。我将谈论《NetHack学习环境》(NLE),这是一个可扩展的、程序生成的、随机的、丰富的和具有挑战性的研究环境,基于流行的单人终端游戏《NetHack》。我们认为,《NetHack》足够复杂,能够推动对探索、规划、技能习得和语言条件下的RL等问题的长期研究,同时大大减少收集大量经验所需的计算资源。有趣的是,这款游戏甚至对人类玩家来说都是极具挑战性的,因为人类玩家通常需要多年时间才能第一次解决这一问题,他们通常会求助于外部自然语言知识资源,如《NetHack Wiki》,以提高自己的技能。在演讲的最后,我还将介绍我们最近在大规模文本知识源的条件作用方面的工作,以及这些技术如何为将来在更复杂、更真实的环境中实现高效的样本RL铺平道路。

https://nlp.stanford.edu/seminar/details/timrocktaschel.shtml

成为VIP会员查看完整内容
0
20

相关内容

强化学习(RL)的一个主要挑战是在探索环境以收集信息和利用到目前为止观察到的样本来执行“好的”(近乎最佳的)行动之间进行权衡。在本研讨会中,我们将回顾在连续状态-动作空间中如何将探索技术与函数近似相结合。我们将特别关注探索机制与深度学习技术的整合。研讨会应提供足够的理论和算法背景,以了解现有的技术,并可能设计新的方法。在整个讲座中,我们将讨论开放性问题和未来可能的研究方向。

https://rl-vs.github.io/rlvs2021/exploration.html

成为VIP会员查看完整内容
0
30

问答(QA)是自然语言处理中最早的核心问题之一,并且在许多现实世界的应用(例如搜索引擎和个人助理)中发挥了重要作用。开放域问答在最近几年重获关注,它通常基于大量非结构化文档的收集,旨在自动回答人类以自然语言形式提出的问题。

http://web.stanford.edu/class/cs224n/index.html#schedule

成为VIP会员查看完整内容
0
38

自然语言生成经过几十年的发展,已经成为人工智能和自然语言处理的重要研究领域。最早的自然语言生成系统采用规则、模板的方法,设计各司其职的模块进行文本生成,其中体现了很多专家设计的词汇、语法、句法甚至语用的语言学知识。统计语言模型则从概率统计的角度提出了语言建模的新思路,将词汇与上下文的依赖关系编码在条件概率中。以深度学习模型为基本架构的现代语言生成模型绝大多数通过端到端训练的方式,能更好地建模词汇与上下文之间统计共现关系,显著地提升了文本生成的性能。特别是以Transformer为基础架构的预训练语言生成模型,能够较好地捕获包括词汇、语法、句法、语义等各层面的语言学知识,极大地推动了自然语言生成的进展,生成效果令人惊叹。

• 自然语言生成(NLG)是自然语言处理的一个子领域

• 专注于构建系统,自动生成连贯和有用的书面或口头文本供人类使用

• NLG系统已经在改变我们生活的世界……

成为VIP会员查看完整内容
0
24

要实现人工智能的梦想,就需要学会做出正确决策的自主系统。强化学习是这样做的一个强大范式,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程将提供强化学习领域的充实介绍,学生将学习强化学习的核心挑战和方法,包括推广和探索。通过讲课、书面作业和编码作业的结合,学生将学习RL的关键思想和技术。作业将包括强化学习的基础知识以及深度强化学习——一个结合了深度学习技术和强化学习的极具前景的新领域。

地址: https://web.stanford.edu/class/cs234/

学生能够学习到:

  • 定义强化学习与人工智能和非交互式机器学习的区别的关键特征。
  • 给定一个应用问题(例如,计算机视觉,机器人等),决定它是否应该被表述为RL问题;如果是,可以正- 式定义它(根据状态空间,行动空间,动态和奖励模型),说明什么算法(从类)是最适合解决它,并证明你的答案。
  • 在代码中实现通用的RL算法。
  • 描述(列出和定义)分析RL算法的多种标准,并根据这些指标评估算法:例如遗憾度、样本复杂度、计算复杂度、经验性能、收敛性等。
  • 描述探索与开发的挑战,并对至少两种解决这一挑战的方法进行比较和对比(从性能、可伸缩性、实现的复杂性和理论保证方面)。

内容目录:

  • Introduction to Reinforcement Learning
  • Tabular MDP planning
  • Tabular RL policy evaluation
  • Q-learning
  • RL with function approximation
  • Policy search
  • Exploration
  • Exploration / Exploitation
  • Batch Reinforcement Learning
  • Monte Carlo Tree Search
成为VIP会员查看完整内容
0
35

Unsupervised Machine Translation

虽然现代机器翻译依赖于大量的平行语料库,但最近的一项研究已经成功地在无监督的情况下训练机器翻译系统,仅使用单语语料库。现有的方法大多依赖于跨语言单词嵌入或深度多语言预训练来进行初始化,并通过迭代反翻译来进一步完善该系统。在这次演讲中,我将对这一领域做一个概述,重点介绍我们自己在跨语言单词嵌入映射以及无监督神经和统计机器翻译方面的工作。

https://nlp.stanford.edu/seminar/details/mikelartetxe.shtml

成为VIP会员查看完整内容
0
13

现代人工智能(AI)系统通常需要在一个未知的、不确定的、可能敌对的环境中,通过积极地与环境交互来收集相关数据,从而做出连续的决策。强化学习(RL)是一个通用框架,可以捕获交互式学习设置,并已被用于设计智能代理,以实现超人水平的表现,在具有挑战性的任务,如围棋,电脑游戏,机器人操作。

这门研究生水平的课程着重于强化学习的理论和算法基础。本课程的四个主题为: (1)可证明有效的探索; (2)策略优化(特别是策略梯度); (3)控制; (4)模仿学习。

通过本课程,学生将能够理解经典的和最新的可证明正确的RL算法及其分析。学生将能够对与RL相关的课题进行研究。

成为VIP会员查看完整内容
0
42

本教程对基于模型的强化学习(MBRL)领域进行了广泛的概述,特别强调了深度方法。MBRL方法利用环境模型来进行决策——而不是将环境视为一个黑箱——并且提供了超越无模型RL的独特机会和挑战。我们将讨论学习过渡和奖励模式的方法,如何有效地使用这些模式来做出更好的决策,以及规划和学习之间的关系。我们还强调了在典型的RL设置之外利用世界模型的方式,以及在设计未来的MBRL系统时,从人类认知中可以得到什么启示。

https://sites.google.com/view/mbrl-tutorial

近年来,强化学习领域取得了令人印象深刻的成果,但主要集中在无模型方法上。然而,社区认识到纯无模型方法的局限性,从高样本复杂性、需要对不安全的结果进行抽样,到稳定性和再现性问题。相比之下,尽管基于模型的方法在机器人、工程、认知和神经科学等领域具有很大的影响力,但在机器学习社区中,这些方法的开发还不够充分(但发展迅速)。它们提供了一系列独特的优势和挑战,以及互补的数学工具。本教程的目的是使基于模型的方法更被机器学习社区所认可和接受。鉴于最近基于模型的规划的成功应用,如AlphaGo,我们认为对这一主题的全面理解是非常及时的需求。在教程结束时,观众应该获得:

  • 数学背景,阅读并跟进相关文献。
  • 对所涉及的算法有直观的理解(并能够访问他们可以使用和试验的轻量级示例代码)。
  • 在应用基于模型的方法时所涉及到的权衡和挑战。
  • 对可以应用基于模型的推理的问题的多样性的认识。
  • 理解这些方法如何适应更广泛的强化学习和决策理论,以及与无模型方法的关系。
成为VIP会员查看完整内容
0
71

借助现代的高容量模型,大数据已经推动了机器学习的许多领域的革命,但标准方法——从标签中进行监督学习,或从奖励功能中进行强化学习——已经成为瓶颈。即使数据非常丰富,获得明确指定模型必须做什么的标签或奖励也常常是棘手的。收集简单的类别标签进行分类对于数百万计的示例来说是不可能的,结构化输出(场景解释、交互、演示)要糟糕得多,尤其是当数据分布是非平稳的时候。

自监督学习是一个很有前途的替代方法,其中开发的代理任务允许模型和代理在没有明确监督的情况下学习,这有助于对感兴趣的任务的下游性能。自监督学习的主要好处之一是提高数据效率:用较少的标记数据或较少的环境步骤(在强化学习/机器人技术中)实现可比较或更好的性能。

自监督学习(self-supervised learning, SSL)领域正在迅速发展,这些方法的性能逐渐接近完全监督方法。

成为VIP会员查看完整内容
0
106

本文为大家带来了一份斯坦福大学的最新课程CS234——强化学习,主讲人是斯坦福大学Emma Brunskill,她是斯坦福大学计算机科学助理教授,任职斯坦福大学人类影响力实验室、斯坦福人工智能实验室以及统计机器学习小组,主要研究强化学习。要实现人工智能的梦想和影响,需要能够学会做出正确决策的自主系统。强化学习是这样做的一个强有力的范例,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程通过讲课、书面作业和编码作业的结合,学生将精通强化学习的关键思想和技术。

1.课程介绍(Description)

要实现人工智能的梦想和影响,需要能够学会做出正确决策的自主系统。强化学习是这样做的一个强有力的范例,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程将为强化学习领域提供扎实的介绍,学生将学习包括通用化和探索在内的核心挑战和方法。通过讲课、书面作业和编码作业的结合,学生将精通强化学习的关键思想和技术。作业将包括强化学习和深度强化学习的基础,这是一个极有前途的新领域,将深度学习技术与强化学习相结合。此外,学生将通过期末专题来增进对强化学习领域的理解。

课程地址:

https://web.stanford.edu/class/cs234/schedule.html

2.预备知识(Prerequisites)

1)熟练Python

所有的课程都将使用Python(使用numpy和Tensorflow,也可以使用Keras)。这里有一个针对那些不太熟悉Python的人的教程。如果你有很多使用不同语言(如C/ c++ / Matlab/ Javascript)的编程经验,可能会很好。

2)大学微积分,线性代数(如 MATH 51, CME 100)

你应该能够熟练地进行(多变量)求导,理解矩阵/向量符号和运算。

3)基本概率及统计(例如CS 109 或同等课程)

你应该了解基本的概率,高斯分布,均值,标准差等。

4)机器学习基础

我们将阐述成本函数,求导数,用梯度下降法进行优化。CS 221或CS 229均可涵盖此背景。使用一些凸优化知识,一些优化技巧将更加直观。

3.主讲:Emma Brunskill

Emma Brunskill是斯坦福大学计算机科学助理教授,任职斯坦福大学人类影响力实验室、斯坦福人工智能实验室以及统计机器学习小组。

主要研究强化学习系统,以帮助人们更好地生活。并处理一些关键技术。最近的研究重点包括:1)有效强化学习的基础。一个关键的挑战是要了解代理商如何平衡勘探与开发之间的局限性。2)如果要进行顺序决策,该怎么办。利用巨大数量的数据来改善在医疗保健,教育,维护和许多其他应用程序中做出的决策,这是一个巨大的机会。这样做需要假设/反事实推理,以便在做出不同决定时对潜在结果进行推理。3)人在回路系统。人工智能具有极大地扩大人类智能和效率的潜力。我们正在开发一个系统,用其他众包商(CHI 2016)生产的(机器)固化材料对众包商进行训练,并确定何时扩展系统规格以包括新内容(AAAI 2017)或传感器。我们也有兴趣研究确保机器学习系统在人类用户的意图方面表现良好(Arxiv 2017),也被称为安全和公平的机器学习。

个人主页:https://cs.stanford.edu/people/ebrun/

4.课程安排

01: 强化学习导论(Introduction to Reinforcement Learning)

02: 表格MDP规划(Tabular MDP planning)

03: 表格RL政策评估(Tabular RL policy evaluation)

04: Q-learning

05: 带函数逼近的强化学习(RL with function approximation)

06: 带函数逼近的强化学习(RL with function approximation)

07: 带函数逼近的强化学习(RL with function approximation)

08: 从马尔可夫决策过程到强化学习(Policy search)

09: 从马尔可夫决策过程到强化学习(Policy search)

10: 课堂中期(In-class Midterm)

11: 模仿学习/探索(Imitation learning/Exploration)

12: 探索/开发(Exploration/Exploitation)

13: 探索/开发(Exploration/Exploitation)

14: 批处理强化学习(Batch Reinforcement Learning)

15: 嘉宾讲座:Craig Boutilier(Guest Lecture: Craig Boutilier)

16: 课堂测验(In-class Quiz)

17: 蒙特卡洛树搜索算法(Monte Carlo Tree Search)

18: 墙报展示(Poster presentations)

成为VIP会员查看完整内容
0
54
小贴士
相关主题
相关VIP内容
专知会员服务
24+阅读 · 2月22日
专知会员服务
42+阅读 · 2020年9月27日
专知会员服务
71+阅读 · 2020年7月20日
专知会员服务
106+阅读 · 2020年5月29日
专知会员服务
54+阅读 · 2020年1月15日
相关资讯
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
Facebook :AI 年度总结来啦
人工智能学家
4+阅读 · 2019年1月21日
前沿知识特惠团《OpenAI强化学习实战》
炼数成金订阅号
3+阅读 · 2018年12月4日
自然语言处理NLP快速入门
专知
16+阅读 · 2018年10月8日
Seq2seq强化学习实战 (Pytorch, Tensorflow, Theano)
相关论文
Ahmad Rashid,Vasileios Lioutas,Mehdi Rezagholizadeh
0+阅读 · 5月12日
Shadi Endrawis,Gal Leibovich,Guy Jacob,Gal Novik,Aviv Tamar
0+阅读 · 5月10日
Hongbo Yin,Hong Gao,Binghao Wang,Sirui Li,Jianzhong Li
0+阅读 · 5月7日
Brian Chen,Andrew Rouditchenko,Kevin Duarte,Hilde Kuehne,Samuel Thomas,Angie Boggust,Rameswar Panda,Brian Kingsbury,Rogerio Feris,David Harwath,James Glass,Michael Picheny,Shih-Fu Chang
0+阅读 · 5月5日
Ruihan Yang,Yibo Yang,Joseph Marino,Stephan Mandt
0+阅读 · 5月4日
Sean I. Young,Wang Zhe,David Taubman,Bernd Girod
0+阅读 · 5月4日
Chence Shi,Minkai Xu,Zhaocheng Zhu,Weinan Zhang,Ming Zhang,Jian Tang
7+阅读 · 2020年1月26日
Wei Yang,Xiaolong Wang,Ali Farhadi,Abhinav Gupta,Roozbeh Mottaghi
4+阅读 · 2018年10月15日
Invariant Information Distillation for Unsupervised Image Segmentation and Clustering
Xu Ji,João F. Henriques,Andrea Vedaldi
4+阅读 · 2018年7月21日
Jeremy Howard,Sebastian Ruder
3+阅读 · 2018年5月23日
Top