在过去的十年中,人们对不确定性下的连续决策产生了极大的兴趣,这是一类涉及到智能体与未知环境交互以实现某些目标的广泛问题。强化学习方法解决了这些问题,最近人工智能在游戏、机器人等领域取得了突破。受这些实证证明的启发,许多学习理论界的研究人员将他们的注意力转向了强化学习,试图更好地理解这些问题并发展新的算法原则。他们的努力为强化学习带来了一个更现代的统计基础,强调通过全局收敛、样本复杂性和遗憾分析的非渐近特征。

本教程将概述这一新兴理论,重点是最具挑战性的在线探索设置。本教程分为三个部分:

第一部分将介绍必要的背景知识和定义。我们在这里重点讨论了表式马尔可夫决策过程的最基本设置,并考虑了难度不断增加的问题:从规划,到基于探索性分布的优化,再到在线探索。我们将提出两种算法:用于优化问题的自然策略梯度(NPG)和用于探索的ucb -值迭代(UCB-VI),以及它们的保证。

第二部分是复习/实践习部分。我们准备了一个问题集,涵盖了NPG和UCB-VI的详细分析,突出了在强化学习中广泛有用的关键引理,以及与相关领域的技术联系。这次会议将集体举行。许多该领域的专家将会在问题集上提供帮助或回答其他问题。

第三部分将着重于表格设置之外的在线探索,在表格设置中需要函数近似来进行泛化。在这里,我们将提供一个RL模型和复杂性度量的合集,使易于处理的学习,以及一些统计障碍和算法。最后,我们将讨论一些尚未解决的问题和未来的方向。

所有COLT参与者都可以访问本教程。不需要RL的背景知识,但我们希望教程参与者能够熟练使用学习理论研究中使用的标准数学工具,如集中不等式和一些线性代数。

https://rltheorybook.github.io/colt21tutorial

成为VIP会员查看完整内容
0
27

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

近年来,在控制和强化学习中出现了新的方法,这些方法结合了遗憾(regret )最小化和在线凸优化技术。由此产生的理论为控制和强化学习中一些长期存在的问题提供了可证明的保证:对数后悔和快速速率,没有系统知识的端到端LQG-LQR,带有对抗噪声的卡尔曼滤波,具有可证明的有限时间保证的黑盒控制,系统识别的紧下界,等等。

这些结果的主要创新之处在于在线控制模型将随机扰动替换为对抗性扰动,并以后悔最小为最优控制目标。我们将描述设置,以及基于梯度和依赖于新的凸松弛的新方法。

https://icml.cc/media/icml-2021/Slides/10838_XuEBWTU.pdf

成为VIP会员查看完整内容
0
10

大多数大型在线推荐系统,如新闻推送排名、人员推荐、工作推荐等,通常都有多个实用工具或指标需要同时优化。经过训练以优化单一效用的机器学习模型通过参数组合在一起,生成最终的排名函数。这些组合参数驱动业务指标。找到正确的参数选择通常是通过在线A/B实验,这是非常复杂和耗时的,特别是考虑到这些参数对指标的非线性影响。

在本教程中,我们将讨论如何应用贝叶斯优化技术为这样复杂的在线系统获取参数,以平衡竞争性指标。首先,我们将深入介绍贝叶斯优化,包括一些基础知识以及该领域的最新进展。其次,我们将讨论如何将一个真实世界的推荐系统问题制定为一个可以通过贝叶斯优化解决的黑盒优化问题。我们将专注于一些关键问题,如新闻推送排名、人员推荐、工作推荐等。第三,我们将讨论解决方案的架构,以及我们如何能够为大规模系统部署它。最后,我们将讨论该领域的扩展和一些未来的发展方向。

https://sites.google.com/view/ijcai2020-linkedin-bayesopt/home

成为VIP会员查看完整内容
0
33

强化学习(RL)作为一种可行且强大的技术,正逐渐成为一种解决各种复杂业务问题的技术,这些问题涉及不确定条件下的连续优化决策。尽管RL被归类为机器学习(ML)的一个分支,但它往往与ML(监督学习和非监督学习)的其他分支有很大的不同。事实上,RL似乎掌握着开启人工智能前景的钥匙——机器可以根据观察到的异常信息调整决策,同时不断转向最佳结果。它在无人驾驶汽车、机器人和策略游戏等备受关注的问题上的应用,预示着未来RL算法将拥有远超人类的决策能力。但是当谈到RL的学习应用时,人们似乎不愿意直接进入。我们经常听到甚至技术人员声称RL涉及“高等数学”和“复杂工程”,所以似乎有一个心理障碍进入。虽然现实世界的RL算法和实现在克服众所周知的最后业务问题时确实变得相当复杂,但是RL的基础实际上不需要繁重的技术机器就可以学会。本书的核心目的是通过在理解的深度和保持基本技术内容之间找到平衡来揭开RL的神秘面纱。因此,我们将学习:

  • 您将了解简单而强大的马尔可夫决策过程(MDPs)理论——不确定情况下的序列最优决策框架。您将坚定地理解Bellman方程的力量,它是所有动态规划和所有RL算法的核心。

  • 您将掌握动态规划(DP)算法,这是一类(用人工智能的语言)规划算法。您将学习策略迭代、值迭代、逆向归纳、近似动态规划和广义策略迭代的重要概念,它是所有DP和所有RL算法的核心。

  • 您将获得各种强化学习(RL)算法的坚实的理解,从基本算法如SARSA和Q-Learning,并进入学习在实践中工作得很好的几个重要的算法,包括梯度时间差分,深度Q网络,最小二乘策略迭代,策略梯度,蒙特卡罗树搜索。您将了解如何利用bootstrapping、off-policy学习和基于深度神经网络的函数逼近在这些算法中获得优势。您还将学习如何平衡探索和利用Multi-Armed Bandits技术,如置信上限,汤普森采样,梯度盗匪和信息状态空间算法。

  • 您将练习大量的模型和算法的“从头开始”Python实现。贯穿全书,我们强调了良好的Python编程实践,包括接口设计、类型注释、函数式编程和基于继承的多态(始终确保编程原则反映数学原则)。从这本书中获得的更大的收获是一种将应用数学概念与软件设计范例相结合的罕见的(高需求的)能力。

成为VIP会员查看完整内容
0
73

强化学习(RL)为基于学习的控制提供了一种数学形式,允许通过优化用户指定的奖励函数来获得接近最优的行为。最近,由于在许多领域的出色应用,RL方法受到了相当多的关注,但事实上,RL需要一个基本的在线学习范式,这是其广泛采用的最大障碍之一。在线交互通常是不切实际的,因为数据收集是昂贵的(例如,在机器人或教育代理中)或危险的(例如,在自动驾驶或医疗保健中)。另一种方法是利用RL算法,在不需要在线交互的情况下有效地利用以前收集的经验。这被称为批处理RL、脱机RL或数据驱动RL。这样的算法对将数据集转化为强大的决策引擎有着巨大的希望,类似于数据集在视觉和NLP中被证明是成功的关键。在本教程中,我们的目标是为读者提供既可以利用离线RL作为工具,又可以在这个令人兴奋的领域进行研究的概念性工具。我们的目标是提供对离线RL的挑战的理解,特别是在现代深度RL方法的背景下,并描述一些潜在的解决方案。我们将以一种从业者易于理解的方式呈现经典和最新的方法,并讨论在这一领域开展研究的理论基础。我们将以讨论待解问题来结束。

https://sites.google.com/view/offlinerltutorial-neurips2020/home

成为VIP会员查看完整内容
0
36

本教程对基于模型的强化学习(MBRL)领域进行了广泛的概述,特别强调了深度方法。MBRL方法利用环境模型来进行决策——而不是将环境视为一个黑箱——并且提供了超越无模型RL的独特机会和挑战。我们将讨论学习过渡和奖励模式的方法,如何有效地使用这些模式来做出更好的决策,以及规划和学习之间的关系。我们还强调了在典型的RL设置之外利用世界模型的方式,以及在设计未来的MBRL系统时,从人类认知中可以得到什么启示。

https://sites.google.com/view/mbrl-tutorial

近年来,强化学习领域取得了令人印象深刻的成果,但主要集中在无模型方法上。然而,社区认识到纯无模型方法的局限性,从高样本复杂性、需要对不安全的结果进行抽样,到稳定性和再现性问题。相比之下,尽管基于模型的方法在机器人、工程、认知和神经科学等领域具有很大的影响力,但在机器学习社区中,这些方法的开发还不够充分(但发展迅速)。它们提供了一系列独特的优势和挑战,以及互补的数学工具。本教程的目的是使基于模型的方法更被机器学习社区所认可和接受。鉴于最近基于模型的规划的成功应用,如AlphaGo,我们认为对这一主题的全面理解是非常及时的需求。在教程结束时,观众应该获得:

  • 数学背景,阅读并跟进相关文献。
  • 对所涉及的算法有直观的理解(并能够访问他们可以使用和试验的轻量级示例代码)。
  • 在应用基于模型的方法时所涉及到的权衡和挑战。
  • 对可以应用基于模型的推理的问题的多样性的认识。
  • 理解这些方法如何适应更广泛的强化学习和决策理论,以及与无模型方法的关系。
成为VIP会员查看完整内容
0
78

强化学习(RL)研究的是当环境(即动力和回报)最初未知,但可以通过直接交互学习时的顺序决策问题。RL算法最近在许多问题上取得了令人印象深刻的成果,包括游戏和机器人。 然而,大多数最新的RL算法需要大量的数据来学习一个令人满意的策略,并且不能用于样本昂贵和/或无法进行长时间模拟的领域(例如,人机交互)。朝着更具样本效率的算法迈进的一个基本步骤是,设计适当平衡环境探索、收集有用信息的方法,以及利用所学策略收集尽可能多的回报的方法。

本教程的目的是让您认识到探索性开发困境对于提高现代RL算法的样本效率的重要性。本教程将向观众提供主要算法原理(特别是,面对不确定性和后验抽样时的乐观主义)、精确情况下的理论保证(即表格RL)及其在更复杂环境中的应用,包括参数化MDP、线性二次控制,以及它们与深度学习架构的集成。本教程应提供足够的理论和算法背景,以使AI和RL的研究人员在现有的RL算法中集成探索原理,并设计新颖的样本高效的RL方法,能够处理复杂的应用,例如人机交互(例如,会话代理),医学应用(例如,药物优化)和广告(例如,营销中的终身价值优化)。在整个教程中,我们将讨论开放的问题和未来可能的研究方向。

成为VIP会员查看完整内容
0
79

本文为大家带来了一份斯坦福大学的最新课程CS234——强化学习,主讲人是斯坦福大学Emma Brunskill,她是斯坦福大学计算机科学助理教授,任职斯坦福大学人类影响力实验室、斯坦福人工智能实验室以及统计机器学习小组,主要研究强化学习。要实现人工智能的梦想和影响,需要能够学会做出正确决策的自主系统。强化学习是这样做的一个强有力的范例,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程通过讲课、书面作业和编码作业的结合,学生将精通强化学习的关键思想和技术。

1.课程介绍(Description)

要实现人工智能的梦想和影响,需要能够学会做出正确决策的自主系统。强化学习是这样做的一个强有力的范例,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程将为强化学习领域提供扎实的介绍,学生将学习包括通用化和探索在内的核心挑战和方法。通过讲课、书面作业和编码作业的结合,学生将精通强化学习的关键思想和技术。作业将包括强化学习和深度强化学习的基础,这是一个极有前途的新领域,将深度学习技术与强化学习相结合。此外,学生将通过期末专题来增进对强化学习领域的理解。

课程地址:

https://web.stanford.edu/class/cs234/schedule.html

2.预备知识(Prerequisites)

1)熟练Python

所有的课程都将使用Python(使用numpy和Tensorflow,也可以使用Keras)。这里有一个针对那些不太熟悉Python的人的教程。如果你有很多使用不同语言(如C/ c++ / Matlab/ Javascript)的编程经验,可能会很好。

2)大学微积分,线性代数(如 MATH 51, CME 100)

你应该能够熟练地进行(多变量)求导,理解矩阵/向量符号和运算。

3)基本概率及统计(例如CS 109 或同等课程)

你应该了解基本的概率,高斯分布,均值,标准差等。

4)机器学习基础

我们将阐述成本函数,求导数,用梯度下降法进行优化。CS 221或CS 229均可涵盖此背景。使用一些凸优化知识,一些优化技巧将更加直观。

3.主讲:Emma Brunskill

Emma Brunskill是斯坦福大学计算机科学助理教授,任职斯坦福大学人类影响力实验室、斯坦福人工智能实验室以及统计机器学习小组。

主要研究强化学习系统,以帮助人们更好地生活。并处理一些关键技术。最近的研究重点包括:1)有效强化学习的基础。一个关键的挑战是要了解代理商如何平衡勘探与开发之间的局限性。2)如果要进行顺序决策,该怎么办。利用巨大数量的数据来改善在医疗保健,教育,维护和许多其他应用程序中做出的决策,这是一个巨大的机会。这样做需要假设/反事实推理,以便在做出不同决定时对潜在结果进行推理。3)人在回路系统。人工智能具有极大地扩大人类智能和效率的潜力。我们正在开发一个系统,用其他众包商(CHI 2016)生产的(机器)固化材料对众包商进行训练,并确定何时扩展系统规格以包括新内容(AAAI 2017)或传感器。我们也有兴趣研究确保机器学习系统在人类用户的意图方面表现良好(Arxiv 2017),也被称为安全和公平的机器学习。

个人主页:https://cs.stanford.edu/people/ebrun/

4.课程安排

01: 强化学习导论(Introduction to Reinforcement Learning)

02: 表格MDP规划(Tabular MDP planning)

03: 表格RL政策评估(Tabular RL policy evaluation)

04: Q-learning

05: 带函数逼近的强化学习(RL with function approximation)

06: 带函数逼近的强化学习(RL with function approximation)

07: 带函数逼近的强化学习(RL with function approximation)

08: 从马尔可夫决策过程到强化学习(Policy search)

09: 从马尔可夫决策过程到强化学习(Policy search)

10: 课堂中期(In-class Midterm)

11: 模仿学习/探索(Imitation learning/Exploration)

12: 探索/开发(Exploration/Exploitation)

13: 探索/开发(Exploration/Exploitation)

14: 批处理强化学习(Batch Reinforcement Learning)

15: 嘉宾讲座:Craig Boutilier(Guest Lecture: Craig Boutilier)

16: 课堂测验(In-class Quiz)

17: 蒙特卡洛树搜索算法(Monte Carlo Tree Search)

18: 墙报展示(Poster presentations)

成为VIP会员查看完整内容
0
62

主题: Exploration-Exploitation in Reinforcement Learning

摘要: 强化学习(RL)研究的是当环境(即动力和反馈)最初未知,但可以通过直接交互学习时的顺序决策问题。学习问题的一个关键步骤是恰当地平衡对环境的探索,以便收集有用的信息,并利用所学的政策来收集尽可能多的回报。最近的理论结果证明,基于乐观主义或后验抽样的方法(如UCRL、PSRL等)成功地解决了勘探开发难题,并且可能需要比简单(但非常流行)的技术(如epsilon贪心)小指数的样本来收敛到接近最优的策略。乐观主义和后验抽样原则直接受到多臂bandit文献的启发,RL提出了具体的挑战(例如,“局部”不确定性如何通过Markov动力学传播),这需要更复杂的理论分析。本教程的重点是提供勘探开发困境的正式定义,讨论其挑战,并回顾不同优化标准(特别是有限时间和平均回报问题)的主要算法原则及其理论保证。在整个教程中,我们将讨论开放的问题和未来可能的研究方向。

邀请嘉宾: Ronan Fruit,Inria SequeL团队的博士生。他目前是蒙特利尔Facebook人工智能研究(FAIR)的研究实习生。他的研究集中在理论上理解强化学习中的探索性开发困境,以及设计具有可证明的良好后悔保证的算法。

Alessandro Lazaric,自2017年以来一直是Facebook AI Research(FAIR)实验室的研究科学家,他之前是SequeL团队Inria的研究员。他的主要研究主题是强化学习,在RL的理论和算法方面都做出了巨大贡献。在过去的十年中,他研究了多臂土匪和强化学习框架中的勘探与开发困境,特别是在遗憾最小化,最佳武器识别,纯粹探索和分层RL等问题上。

Matteo Pirotta,巴黎Facebook人工智能研究(FAIR)实验室的研究科学家。之前,他是SequeL团队的Inria博士后。2016年,他在米兰理工大学(意大利)获得计算机科学博士学位。他在强化学习方面的博士论文获得了Dimitris N.Chorafas基金会奖和EurAI杰出论文奖。他的主要研究兴趣是强化学习。近几年来,他主要关注的是RL的勘探开发困境。

成为VIP会员查看完整内容
0
20
小贴士
相关论文
Nested Policy Reinforcement Learning
Aishwarya Mandyam,Andrew Jones,Krzysztof Laudanski,Barbara Engelhardt
0+阅读 · 10月6日
Léon Zheng,Rémi Gribonval,Elisa Riccietti
0+阅读 · 10月4日
Krzysztof Marcin Choromanski,Deepali Jain,Wenhao Yu,Xingyou Song,Jack Parker-Holder,Tingnan Zhang,Valerii Likhosherstov,Aldo Pacchiano,Anirban Santara,Yunhao Tang,Jie Tan,Adrian Weller
0+阅读 · 10月2日
Yuanguo Lin,Yong Liu,Fan Lin,Pengcheng Wu,Wenhua Zeng,Chunyan Miao
13+阅读 · 9月22日
Zengyi Qin,Yuxiao Chen,Chuchu Fan
5+阅读 · 6月24日
Logically-Constrained Reinforcement Learning
Mohammadhosein Hasanbeig,Alessandro Abate,Daniel Kroening
3+阅读 · 2018年12月6日
Yaodong Yang,Rui Luo,Minne Li,Ming Zhou,Weinan Zhang,Jun Wang
3+阅读 · 2018年6月12日
Bing Liu,Gokhan Tur,Dilek Hakkani-Tur,Pararth Shah,Larry Heck
6+阅读 · 2018年4月18日
Ferdinando Fioretto,Enrico Pontelli,William Yeoh
4+阅读 · 2018年1月11日
Top