在过去的十年中,人们对不确定性下的连续决策产生了极大的兴趣,这是一类涉及到智能体与未知环境交互以实现某些目标的广泛问题。强化学习方法解决了这些问题,最近人工智能在游戏、机器人等领域取得了突破。受这些实证证明的启发,许多学习理论界的研究人员将他们的注意力转向了强化学习,试图更好地理解这些问题并发展新的算法原则。他们的努力为强化学习带来了一个更现代的统计基础,强调通过全局收敛、样本复杂性和遗憾分析的非渐近特征。

本教程将概述这一新兴理论,重点是最具挑战性的在线探索设置。本教程分为三个部分:

第一部分将介绍必要的背景知识和定义。我们在这里重点讨论了表式马尔可夫决策过程的最基本设置,并考虑了难度不断增加的问题:从规划,到基于探索性分布的优化,再到在线探索。我们将提出两种算法:用于优化问题的自然策略梯度(NPG)和用于探索的ucb -值迭代(UCB-VI),以及它们的保证。

第二部分是复习/实践习部分。我们准备了一个问题集,涵盖了NPG和UCB-VI的详细分析,突出了在强化学习中广泛有用的关键引理,以及与相关领域的技术联系。这次会议将集体举行。许多该领域的专家将会在问题集上提供帮助或回答其他问题。

第三部分将着重于表格设置之外的在线探索,在表格设置中需要函数近似来进行泛化。在这里,我们将提供一个RL模型和复杂性度量的合集,使易于处理的学习,以及一些统计障碍和算法。最后,我们将讨论一些尚未解决的问题和未来的方向。

所有COLT参与者都可以访问本教程。不需要RL的背景知识,但我们希望教程参与者能够熟练使用学习理论研究中使用的标准数学工具,如集中不等式和一些线性代数。

https://rltheorybook.github.io/colt21tutorial

成为VIP会员查看完整内容
58

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
18+阅读 · 2021年7月28日
LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
51+阅读 · 2021年1月11日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
126+阅读 · 2020年7月20日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
118+阅读 · 2020年1月15日
AlphaGo之父David Silver最新演讲,传授强化学习的十大原则
强化学习十大原则
专知
12+阅读 · 2018年9月17日
关于强化学习(附代码,练习和解答)
深度学习
36+阅读 · 2018年1月30日
Nested Policy Reinforcement Learning
Arxiv
0+阅读 · 2021年10月6日
Arxiv
6+阅读 · 2021年6月24日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
5+阅读 · 2018年6月12日
VIP会员
相关VIP内容
专知会员服务
18+阅读 · 2021年7月28日
LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
51+阅读 · 2021年1月11日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
126+阅读 · 2020年7月20日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
118+阅读 · 2020年1月15日
微信扫码咨询专知VIP会员