The tutorial is written for those who would like an introduction to reinforcement learning (RL). The aim is to provide an intuitive presentation of the ideas rather than concentrate on the deeper mathematics underlying the topic. RL is generally used to solve the so-called Markov decision problem (MDP). In other words, the problem that you are attempting to solve with RL should be an MDP or its variant. The theory of RL relies on dynamic programming (DP) and artificial intelligence (AI). We will begin with a quick description of MDPs. We will discuss what we mean by “complex” and “large-scale” MDPs. Then we will explain why RL is needed to solve complex and large-scale MDPs. The semi-Markov decision problem (SMDP) will also be covered.

The tutorial is meant to serve as an introduction to these topics and is based mostly on the book: “Simulation-based optimization: Parametric Optimization techniques and reinforcement learning” [4]. The book discusses this topic in greater detail in the context of simulators. There are at least two other textbooks that I would recommend you to read: (i) Neuro-dynamic programming [2] (lots of details on convergence analysis) and (ii) Reinforcement Learning: An Introduction [11] (lots of details on underlying AI concepts). A more recent tutorial on this topic is [8]. This tutorial has 2 sections: • Section 2 discusses MDPs and SMDPs. • Section 3 discusses RL. By the end of this tutorial, you should be able to • Identify problem structures that can be set up as MDPs / SMDPs. • Use some RL algorithms.

90
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《强化学习》简介小册,24页pdf
专知会员服务
194+阅读 · 2020年4月19日
【教程】自然语言处理中的迁移学习原理,41 页PPT
专知会员服务
73+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
130+阅读 · 2020年2月1日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
92+阅读 · 2019年10月12日
2019年机器学习框架回顾
专知会员服务
29+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
133+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
55+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
189+阅读 · 2019年10月9日
逆强化学习-学习人先验的动机
CreateAMind
6+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
7+阅读 · 2019年1月7日
spinningup.openai 强化学习资源完整
CreateAMind
4+阅读 · 2018年12月17日
OpenAI官方发布:强化学习中的关键论文
专知
10+阅读 · 2018年12月12日
【微软亚研130PPT教程】强化学习简介
专知
31+阅读 · 2018年10月26日
Python机器学习教程资料/代码
机器学习研究会
5+阅读 · 2018年2月22日
强化学习族谱
CreateAMind
13+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
10+阅读 · 2019年1月16日
Self-Driving Cars: A Survey
Arxiv
35+阅读 · 2019年1月14日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
5+阅读 · 2019年1月8日
Arxiv
118+阅读 · 2018年10月8日
ViZDoom Competitions: Playing Doom from Pixels
Arxiv
5+阅读 · 2018年9月10日
Arxiv
18+阅读 · 2017年12月6日
小贴士
相关VIP内容
《强化学习》简介小册,24页pdf
专知会员服务
194+阅读 · 2020年4月19日
【教程】自然语言处理中的迁移学习原理,41 页PPT
专知会员服务
73+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
130+阅读 · 2020年2月1日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
92+阅读 · 2019年10月12日
2019年机器学习框架回顾
专知会员服务
29+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
133+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
55+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
189+阅读 · 2019年10月9日
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
6+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
7+阅读 · 2019年1月7日
spinningup.openai 强化学习资源完整
CreateAMind
4+阅读 · 2018年12月17日
OpenAI官方发布:强化学习中的关键论文
专知
10+阅读 · 2018年12月12日
【微软亚研130PPT教程】强化学习简介
专知
31+阅读 · 2018年10月26日
Python机器学习教程资料/代码
机器学习研究会
5+阅读 · 2018年2月22日
强化学习族谱
CreateAMind
13+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
10+阅读 · 2019年1月16日
Self-Driving Cars: A Survey
Arxiv
35+阅读 · 2019年1月14日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
5+阅读 · 2019年1月8日
Arxiv
118+阅读 · 2018年10月8日
ViZDoom Competitions: Playing Doom from Pixels
Arxiv
5+阅读 · 2018年9月10日
Arxiv
18+阅读 · 2017年12月6日
微信扫码咨询专知VIP会员