Exploration is one of the most important tasks in Reinforcement Learning, but it is not well-defined beyond finite problems in the Dynamic Programming paradigm (see Subsection 2.4). We provide a reinterpretation of exploration which can be applied to any online learning method. We come to this definition by approaching exploration from a new direction. After finding that concepts of exploration created to solve simple Markov decision processes with Dynamic Programming are no longer broadly applicable, we reexamine exploration. Instead of extending the ends of dynamic exploration procedures, we extend their means. That is, rather than repeatedly sampling every state-action pair possible in a process, we define the act of modifying an agent to itself be explorative. The resulting definition of exploration can be applied in infinite problems and non-dynamic learning methods, which the dynamic notion of exploration cannot tolerate. To understand the way that modifications of an agent affect learning, we describe a novel structure on the set of agents: a collection of distances (see footnote 7) $d_{a} \in A$, which represent the perspectives of each agent possible in the process. Using these distances, we define a topology and show that many important structures in Reinforcement Learning are well behaved under the topology induced by convergence in the agent space.


翻译:探索是加强学习中最重要的任务之一,但除了动态规划模式(见2.4分节)中有限的问题之外,它不是界定得很清楚。我们重新解释可以适用于任何在线学习方法的勘探方法。我们从新的方向进行勘探,从而得出这一定义。在发现为解决简单的Markov决策程序而创造的探索概念与动态规划不再广泛适用之后,我们重新审查勘探方法。我们不扩大动态勘探程序的目的,而是扩大其手段。这是,而不是反复抽样在进程中可能的每一州对行动,我们定义了使一个代理本身适应于探索的行为。由此产生的勘探定义可以适用于无穷的问题和非动态学习方法,而动态的探索概念无法容忍这些问题和非动态学习方法。为了理解一个代理的修改会影响学习的方式,我们描述了一套代理物的新结构:一个距离收集(见脚注7) $d ⁇ a}\ a$,它代表了这一过程中每个代理物的观点。我们用这些距离来定义一个顶部,并表明加强空间学习的许多重要结构在高层研究中是良好的。

0
下载
关闭预览

相关内容

Processing 是一门开源编程语言和与之配套的集成开发环境(IDE)的名称。Processing 在电子艺术和视觉设计社区被用来教授编程基础,并运用于大量的新媒体和互动艺术作品中。
专知会员服务
77+阅读 · 2021年3月16日
专知会员服务
40+阅读 · 2020年9月6日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年1月14日
Arxiv
7+阅读 · 2021年10月19日
Arxiv
65+阅读 · 2021年6月18日
Arxiv
8+阅读 · 2021年5月21日
Arxiv
4+阅读 · 2021年4月13日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
3+阅读 · 2018年10月11日
Arxiv
3+阅读 · 2017年11月20日
VIP会员
相关VIP内容
专知会员服务
77+阅读 · 2021年3月16日
专知会员服务
40+阅读 · 2020年9月6日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2022年1月14日
Arxiv
7+阅读 · 2021年10月19日
Arxiv
65+阅读 · 2021年6月18日
Arxiv
8+阅读 · 2021年5月21日
Arxiv
4+阅读 · 2021年4月13日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
3+阅读 · 2018年10月11日
Arxiv
3+阅读 · 2017年11月20日
Top
微信扫码咨询专知VIP会员