There are many algorithms for regret minimisation in episodic reinforcement learning. This problem is well-understood from a theoretical perspective, providing that the sequences of states, actions and rewards associated with each episode are available to the algorithm updating the policy immediately after every interaction with the environment. However, feedback is almost always delayed in practice. In this paper, we study the impact of delayed feedback in episodic reinforcement learning from a theoretical perspective and propose two general-purpose approaches to handling the delays. The first involves updating as soon as new information becomes available, whereas the second waits before using newly observed information to update the policy. For the class of optimistic algorithms and either approach, we show that the regret increases by an additive term involving the number of states, actions, episode length, the expected delay and an algorithm-dependent constant. We empirically investigate the impact of various delay distributions on the regret of optimistic algorithms to validate our theoretical results.


翻译:翻译的题目:乐观和延迟在情节强化学习中的作用 翻译的摘要:对于情节强化学习的遗憾最小化问题,有许多算法可以实现遗憾最小化。从理论角度来看,只要与每个与环境交互的状态、动作和奖励序列即时更新策略的算法可用,该问题就是一个广为人知的问题。然而,在实践中,反馈几乎总是有延迟的。本文从理论角度研究了延迟反馈对情节强化学习的影响,并提出了两种处理延迟的通用方法。第一种方法是一旦有新信息就立即更新,而第二种方法则是等待使用新观测到的信息更新策略。对于乐观算法的类别和任一方法,我们表明遗憾增加了一个加性项,其中包括状态数、操作数、情节长度、预期延迟和一个与算法相关的常数。我们通过实验证明了各种延迟分布对乐观算法的遗憾的影响,从而验证了我们的理论结果。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
【干货书】机器学习理论与实践,299页pdf
专知会员服务
96+阅读 · 2022年12月5日
基于模型的强化学习综述
专知会员服务
141+阅读 · 2022年7月13日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
20+阅读 · 2021年10月24日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
16+阅读 · 2020年9月1日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
15+阅读 · 2020年8月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
【重磅】61篇NIPS2019深度强化学习论文及部分解读
AI科技评论
15+阅读 · 2019年9月9日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
强化学习——蒙特卡洛方法介绍
论智
12+阅读 · 2018年6月3日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
13+阅读 · 2022年10月20日
Arxiv
15+阅读 · 2022年6月14日
VIP会员
相关VIP内容
【干货书】机器学习理论与实践,299页pdf
专知会员服务
96+阅读 · 2022年12月5日
基于模型的强化学习综述
专知会员服务
141+阅读 · 2022年7月13日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
20+阅读 · 2021年10月24日
相关资讯
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
16+阅读 · 2020年9月1日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
15+阅读 · 2020年8月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
【重磅】61篇NIPS2019深度强化学习论文及部分解读
AI科技评论
15+阅读 · 2019年9月9日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
强化学习——蒙特卡洛方法介绍
论智
12+阅读 · 2018年6月3日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员