We consider reinforcement learning (RL) in Markov Decision Processes in which an agent repeatedly interacts with an environment that is modeled by a controlled Markov process. At each time step $t$, it earns a reward, and also incurs a cost-vector consisting of $M$ costs. We design learning algorithms that maximize the cumulative reward earned over a time horizon of $T$ time-steps, while simultaneously ensuring that the average values of the $M$ cost expenditures are bounded by agent-specified thresholds $c^{ub}_i,i=1,2,\ldots,M$. The considerations on the cumulative cost expenditures departs from the existing literature, in that the agent now additionally needs to balance the cost expenses in an online manner, while simultaneously performing the exploration-exploitation trade-off that is typically encountered in RL tasks. In order to measure the performance of a reinforcement learning algorithm that satisfies the average cost constraints, we define an $M+1$ dimensional regret vector that is composed of its reward regret, and $M$ cost regrets. The reward regret measures the sub-optimality in the cumulative reward, while the $i$-th component of the cost regret vector is the difference between its $i$-th cumulative cost expense and the expected cost expenditures $Tc^{ub}_i$. We prove that with a high probablity, the regret vector of UCRL-CMDP is upper-bounded as $O\left( S\sqrt{AT^{1.5}\log(T)}\right)$, where $S$ is the number of states, $A$ is the number of actions, and $T$ is the time horizon. We further show how to reduce the regret of a desired subset of the $M$ costs, at the expense of increasing the regrets of rewards and the remaining costs. To the best of our knowledge, ours is the only work that considers non-episodic RL under average cost constraints, and derive algorithms that can~\emph{tune the regret vector} according to the agent's requirements on its cost regrets.


翻译:我们考虑在Markov Decision Processes中强化学习(RL),在这个过程中,一个代理商反复与以受控的Markov 程序为模型的环境互动。每一步,它都会得到美元报酬,并产生由美元成本构成的成本。我们设计了学习算法,在T$的时段里最大限度地增加累积的收益,同时确保美元成本支出的平均值受代理商规定的阈值($%%%i=1,2,rdots,M美元)。累计成本支出的考虑因素与现有文献不同,因为代理商现在需要额外平衡在线成本支出,同时进行勘探-开发交易,通常在RL任务中遇到的是一个成本。为了衡量能够满足平均成本限制的强化学习算法的性能,我们只定义了以M+1美元为基米的遗憾量,这包括它的回报率差值,而美元成本进一步确定。 报酬遗憾地是,在累积的AAT AT 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 水平 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本 成本

0
下载
关闭预览

相关内容

最新《序列预测问题导论》教程,212页ppt
专知会员服务
84+阅读 · 2020年8月22日
【DeepMind】强化学习教程,83页ppt
专知会员服务
151+阅读 · 2020年8月7日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
10+阅读 · 2021年11月3日
Arxiv
3+阅读 · 2021年11月1日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
24+阅读 · 2021年1月25日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
5+阅读 · 2018年6月12日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员