We study the reinforcement learning for finite-horizon episodic Markov decision processes with adversarial reward and full information feedback, where the unknown transition probability function is a linear function of a given feature mapping. We propose an optimistic policy optimization algorithm with Bernstein bonus and show that it can achieve $\tilde{O}(dH\sqrt{T})$ regret, where $H$ is the length of the episode, $T$ is the number of interaction with the MDP and $d$ is the dimension of the feature mapping. Furthermore, we also prove a matching lower bound of $\tilde{\Omega}(dH\sqrt{T})$ up to logarithmic factors. To the best of our knowledge, this is the first computationally efficient, nearly minimax optimal algorithm for adversarial Markov decision processes with linear function approximation.


翻译:我们用对抗性奖赏和充分的信息反馈来研究关于有限和偏差的Spidic Markov 决策程序的强化学习,其中未知的过渡概率函数是某个特性绘图的线性函数。我们建议用伯恩斯坦奖金来提出一个乐观的政策优化算法,并表明它能够达到$\tilde{O}(dH\sqrt{T})美元(dH\sqrt{T})的遗憾,其中H$是插曲的长度,$T$是同MDP的互动次数,$d$是特征绘图的维度。此外,我们还证明匹配的比值较低,为$\tilde_Omega}(dH\sqrt{T}),最高达对数系数。据我们所知,这是第一个计算高效的、接近线性函数的对抗性Markov 决策过程的近似小型最佳算法。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
28+阅读 · 2020年11月4日
【论文】欺骗学习(Learning by Cheating)
专知会员服务
26+阅读 · 2020年1月3日
已删除
将门创投
5+阅读 · 2018年10月16日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
5+阅读 · 2018年4月22日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2018年10月16日
Top
微信扫码咨询专知VIP会员