Off-policy learning is a framework for evaluating and optimizing policies without deploying them, from data collected by another policy. Real-world environments are typically non-stationary and the offline learned policies should adapt to these changes. To address this challenge, we study the novel problem of off-policy optimization in piecewise-stationary contextual bandits. Our proposed solution has two phases. In the offline learning phase, we partition logged data into categorical latent states and learn a near-optimal sub-policy for each state. In the online deployment phase, we adaptively switch between the learned sub-policies based on their performance. This approach is practical and analyzable, and we provide guarantees on both the quality of off-policy optimization and the regret during online deployment. To show the effectiveness of our approach, we compare it to state-of-the-art baselines on both synthetic and real-world datasets. Our approach outperforms methods that act only on observed context.


翻译:离政策学习是评估和优化政策而不部署政策的框架,它来自另一项政策收集的数据。现实世界环境通常是非静止的,离线学习的政策应该适应这些变化。为了应对这一挑战,我们研究了非政策优化的新问题。为了应对这一挑战,我们研究了在零星静止背景土匪中脱离政策优化的新问题。我们提出的解决方案分为两个阶段。在离线学习阶段,我们将记录的数据分解成绝对隐蔽的状态,并为每个州学习近乎最佳的次级政策。在在线部署阶段,我们根据它们的表现适应了在所学的次政策之间的转换。这个方法既实用又可分析,我们为离政策优化的质量提供保障,也为在线部署过程中的遗憾提供了保障。为了展示我们的方法的有效性,我们将其与合成和真实世界数据集的最新基线进行比较。我们的方法超越了仅根据观察到的背景行事的方法。

0
下载
关闭预览

相关内容

专知会员服务
142+阅读 · 2021年3月17日
如何撰写好你的博士论文?CMU-Priya博士这30页ppt为你指点
专知会员服务
56+阅读 · 2020年10月30日
专知会员服务
39+阅读 · 2020年9月6日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
110+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
11+阅读 · 2020年12月2日
VIP会员
相关VIP内容
专知会员服务
142+阅读 · 2021年3月17日
如何撰写好你的博士论文?CMU-Priya博士这30页ppt为你指点
专知会员服务
56+阅读 · 2020年10月30日
专知会员服务
39+阅读 · 2020年9月6日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
110+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员