We consider off-policy evaluation (OPE) in Partially Observable Markov Decision Processes (POMDPs), where the evaluation policy depends only on observable variables and the behavior policy depends on unobservable latent variables. Existing works either assume no unmeasured confounders, or focus on settings where both the observation and the state spaces are tabular. As such, these methods suffer from either a large bias in the presence of unmeasured confounders, or a large variance in settings with continuous or large observation/state spaces. In this work, we first propose novel identification methods for OPE in POMDPs with latent confounders, by introducing bridge functions that link the target policy's value and the observed data distribution. In fully-observable MDPs, these bridge functions reduce to the familiar value functions and marginal density ratios between the evaluation and the behavior policies. We next propose minimax estimation methods for learning these bridge functions. Our proposal permits general function approximation and is thus applicable to settings with continuous or large observation/state spaces. Finally, we construct three estimators based on these estimated bridge functions, corresponding to a value function-based estimator, a marginalized importance sampling estimator, and a doubly-robust estimator. Their nonasymptotic and asymptotic properties are investigated in detail.


翻译:在部分可观测的Markov决策程序(POMDPs)中,我们考虑的是政策评估(OPE),在部分可观测的Markov决策程序(POMDPs)中,评价政策仅依赖于可观测的变量,行为政策则依赖于不可观测的潜在变量。现有的工程要么假设没有不测的混杂者,要么侧重于观测和州空间均采用列表表的设置。因此,这些方法要么在存在不测的混杂者时存在很大的偏差,要么在具有连续或大观测/状态空间的环境中存在很大的差异。在这项工作中,我们首先为POMDPs中与潜伏的共聚体的OPE提出新的识别方法,方法是引入连接目标政策价值和观察到的数据分布的桥梁功能。在完全可观测的 MDPs中,这些连接功能将降低到熟悉的价值功能以及评估与行为政策之间的边际密度比。我们接下来提出用于学习这些桥梁功能的微缩算方法。我们的提案允许一般功能的近似值,因此适用于连续或大型观测/状态环境。最后,我们根据这些估计的桥梁功能,我们根据这些估计的桥梁功能,根据一个价值的边际、边际、边际性、边际性、边际的精确的属性,我们根据它们作为一个基于最高价值的模型的模型的模型和底的属性,我们建造了三个。

0
下载
关闭预览

相关内容

【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
108+阅读 · 2020年11月12日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
On the Estimation Bias in Double Q-Learning
Arxiv
0+阅读 · 2022年1月14日
Arxiv
0+阅读 · 2022年1月13日
Arxiv
0+阅读 · 2022年1月13日
Deep Learning for Energy Markets
Arxiv
10+阅读 · 2019年4月10日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Top
微信扫码咨询专知VIP会员