We consider the off-policy evaluation (OPE) problem in contextual bandits, where the goal is to estimate the value of a target policy using the data collected by a logging policy. Most popular approaches to the OPE are variants of the doubly robust (DR) estimator obtained by combining a direct method (DM) estimator and a correction term involving the inverse propensity score (IPS). Existing algorithms primarily focus on strategies to reduce the variance of the DR estimator arising from large IPS. We propose a new approach called the Doubly Robust with Information borrowing and Context-based switching (DR-IC) estimator that focuses on reducing both bias and variance. The DR-IC estimator replaces the standard DM estimator with a parametric reward model that borrows information from the 'closer' contexts through a correlation structure that depends on the IPS. The DR-IC estimator also adaptively interpolates between this modified DM estimator and a modified DR estimator based on a context-specific switching rule. We give provable guarantees on the performance of the DR-IC estimator. We also demonstrate the superior performance of the DR-IC estimator compared to the state-of-the-art OPE algorithms on a number of benchmark problems.


翻译:我们考虑了背景土匪的离政策评价问题,目标是利用伐木政策收集的数据估计目标政策的价值。对目标政策最受欢迎的方法,是通过结合直接方法(DM)估计仪和涉及反偏向性分数(IPS)的校正术语而获得的双强估计仪的变体。现有的算法主要侧重于减少大型IPS产生的DR估计仪差异的战略。我们提出了一种新办法,称为“Doubly Robust 与信息借款和基于背景的转换(DR-IC)估计仪,重点是减少偏差和差异。DMS-IC估计仪将标准估计数替换为“DM(DM)估计数”的参数性能模型,通过取决于IPS的关联结构从“Clober”背景中借用信息。DR-IC估计仪的测算仪和基于特定背景的转换规则(DR)调算码(DR-IC)的调控器。我们用SDRAA标准向国家测试基准数字的性能保证。

0
下载
关闭预览

相关内容

专知会员服务
76+阅读 · 2021年3月16日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
强化学习 DQN 初探之2048
DataFunTalk
7+阅读 · 2019年12月10日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
多高的AUC才算高?
ResysChina
7+阅读 · 2016年12月7日
Arxiv
0+阅读 · 2022年2月22日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
强化学习 DQN 初探之2048
DataFunTalk
7+阅读 · 2019年12月10日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
多高的AUC才算高?
ResysChina
7+阅读 · 2016年12月7日
Top
微信扫码咨询专知VIP会员