Efficient methods to evaluate new algorithms are critical for improving interactive bandit and reinforcement learning systems such as recommendation systems. A/B tests are reliable, but are time- and money-consuming, and entail a risk of failure. In this paper, we develop an alternative method, which predicts the performance of algorithms given historical data that may have been generated by a different algorithm. Our estimator has the property that its prediction converges in probability to the true performance of a counterfactual algorithm at a rate of $\sqrt{N}$, as the sample size $N$ increases. We also show a correct way to estimate the variance of our prediction, thus allowing the analyst to quantify the uncertainty in the prediction. These properties hold even when the analyst does not know which among a large number of potentially important state variables are actually important. We validate our method by a simulation experiment about reinforcement learning. We finally apply it to improve advertisement design by a major advertisement company. We find that our method produces smaller mean squared errors than state-of-the-art methods.


翻译:评估新算法的有效方法对于改进互动式强盗和强化学习系统(如建议系统)至关重要。 A/B测试是可靠的,但耗费时间和金钱,并有失败的风险。在本文件中,我们开发了一种替代方法,预测算法的性能,给出了可能由不同算法产生的历史数据。我们的估测器拥有其预测与反事实算法真实性能的概率一致的属性,随着样本规模的增加,其价格将达到$\sqrt{N}。我们还展示了一种正确的方法来估计我们的预测差异,从而允许分析师量化预测中的不确定性。这些属性即使分析师不知道大量潜在重要的国家变量中哪些是实际重要的。我们通过关于强化学习的模拟实验来验证我们的方法。我们最后运用它来改进大型广告公司广告设计。我们发现我们的方法产生的平均正方差比状态方法要小。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【干货书】机器学习Primer,122页pdf
专知会员服务
106+阅读 · 2020年10月5日
专知会员服务
53+阅读 · 2020年3月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年10月3日
Arxiv
0+阅读 · 2021年10月1日
Arxiv
92+阅读 · 2020年2月28日
Arxiv
23+阅读 · 2018年8月3日
Graph-Based Recommendation System
Arxiv
4+阅读 · 2018年7月31日
Arxiv
6+阅读 · 2018年3月28日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
0+阅读 · 2021年10月3日
Arxiv
0+阅读 · 2021年10月1日
Arxiv
92+阅读 · 2020年2月28日
Arxiv
23+阅读 · 2018年8月3日
Graph-Based Recommendation System
Arxiv
4+阅读 · 2018年7月31日
Arxiv
6+阅读 · 2018年3月28日
Top
微信扫码咨询专知VIP会员