反事实估计器允许使用现有日志数据来估计一些新的目标推荐策略将如何执行(如果使用它而不是记录数据的策略)。我们说那些估计器“off-policy”工作,因为记录数据的策略与目标策略不同。通过这种方式,反事实估计器支持类似于无偏离线A/B测试的Off-policy Evaluation (OPE),以及通过Off-policy learning (OPL)学习新的推荐策略。本教程的目标是总结OPE/OPL的基础、实现和最新进展。具体来说,我们将介绍OPE/OPL的基本原理,并提供传统方法的理论和经验比较。然后,我们将讨论正在出现的实际挑战,如如何考虑组合行动、分配转移、曝光的公平性和双边市场结构。然后我们将展示Open Bandit Pipeline,一个用于OPE/OPL的开源包,以及如何将它用于研究和实际目的。我们将通过展示真实世界的案例研究和未来的方向来结束本教程。
交互式决策系统如广告/推荐/搜索平台产生的日志数据对评估和重新设计系统有价值。例如,新闻推荐系统的日志记录了哪些新闻文章出现过,以及用户是否阅读过它,这给了系统设计师重新设计其推荐的机会,使其更相关。然而,利用日志盗版者数据比传统的监督机器学习要困难得多,因为结果只观察到系统选择的动作,而不是系统可能采取的所有其他动作。日志也有偏差,因为它们过度反映了系统偏爱的操作。这个问题的一个潜在解决方案是A/B测试,在在线环境中比较竞争系统的性能。然而,A/B测试系统通常很困难,因为部署新策略既费时又费钱,还会带来失败的风险。这激发了OPE/OPL的问题,该问题旨在评估新策略的性能或仅使用过去策略收集的日志数据对其进行训练。
由于它们的实际意义,对OPE/OPL的理论和方法研究越来越多。然而,将这些方法应用到实际应用中并不总是简单的,因为在实践中可能会出现许多挑战,例如组合/连续操作、分布转移和公开需求的公平性。本教程旨在弥合OPE/OPL理论和实践之间的差距。具体来说,我们将介绍OPE/OPL的基本原理,并从理论和经验的角度对传统方法进行比较。然后,我们将介绍该领域最近的进展,以应对正在出现的实际挑战。然后我们将展示一个开源包Open Bandit Pipeline1[15],以及它如何帮助我们实现用于研究和实际目的的OPE/OPL。我们还将介绍真实世界的案例研究和未来的方向。
Tutorial Outline 目录内容
Off-Policy Evaluation (Thorstem Joachims; 30min) Setup and Foundations Bias-Variance Control (Yuta Saito; 35min) Advanced Off-Policy Estimators Recent Advances (Yuta Saito; 35min) Off-Policy Evaluation for Practical Settings Off-Policy Learning (Thorsten Joachims; 40min) Learning Approaches and Methods Implementations (Yuta Saito; 30min) Open Bandit Pipeline Summary and QA (Both presenters; 10min)