Optimizing ranking systems based on user interactions is a well-studied problem. State-of-the-art methods for optimizing ranking systems based on user interactions are divided into online approaches - that learn by directly interacting with users - and counterfactual approaches - that learn from historical interactions. Existing online methods are hindered without online interventions and thus should not be applied counterfactually. Conversely, counterfactual methods cannot directly benefit from online interventions. We propose a novel intervention-aware estimator for both counterfactual and online Learning to Rank (LTR). With the introduction of the intervention-aware estimator, we aim to bridge the online/counterfactual LTR division as it is shown to be highly effective in both online and counterfactual scenarios. The estimator corrects for the effect of position bias, trust bias, and item-selection bias by using corrections based on the behavior of the logging policy and on online interventions: changes to the logging policy made during the gathering of click data. Our experimental results, conducted in a semi-synthetic experimental setup, show that, unlike existing counterfactual LTR methods, the intervention-aware estimator can greatly benefit from online interventions.


翻译:优化基于用户互动的排名系统是一个研究周全的问题。优化基于用户互动的排名系统的最先进方法被分为在线方法----通过直接与用户互动学习,以及反事实方法----从历史互动中学习;现有的在线方法没有在线干预而受阻,因此不应反倒适用。相反,反事实方法不能直接从在线干预中受益。我们提议为反事实学习和在线学习向排名(LTR)提供具有新颖干预觉悟的测算器。随着干预觉察测器的引入,我们的目标是弥合在线/对抗事实LTR的划分,因为事实证明,这种划分在在线和反事实假设中都非常有效。根据伐木政策和在线干预行为进行校正,纠正定位偏差、信任偏差和项目选择偏差的影响:在收集点击数据时对伐木政策的修改。我们通过半合成实验设置的实验结果显示,与现有的反事实干预方法不同的是,干预能够从网上的巨大收益。

6
下载
关闭预览

相关内容

【AAAI2021】元学习器的冷启动序列推荐
专知会员服务
40+阅读 · 2020年12月19日
【CMU】最新深度学习课程, Introduction to Deep Learning
专知会员服务
36+阅读 · 2020年9月12日
专知会员服务
110+阅读 · 2020年3月20日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
聊聊RTA(Realtime API)
AINLP
28+阅读 · 2020年6月5日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
5+阅读 · 2018年3月28日
VIP会员
相关资讯
聊聊RTA(Realtime API)
AINLP
28+阅读 · 2020年6月5日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员