基于用户交互来优化排名系统是一个被广泛研究的问题。基于用户交互的优化排名系统的最先进方法分为在线方法(通过直接与用户交互进行学习)和反事实方法(通过历史交互进行学习)。现有的在线方法在没有在线干预的情况下会受到阻碍,因此不应该被用到反事实方法中。相反,反事实的方法不能直接从在线干预中获益。我们提出了一种新的干预感知估计器,用于反事实和在线学习排序(LTR)。随着干预感知估计器的引入,我们的目标是连接在线/反事实LTR部门,因为它在在线和反事实场景中都被证明是非常有效的。通过使用基于日志策略行为和在线干预(在收集点击数据期间对日志策略所做的更改)的校正,估计器可以校正位置偏差、信任偏差和项目选择偏差的影响。我们的实验结果,在一个半合成的实验设置中进行,结果表明,不像现有的反事实LTR方法,干预感知估计器可以从在线干预大大获益。
https://www.zhuanzhi.ai/paper/a7538e130a7fc65679e6e7d950bb4016