题目: Policy-Aware Unbiased Learning to Rank for Top-𝑘 Rankings
摘要:
反事实学习排序(LTR)方法使用包含交互偏差的登录用户交互来优化排序系统。只有当用户在每个排序中都能看到所有相关的条目时,现有的方法才是公正的。目前还没有现有的反事实的无偏LTR的top-K排序的方法。文中引入了一种新的策略感知的LTR度量的反事实估计器,它可以解释随机测井策略的影响。如果每个相关项目都有一个非零概率出现在top-K排名中,就可以证明policy-aware估计量是无偏 我们的实验结果表明,估计量的性能不受𝑘大小的影响:对于任何𝑘,policy-aware估计量达到相同的检索性能,同时学习从top-K中反馈完整的排序。最后,将介绍扩展传统的LTR方法执行反事实的LTR和优化前𝑘指标。文中主要贡献主要有介绍第一个policy-aware无偏LTR方法,学习从top-𝑘反馈和优化前𝑘指标。因此,反事实的LTR现在普遍适用于搜索和推荐中的top-𝑘排序。