题目: Bayesian Inferential Risk Evaluation On Multiple IR Systems
摘要:
生产系统中的信息检索(IR)排序模型会根据用户的反馈、研究的见解和新发展不断进化。商业提供商可能会选择同时探索多个新的排名模型,而不是投资所有的工程资源来产生一个对现有系统的单一挑战者。然而,即使对复杂模型进行微小的更改,也可能产生意想不到的后果。特别是,每个主题的有效性配置文件很可能会发生变化,即使在实现了全面的改进时,也很少能从每个查询中观察到收益,这带来了这样的风险:如果部署到生产环境中,一些用户或查询可能会受到新模型的负面影响。
在进行一对一系统比较时,可以进行风险调整,即相对于收益重估损失并减轻此类行为,但对于一对多或多对一比较则不适用。此外,没有一种IR评估方法将来自先前或备选排序的先验整合到一个同质的推理框架中。在这项工作中,我们提出了贝叶斯方法,即多个挑战者与一个冠军进行比较。我们还展示了风险可以被纳入,并展示了这样做的好处。最后,还考虑了学术研究中经常遇到的另一种情况,即一个挑战者与几个前冠军进行比较。