题目: Bayesian Inferential Risk Evaluation On Multiple IR Systems

摘要:

生产系统中的信息检索(IR)排序模型会根据用户的反馈、研究的见解和新发展不断进化。商业提供商可能会选择同时探索多个新的排名模型,而不是投资所有的工程资源来产生一个对现有系统的单一挑战者。然而,即使对复杂模型进行微小的更改,也可能产生意想不到的后果。特别是,每个主题的有效性配置文件很可能会发生变化,即使在实现了全面的改进时,也很少能从每个查询中观察到收益,这带来了这样的风险:如果部署到生产环境中,一些用户或查询可能会受到新模型的负面影响。

在进行一对一系统比较时,可以进行风险调整,即相对于收益重估损失并减轻此类行为,但对于一对多或多对一比较则不适用。此外,没有一种IR评估方法将来自先前或备选排序的先验整合到一个同质的推理框架中。在这项工作中,我们提出了贝叶斯方法,即多个挑战者与一个冠军进行比较。我们还展示了风险可以被纳入,并展示了这样做的好处。最后,还考虑了学术研究中经常遇到的另一种情况,即一个挑战者与几个前冠军进行比较。

成为VIP会员查看完整内容
8

相关内容

已删除
创业邦杂志
5+阅读 · 2019年3月27日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
CIIS2018演讲实录丨王昊奋:智能问答在企业计算中的机遇与挑战
检测与识别人与目标之间的互动
极市平台
5+阅读 · 2018年10月12日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
43+阅读 · 2017年10月31日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
VIP会员
相关VIP内容
相关资讯
已删除
创业邦杂志
5+阅读 · 2019年3月27日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
CIIS2018演讲实录丨王昊奋:智能问答在企业计算中的机遇与挑战
检测与识别人与目标之间的互动
极市平台
5+阅读 · 2018年10月12日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
43+阅读 · 2017年10月31日
微信扫码咨询专知VIP会员