交互式信息检索:模型、算法和评估

由于信息检索(IR)通常是一个交互过程,因此研究交互式信息检索(IIR)是很重要的,在IIR中,我们将尝试建模和优化整个交互式检索过程(而不是单个查询),同时考虑用户可能与搜索引擎交互的许多不同方式。本教程系统地回顾了IIR的研究进展,重点介绍了IIR的模型、算法和评估策略的最新进展。首先对IIR的研究进行了广泛的概述,然后介绍了使用合作博弈框架进行IIR的形式化模型,并涵盖了决策理论模型,如接口卡模型和IIR的概率排序原理。接下来,它提供了一个审查一些代表特定的信息检索的技术和算法,如各种形式的反馈技术和多样化的搜索结果,然后讨论了应该如何评价一个信息检索系统和多种策略提出最近使用模拟的用户评价信息检索。本教程最后简要讨论了IIR中的主要开放挑战和一些最有前途的未来研究方向。

视频地址:

https://sigir-preview.baai.ac.cn/vod-0726/tut0008.mp4

成为VIP会员查看完整内容
0
23

相关内容

翟成祥,美国伊利诺伊大学香槟分校(UIUC)计算机系教授,Willett Faculty Scholar,并在该校的生物信息研究所,信息科学学院,及统计系任兼职教授。于1990年、2002年分别获得南京大学计算机博士学位和卡耐基梅隆大学语言和信息技术博士学位。官网地址:https://baike.baidu.com/item/%E7%BF%9F%E6%88%90%E7%A5%A5/5987359?fr=aladdin

生成式模型是以图模型和概率编程语言中的概率推理的重要范式。神经网络对这些模型的参数化和基于梯度的随机优化技术的进步使得高维数据的可扩展建模成为可能。

本教程的前半部分将全面回顾深度生成模型的主要家族,包括生成对抗网络、变分自编码器、标准化流和自回归模型。对于每一个模型,我们将讨论概率公式,学习算法,以及与其他模型的关系。本教程的后半部分将演示在科学发现中使用深度生成模型的方法,例如材料和药物发现、压缩感知等等。最后,我们将讨论该领域目前的挑战和未来研究的前景。

https://dl4sci-school.lbl.gov/agenda

成为VIP会员查看完整内容
0
30

经典的随机优化结果通常假设数据的各种属性的已知值(例如Lipschitz常数、到最优点的距离、平滑性或强凸性常数)。不幸的是,在实践中,这些值是未知的,因此必须经过长时间的反复试验才能找到最佳参数。

为了解决这一问题,近年来许多无参数算法已经被开发用于在线优化和在线学习。无参数算法对数据的性质不作任何假设,但收敛速度与最优优化算法一样快。

这是一项令人兴奋的工作,现在已经足够成熟,可以教授给普通观众了。实际上,这些算法还没有得到机器学习社区的适当介绍,只有少数人完全理解它们。本教程旨在弥补这一差距,介绍使用和设计无参数算法的实践和理论。我们将介绍该领域的最新进展,包括优化、深度学习和使用内核学习的应用。

https://parameterfree.com/icml-tutorial/

成为VIP会员查看完整内容
0
44

本教程对基于模型的强化学习(MBRL)领域进行了广泛的概述,特别强调了深度方法。MBRL方法利用环境模型来进行决策——而不是将环境视为一个黑箱——并且提供了超越无模型RL的独特机会和挑战。我们将讨论学习过渡和奖励模式的方法,如何有效地使用这些模式来做出更好的决策,以及规划和学习之间的关系。我们还强调了在典型的RL设置之外利用世界模型的方式,以及在设计未来的MBRL系统时,从人类认知中可以得到什么启示。

https://sites.google.com/view/mbrl-tutorial

近年来,强化学习领域取得了令人印象深刻的成果,但主要集中在无模型方法上。然而,社区认识到纯无模型方法的局限性,从高样本复杂性、需要对不安全的结果进行抽样,到稳定性和再现性问题。相比之下,尽管基于模型的方法在机器人、工程、认知和神经科学等领域具有很大的影响力,但在机器学习社区中,这些方法的开发还不够充分(但发展迅速)。它们提供了一系列独特的优势和挑战,以及互补的数学工具。本教程的目的是使基于模型的方法更被机器学习社区所认可和接受。鉴于最近基于模型的规划的成功应用,如AlphaGo,我们认为对这一主题的全面理解是非常及时的需求。在教程结束时,观众应该获得:

  • 数学背景,阅读并跟进相关文献。
  • 对所涉及的算法有直观的理解(并能够访问他们可以使用和试验的轻量级示例代码)。
  • 在应用基于模型的方法时所涉及到的权衡和挑战。
  • 对可以应用基于模型的推理的问题的多样性的认识。
  • 理解这些方法如何适应更广泛的强化学习和决策理论,以及与无模型方法的关系。
成为VIP会员查看完整内容
0
81

题目: Bayesian Inferential Risk Evaluation On Multiple IR Systems

摘要:

生产系统中的信息检索(IR)排序模型会根据用户的反馈、研究的见解和新发展不断进化。商业提供商可能会选择同时探索多个新的排名模型,而不是投资所有的工程资源来产生一个对现有系统的单一挑战者。然而,即使对复杂模型进行微小的更改,也可能产生意想不到的后果。特别是,每个主题的有效性配置文件很可能会发生变化,即使在实现了全面的改进时,也很少能从每个查询中观察到收益,这带来了这样的风险:如果部署到生产环境中,一些用户或查询可能会受到新模型的负面影响。

在进行一对一系统比较时,可以进行风险调整,即相对于收益重估损失并减轻此类行为,但对于一对多或多对一比较则不适用。此外,没有一种IR评估方法将来自先前或备选排序的先验整合到一个同质的推理框架中。在这项工作中,我们提出了贝叶斯方法,即多个挑战者与一个冠军进行比较。我们还展示了风险可以被纳入,并展示了这样做的好处。最后,还考虑了学术研究中经常遇到的另一种情况,即一个挑战者与几个前冠军进行比较。

成为VIP会员查看完整内容
0
5

位置偏差是信息检索中处理隐式但有偏差的用户反馈数据的关键问题。无偏排序方法通常依赖于因果关系模型,并通过反倾向加权消除用户反馈的偏差。这些方法虽然实用,但仍存在两个主要问题。首先,在推断用户单击时,上下文信息(如已检查的文档)的影响常常被忽略。第二,只考虑了位置偏差,忽略了用户浏览行为引起的其他问题。在本文中,我们提出了一个端到端的深度递归生存排序(DRSR),一个统一的框架来联合建模用户的各种行为,以 (i)考虑排序列表中丰富的上下文信息; (ii)解决隐藏在用户行为背后的问题,即,在没有任何点击的查询中挖掘观察模式(非点击查询),对不能真实反映用户浏览意图的跟踪日志进行建模(不可信观察)。具体来说,我们采用递归神经网络来建模上下文信息,并估计用户在每个位置反馈的条件似然。然后,我们将生存分析技术与概率链式法则相结合,以数学方式恢复一个用户的各种行为的无偏联合概率。DRSR可以很容易地与点和成对的学习目标结合起来。对两个大型工业数据集的大量实验表明,我们的模型与最先进的技术相比,具有显著的性能增益。

成为VIP会员查看完整内容
0
19

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
124

近年来,序列推荐系统这一新兴的研究课题越来越受到人们的关注。与传统的推荐系统(包括协同过滤和基于内容的过滤)不同,SRSs试图理解和建模连续的用户行为、用户和条目之间的交互、以及用户偏好和条目受欢迎程度随时间的变化。SRSs涉及到以上几个方面,可以更准确地描述用户上下文、意图和目标,以及物品的消费趋势。我们首先介绍了SRSs的特点,然后对该研究领域的关键挑战进行了总结和分类,接着是相应的研究进展,包括该课题最新的和有代表性的进展。最后,讨论了该领域的重要研究方向。

成为VIP会员查看完整内容
0
64

知识图谱封装了实体和关系。知识图谱的简洁表示格式和图的特性使得许多新的Web应用程序得以创建,并增强了现有的应用性能。然而,在一个知识图谱中,描述一个实体的几十个或几百个事实可能会超出一个典型用户界面的能力,并使用户超载过多的信息。这激发了对实体摘要的富有成果的研究——为实体自动生成紧凑的摘要,以高效和有效地满足用户的信息需求。例如,在其搜索结果页面右侧,谷歌通过选择和显示用户可能正在搜索的特定实体的一些事实,为其知识图中的实体提供“最佳摘要”。

近年来,研究人员通过提出从纯粹的排序和挖掘技术到机器和深度学习技术等各种方法,对这个问题做出了贡献。技术水平不断提高,同时也使社区和新来者很难跟上该领域最近和过去的贡献。此外,尽管知识图谱在学术界和产业界越来越流行,但迄今为止还没有对该问题领域的最新趋势和基本构件进行教育和讨论。本教程的目的就是填补这一空白。

链接: https://pan.baidu.com/s/1qSv16wZEAJWUcwx40ByvwQ 提取码: g9bq

成为VIP会员查看完整内容
0
58

【导读】越来越明显的是,广泛采用的机器学习模型可能导致歧视性结果,并可能加剧训练数据之间的差异。随着越来越多的机器学习用于现实世界中的决策任务,必须解决机器学习中的偏见和公平问题。我们的动机是,在各种新兴方法中,表示学习为评估和潜在地减轻不公平现象提供了独特的工具集。本教程介绍了现有的研究,并提出了在表示学习和公平的交集中存在的开放性问题。我们将研究学习公平任务不可知表示的可能性(不可能性),公平性和泛化性能之间的联系,以及利用来自表示形式学习的工具来实现算法上的个人和群体公平性的机会。本教程旨在为广大的机器学习实践者提供帮助,并且必要的背景知识是预测性机器学习的工作知识。

作者介绍

Sanmi Koyejo,伊利诺伊大学香槟分校计算机科学系助理教授。

研究综述: 我们的研究兴趣是开发自适应鲁棒机器学习的原理和实践。最近的一些亮点包括:1)可伸缩的、分布式的和容错的机器学习;2)度量引出;通过人机交互选择更有效的机器学习指标。我们的应用研究主要集中在认知神经成像和生物医学成像方面。最近的一些重点包括①生物图像的生成模型,②时变脑电图的估计和分析。

http://sanmi.cs.illinois.edu/

成为VIP会员查看完整内容
0
37
小贴士
相关论文
Aidan Hogan,Eva Blomqvist,Michael Cochez,Claudia d'Amato,Gerard de Melo,Claudio Gutierrez,José Emilio Labra Gayo,Sabrina Kirrane,Sebastian Neumaier,Axel Polleres,Roberto Navigli,Axel-Cyrille Ngonga Ngomo,Sabbir M. Rashid,Anisa Rula,Lukas Schmelzeisen,Juan Sequeda,Steffen Staab,Antoine Zimmermann
81+阅读 · 2020年3月4日
A Survey of Learning Causality with Data: Problems and Methods
Ruocheng Guo,Lu Cheng,Jundong Li,P. Richard Hahn,Huan Liu
8+阅读 · 2018年9月25日
Efficient and Effective $L_0$ Feature Selection
Ana Kenney,Francesca Chiaromonte,Giovanni Felici
5+阅读 · 2018年8月7日
Stephen Bonner,Flavian Vasile
20+阅读 · 2018年8月3日
Shudong Hao,Michael J. Paul
3+阅读 · 2018年6月11日
Honggang Zhou,Yunchun Li,Hailong Yang,Wei Li,Jie Jia
3+阅读 · 2018年4月26日
Yuming Shen,Li Liu,Fumin Shen,Ling Shao
4+阅读 · 2018年3月6日
Henrique X. Goulart,Guilherme A. Wachs-Lopes
4+阅读 · 2018年2月28日
Massimo Quadrana,Paolo Cremonesi,Dietmar Jannach
8+阅读 · 2018年2月23日
B. V. Patel,B. B. Meshram
3+阅读 · 2012年11月20日
Top
微信扫码咨询专知VIP会员