强化学习(RL)使智能体能够通过动态环境中的交互学习最佳决策。深度学习和强化学习的最新进展使得智能体在各个领域都取得了前所未有的成功,并在许多任务中取得了超人的表现。RL和深度学习影响了当今学术界和工业的几乎所有领域,将它们应用于信息检索(IR)的兴趣越来越大。像谷歌和阿里巴巴这样的公司已经开始使用基于强化学习的搜索和推荐引擎来个性化他们的服务,并在他们的生态系统中增强用户体验。
目前学习RL的在线资源要么专注于理论,牺牲了实践,要么局限于实践,缺乏足够的直觉和理论背景。这个全天的教程是为信息检索研究人员和实践者精心定制的,以获得最流行的RL方法的理论知识和实践经验,使用PyTorch和Python Jupyter 笔记本谷歌Colab。我们的目的是让参加者具备RL的应用知识,帮助他们更好地了解有关RL的最新IR出版物,并使他们能够使用RL解决自己的IR问题。
我们的教程不需要任何关于该主题的知识,并从基本概念和算法开始,如马尔科夫决策过程,探索与利用,Q-学习,决策梯度和Actor-Critic算法。我们特别关注强化学习和深度学习的结合,使用深度Q-Network (DQN)等算法。最后,我们描述了如何利用这些技术来解决代表性的IR问题,如“学习排序”,并讨论了最近的发展以及对未来研究的展望。
目录内容: RL Basics and Tabular Q-Learning Deep Q-Network (DQN) 1/2 (presentation) Deep Q-Network (DQN) 2/2 (hands-on) IR Applications using DQN Policy Gradient (REINFORCE) IR Applications using REINFORCE Actor Critic Outlook