强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

2019 年 2 月 19 日 专知

【导读】近日京东与密歇根州立大学研究者联合发布了一篇强化学习应用综述《深度强化学习在搜索，推荐和在线广告中的应用》，重点介绍强化学习在这三个商业领域中发挥重大作用的前沿技术。

强化与深度学习结合，解决海量数据的泛化问题，取得了让⼈印象深刻的成果。包括 DeepMind 的⾃动学习玩 ATARI 游戏，以及 AlphaGo 在围棋⼤赛中战胜世界冠军等，其背后的强⼤武器就是深度强化学习技术。相对于 DeepMind 和学术界看重强化学习的前沿研究。许多互联网公司将重点放在推动强化学习技术输出及商业应⽤。比如在电商平台中，⼈机交互的便捷，碎⽚化使⽤的普遍性，页⾯切换的串⾏化，⽤户轨迹的可跟踪性等都要求我们的系统能够对变幻莫测的⽤户⾏为以及瞬息万变的外部环境进⾏完整地建模。平台作为信息的载体，需要在与消费者的互动过程中，根据对消费者（环境）的理解，及时调整提供信息（商品、客服机器⼈的回答、路径选择等）的策略，从⽽最⼤化过程累积收益（消费者在平台上的使⽤体验）。基于监督学习⽅式的信息提供⼿段，缺少有效的探索能⼒，系统倾向于给消费者推送曾经发⽣过⾏为的信息单元（商品、店铺或问题答案）。⽽强化学习作为⼀种有效的基于⽤户与系统交互过程建模和最⼤化过程累积收益的学习⽅法。

相关阅读：

《强化学习在阿里的技术演进与业务创新》154页图书

https://102.alibaba.com/downloadFile.do?file=1517812754285/reinforcement_learning.pdf

题目：Deep Reinforcement Learning for Search, Recommendation, and Online Advertising: A Survey

作者：Xiangyu Zhao, Long Xia, Jiliang Tang, Dawei Yin

【摘要】搜索，推荐和在线广告是网络上最重要的三种信息提供机制。这些信息搜索技术通过在适当的时间和地点为用户提供个性化的对象(信息或服务)来满足用户的信息需求，在缓解信息过载问题中发挥着至关重要的作用。随着近年来深度强化学习(DRL)技术的飞速发展，基于DRL的信息搜索技术也越来越受到人们的关注。这些基于DRL的技术具有两个关键优势（1）他们能够根据用户的实时反馈不断更新信息搜索策略，以及（2）他们可以最大化来自用户的预期累积长期奖励。根据寻求信息应用程序的不同，用户奖励有不同的定义，例如点击率，收入，用户满意度和参与度。在本文中，我们概述了搜索、推荐和在线广告的深度强化学习，从方法到应用，回顾了有代表性的算法，并讨论了一些有吸引力的研究方向。

参考链接：

https://arxiv.org/abs/1812.07127

请关注专知公众号（点击上方蓝色专知关注）

后台回复“深度强化学习综述” 就可以获取深度强化学习在搜索，推荐和在线广告中的应用综述的下载链接~

引言

万维网的爆炸性增长产生了大量的数据。因此，信息超载问题日益严重[Chang etal. 2006]。因此，如何在适当的时间和地点识别出满足用户信息需求的对象变得越来越重要，这就激发了具有代表性的三种信息获取机制——搜索、推荐和在线广告。搜索机制输出匹配查询的对象，推荐机制生成一组匹配用户隐含偏好的项，在线广告机制类似于搜索和推荐，期望呈现的对象是广告[Garcia-Molina et al. 2011]。为这三种信息搜寻机制设计智能方法已经做了大量努力。然而，传统技术经常面临几个共同的挑战。首先，现有的大多数方法将信息搜索视为静态任务，并按照固定的贪心策略生成对象。这可能无法捕获用户偏好(或环境)的动态特性。其次，大多数传统方法都是为了最大限度地提高短期奖励，同时完全忽略了建议的对象是否会对长期奖励做出更多贡献[Shani et al. 2005]。请注意，奖励在信息搜索任务之间有不同的定义，例如点击率(CTR)、收入和停留时间。

使用强化学习（RL）进行信息搜索可以很自然地解决上述挑战。首先，将信息搜索任务视为RL agent (system)与用户(environment)之间的顺序交互，agent可以在交互过程中根据用户的实时反馈不断更新策略，直到系统收敛到生成最匹配用户动态偏好的对象的最优策略。其次，RL框架旨在最大化用户的长期累积回报。因此，agent能够识别出即时奖励较小但长期对奖励贡献较大的对象。

在这个综述中，文章提出了最前沿的基于强化学习的信息获取技术的全面综述，并讨论了一些未来的方向。综述的其余部分组织如下。在第二节中，将介绍基于强化学习的信息获取技术的技术基础。然后从第3节到第5节，我们回顾三个关键的信息搜索任务-搜索，推荐，和在线广告以及具有代表性的算法。最后，对本文的工作进行了总结，并提出了今后的研究方向。

第三节强化学习用于搜索

搜索的目的是基于用户查询来查找和排列一组对象(例如文档、记录)[Yin et al.]。在本节中，我们将回顾强化学习在搜索关键主题中的应用。

第四节强化学习用于推荐

推荐系统的目标是根据用户的反馈(或行为，例如评级和评论)捕捉用户的偏好，并建议与用户偏好匹配的项目。在本节中，我们将简要回顾RL是如何在推荐的几个关键任务中进行调整的。

第五节强化学习用于在线广告

网络广告的目标是将合适的广告分配给合适的用户，从而使广告活动的收入、点击率(CTR)或投资回报(ROI)最大化。在线广告的两种主要营销策略是保证交付(GD)和实时竞价(RTB)。

第六结给出了结论与未来方向

在本文中，文章从强化学习的角度对信息获取进行了概述。首先介绍了基于RL的信息搜索方法的数学基础。然后我们回顾了三个代表性的信息获取机制的最先进的算法-搜索，推荐和在线广告。接下来，我们将讨论一些关于强化学习的有趣的研究方向，这些研究方向可以将信息获取研究带入一个新的前沿。

附教程内容