FCS Perspective|观点：强化学习中的异策略评估

2019 年 5 月 20 日 FCS

点击上方蓝字

关注我们

导读

本期FCS Perspective栏目，特邀美国谷歌大脑的研究科学家Lihong LI的观点分享——A perspective on off-policy evaluation in reinforcement learning。该文已经在线发布，并将发表在Frontiers of Computer Science期刊2019年第5期（了解原文详情请点击左下方“阅读原文”）。为帮助读者更精准地理解该文，FCS特别邀请南京大学俞扬教授翻译此文，以飨读者。

作者简介

Lihong Li is a research scientist at Google Brain, USA. Previously, he held research positions at Yahoo! Research (Silicon Valley) and Microsoft Research (Redmond). His main research interests are in reinforcement learning, including contextual bandits, and other related problems in AI. His work has found applications in recommendation, advertising, Web search and conversation systems, and has won best paper awards at ICML, AISTATS and WSDM. He serves as area chair or senior program committee member at major AI/ML conferences such as AAAI, ICLR, ICML, IJCAI and NIPS/NeurIPS.

Frontiers of Computer Science,2019,13(5): 911-912

https://doi.org/10.1007/s11704-019-9901-7

观点：强化学习中的异策略评估

作者：Lihong LI | 谷歌大脑

特邀译者：俞扬教授 | 南京大学

背景

强化学习（RL）的目标是构建一个自主智能体，该智能体通过与未知的外部环境交互，学习使效用函数最大化的行为序列。它是一种非常通用的学习范式，可以用于对各种各样问题的建模，比如游戏、机器人、自动驾驶、人机交互、推荐、健康护理等等。近些年，得益于深度学习和计算能力的进步，强化学习取得了很大的成功，AlphaGo/AlphaZero就是一个著名的例子。这些令人惊叹的成果，激发了人们将强化学习应用于解决现实问题的兴趣。

本文讨论的观点是，“评估”问题是强化学习广泛应用于现实场景所必须克服的问题。在强化学习中，智能体策略的好坏，往往通过平均回报来度量。如果智能体所在的环境是可模拟的，例如计算机游戏环境，那么可以通过实际运行这个策略，来获得评估结果。但是，对于多数现实场景，例如自动驾驶和医药治疗应用，直接在实际环境中运行新策略的成本昂贵、风险巨大、甚至涉及道德问题。因此，通常的实践中，常常会构造环境模拟器，用于策略的评估。但是构建一个高精度的模拟器这一工作，往往比寻找最优策略本身还要困难（例如考虑如何构建一个能够覆盖所有医疗状况的模拟病人）。因此，强化学习实践者经常痛苦的发现他们处于一个死局中：为了能使用一个策略，必须先通过评估验证策略的质量合格，但对于策略而言，其唯一可靠的评估方法却是去使用这一策略！

问题

以上阐述的挑战引发了对“异策略评估”的需求，即对一个策略（目标策略）的评估只使用由另一个策略（“行为策略”）执行产生的历史数据，而并不实际运行目标策略。这个问题可能听起来很简单，但事实上却是强化学习过去数十年中最为关键和基础的研究主题之一。

我们可以通过与监督学习（SL）做对比来了解存在的挑战。以构建垃圾邮件检测器为例，垃圾邮件检测结果的评价很直接：给出一个垃圾邮件分类器，可以用标记数据来测量它的准确率（或是其它指标），准确率越高分类器就越好。而强化学习面临的情况则复杂得多。强化学习的数据通常是轨迹的形式，组织成“状态—动作—回报”元组的序列，一个时刻的状态由序列中前一时刻的动作决定。因此，如果策略在某个时刻“偏离”了轨迹数据（即选择了一个与数据记录所不同的动作），那么所有未来的状态和回报都可能改变，但新的状态并没有出现在数据中。换句话说，与监督学习不同，强化学习的数据仅能为策略评价提供部分信息。因此，异策略评估需要利用反事实推理，以回答“如果—会怎样”的问题[1]，这与因果推断密切相关。

上下文赌博机情况（译者注：即单步决策情况）

异策略评估在强化学习任务的一个重要的子类，即上下文赌博机（contextual bandits）中较容易实现。在这样的环境中，智能体的行为不会影响未来的状态，但数据中仅包含行为的回报数据，因此仍然需要进行反事实推理。上下文赌博机可以用于很多重要应用的建模，例如推荐、广告、和网页搜索等，在这些应用中回报可能取决于用户的点击、视频浏览的时间、或者取得的收入[1-3]。

一类基于逆倾向评分（inverse propensity scoring ,IPS）的强大方法在实践中被证明有效[1,2,4]。它们使用重要性取样修正观测数据（行为策略采样数据）与期望但未观察数据（目标策略所需数据）之间分布的不一致。目标策略的评价通过对回报数据的重要性加权平均来计算。在宽松的假设条件下，IPS的估计是无偏的，并且随着数据的增加趋向目标策略的真实值。IPS方法的主要缺陷在于其估计的方差较大。随后产生了许多降低其方差的方法，或许以增加少许的偏差为代价，以获得一个更加准确的估计[2,5,6]。

一般强化学习情况（译者注：即多步决策情况）

IPS 方法可以延伸到更一般的情况中，即智能体的行为会影响未来的状态。理论上，仅需要将重要性采样应用至整个轨迹即可[7-9]。但遗憾的是，这样的方法会使估计的方差随着轨迹长度的增长指数爆炸，这一现象称为“视域灾难”（the curse of horizon）[10]。因此，在实际中这类方法未被广泛使用。

最近，又有一类新的方法出现，仅计算状态上的重要性权重，而不是轨迹的权重，因此避免了对于轨迹长度的直接的依赖。其首个算法[10]就展示出了良好的前景，而更强的算法也正在发展中。

结论

异策略评估使上下文赌博机模型成功在网页应用中使用，并且在推动赌博机模型实用化上起到关键作用。在一般的强化场景也可以采用同样的思路。可靠的异策略评估有望能够释放强化学习的力量。它给出了一种廉价而安全的评价强化学习算法的途径。

还有很多问题值得进一步研究，在本文最后列举一二。首先，我们对所面临问题的统计本质还缺乏理论理解，尤其是对于一般强化学习的情况[6,8]。其次，大多数本领域发展的通用算法可视为在“偏差—方差”上寻找平衡。而与探寻通用技术不同，在具体应用中通过发现有效的结构，例如减少有效动作数量，可以取得降低方差的效果。第三，我们的讨论仅集中在异策略评估，而更具挑战的是其下一步，异策略优化，即是在行为策略收集的历史数据上优化策略。

参考文献

1.Bottou L, Peters J, Quiñonero-Candela J, Charles D X, Chickering DM, Portugaly E, Ray D, Simard P, Snelson E. Counterfactual reasoning and learning systems: the example of computational advertising. Journal of Machine Learning Research, 2013, 14(1): 3207–3260

2.Hofmann K, Li L, Radlinski F. Online evaluation for information retrieval. Foundations and Trends in Information Retrieval, 2016, 10(1):1–117

3.Li L, Chu W, Langford J, Schapire R E. A contextual-bandit approach to personalized news article recommendation. In: Proceedings of the 19th International Conference on World Wide Web. 2010, 661–670

4.Dudík M, Langford J, Li L. Doubly robust policy evaluation and learning.In: Proceedings of the 28th International Conference on Machine Learning. 2011, 1097–1104

5.Swaminathan A, Joachims T. The selfnormalized estimator for counterfactual

learning. In: Proceedings of the 28th International Conference on Neural Information Processing Systems. 2015, 3231–3239

6.Wang Y X, Agarwal A, Dudík M. Optimal and adaptive off-policy evaluation in contextual bandits. In: Proceedings of the 34th International Conference on Machine Learning. 2017, 3589–3597

7.Jiang N, Li L. Doubly robust off-policy evaluation for reinforcement learning. In: Proceedings of the 33rd International Conference on Machine Learning. 2016, 652–661

8.Li L, Munos R, Szepesvári C. Toward minimax off-policy value estimation.In: Proceedings of the 18th International Conference on Artificial Intelligence and Statistics. 2015, 608–616

9.Precup D, Sutton R S, Singh S P. Eligibility traces for off-policy policy evaluation. In: Proceedings of the 17th International Conference on Machine Learning. 2000, 759–766

10.Liu Q, Li L, Tang Z, Zhou D. Breaking the curse of horizon: infinitehorizon off-policy estimation. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. 2018, 5361–5371

Frontiers of Computer Science

期刊封面_icon.jpg Frontiers of Computer Science （FCS）是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊，双月刊，全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授，共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库（CSCD）核心库等收录，为 CCF 推荐期刊；两次入选“中国科技期刊国际影响力提升计划”；入选“第4届中国国际化精品科技期刊”。