人，才是强化学习在真实世界中面临的真正挑战

2019 年 9 月 10 日 AI科技评论

我们距离真实世界中的强化学习应用落地，还有一段路要走~

编译：MrBear

编辑：唐里

随着 DeepMind、OpenAI 等一系列科技巨头对强化学习技术的应用，越来越多的科研工作者投入到该领域的研发中。然而，目前大多数的研究工作还停留在通过游戏进行仿真的阶段。在我们对研究者们在 Atari、星际争霸等游戏中战胜人类职业玩家而沾沾自喜的同时，我们更应该意识到，目前的强化学习技术还远未达到满足真实世界中通用任务需求的水准。其中，人类对强化学习的奖励函数设计、训练过程自我调节等机制的影响是目前研究者们急需突破的重要瓶颈。

如果想要激发强化学习的全部潜力，就需要将强化学习智能体嵌入到真实世界的经验流中，让这些智能体在我们的世界中，而不仅仅是在它们自己的世界中采取行动、探索和学习。——《强化学习简介》第二版，Sutton&Barto，2018。

最近，一些被高度认可的研究表明，人工智能体可以在玩 Atari 游戏[1]或下围棋[2]时，在没有人类监督、而是使用强化学习技术进行多轮自我试错[3]的情况下，取得与人类相当甚至超过人类的表现。这是人工智能研究领域的一项巨大成果，它为那些使用监督学习成本太高的应用开启了另一扇解决方案的大门，也对游戏之外的许多应用领域产生了影响。那么问题来了，如何将强化学习智能体在像游戏这种理想环境（其中奖励信号被明确定义，且十分丰富）中超越人类的性能表现迁移到具有一系列缺点的真实世界环境中。而在这些缺点中，首要的就是人类「教师」的缺点（如下面的漫画所示，他们显然无法通过图灵测试）。

在自然语言处理领域，真实世界强化学习中的人类因素

让我们看看人类的学习场景，例如，对于自然语言翻译来说：一个学习翻译和口译的人类学生必须学会：根据不同类型的反馈得出正确的翻译结果。在某些情况下，人类教师会以翻译的黄金标准形式提供监督信号。然而，在大多数情况下，学生必须根据较弱的教师反馈进行学习，这些反馈会指出学生完成任务的效果如何，但并不知道如果学生翻译的结果不同，将会导致发生什么情况，也不知道正确的翻译应该是什么样子。与此同时，最优秀的学生会变得像老师一样，因为他们习得了一套自行控制学习过程的策略[4]。

现在，如果我们的目的是构建一个像人类学生一样学习翻译的人工智能体，在它与作为其老师的专业的人类翻译者进行互动的过程中，我们会看到相同的对「成本-效益」进行权衡的模式：人类翻译者不会希望提供一个以正确译文的形式存在的监督信号（即使这种信号是最有用的），作为对智能体生成的每一个翻译结果的反馈。相反，在某些情况下，关于系统输出（或部分输出）的质量较弱的反馈信号是一种更高效「学生-老师」互动方式。另一种情况是在线翻译系统的用户：他们将扮演「消费者」的角色——有时，他们可能会给出反馈信号，但很少会给出完整的正确译文。

在训练人类和智能体的时候，我们也看到了类似的教师反馈信号的模式：人类翻译学生的人类教师，以及作为人工智能体的老师的专业翻译者都是人类。他们给出的反馈信号是模糊的、有误导性的、稀疏的（可参考上面的漫画）。这与强化学习（在游戏环境下）大获成功的情况截然不同。在理想的环境下，奖励信号是明确、准确且丰富的。有人可能会说，在游戏中与人类对抗的强化学习智能体具有不公平的优势，因为它们所处的人造环境很适合它们发挥自己的能力。

然而，为了在根据人类的反馈进行学习的情况下，也同样成功地进行强化学习，我们则不应该轻视这些成功的例子，而应该从中学习：目标应该是给根据人类反馈进行学习的强化学习智能体任何可能的有利条件，从而在这种困难的学习场景下取得成功。为此，我们必须更好地理解根据人类反馈进行学习所面临的真正挑战有哪些。

免责声明

与之前的根据人类强化信号进行学习的工作（例如，Knox、Stone等人的论文[5] ；Chiristiano 等人于 2017 年发表的论文[6]；以及 Leike 于 2018 年发表的论文[7]）不同，我们面临的场景并不是使用人类知识来降低样本复杂度，从而加速系统的学习过程，而是一种只存在人类反馈的交互式学习场景。该场景适用于许多个性化的情况，在这些场景下，以有监督的方式预训练的系统会根据人类用户的反馈在交互式学习过程中被调整和改进。例如，在线广告、机器翻译（我们接下来将集中讨论）。

最近，Dulac-Arnold 等人在 2019 年发表的工作[8]已经认识到，现实世界中的系统定义不清的现实情况正在阻碍现实世界强化学习的发展。他们解决了诸如离线学习、样本有限情况下的探索、高维动作空间、或非确定性奖励函数等问题。这些挑战对于控制落地在物理世界中的系统或机器人的强化学习模型是非常重要的。然而，他们严重低估了交互式学习中的人类因素。我们将基于他们的论文，提出解决一些现实世界强化学习领域公认的挑战的方案。

确定性日志条件下的反事实学习

在「Challenges of Real-World Reinforcement Learning」一文中，Dulac-Arnold 等人需要处理的问题之一是：需要在系统无法在线更新的应用程序中用到离线或策略无关强化学习。在商业环境中，由于对低延迟的需求，以及希望在部署之前对系统更新进行离线测试，采用在线学习是不现实的。一个自然的解决方案就是利用反事实学习，复用日志交互数据，其中预测结果是由一个与目标系统不同的历史系统得出的。

然而，在线学习和使用日志数据进行的离线学习都会受到一个问题的困扰：在商业系统中，「探索」行为是不可行的，因为这意味着向用户提供低质量的输出。这会导致我们得到的是缺乏显式探索的确定性日志记录策略，让使用标准的策略无关方法的应用程序变得不可靠。例如，逆倾向评分、双重鲁棒估计或加权重要性采样（详见 Precup 等人于 2000 年发表的论文[9]；Jiang 和 Li 于 2016 年发表的论文[10]，以及 Thomas 和 Brunskill 于 2016 年发表的[11]）等技术都依赖于日志系统对输出空间的充分探索，作为反事实学习的先决条件。

事实上，Langford 等人于 2008 年发表的「Exploration scavenging」[12]以及 Strehl 等人于 2010 年发表的「Learning from Logged Implicit Exploration Data」[13]甚至给出了「与探索无关的反事实学习是不可能实现的」这样的结论。

显然，当我们可以与商业系统安全地进行交互（即商业系统确定性地与人类用户进行交互）时，标准的策略无关学习并不适用。

那么，我们应该怎么办呢？研究者们提出的一种解决方案是：寄希望于通过输入和上下文的变化，隐式地进行探索。Chapelle 和 Li 于 2012 年发表的关于在线广告的论文[14]已经观察到了这一点，Bastani 等人于 2017 年发表的论文[15]从理论上进行了研究。然而，自然的探索是数据中固有的东西，而不是机器学习可以优化的。

另一种解决方案是，根据确定性的日志数据，考虑估计时的退化行为的具体情况，并找到可以消除「不可能性定理」的解决方案。其中，一种退化行为是：通过将所有日志数据的概率设置为 1，可以最大化数据日志的经验奖励。然而，提高低奖励示例的概率显然是不可取的（详见 Swaninathan 和 Joachims 于 2015 年发表的论文[16]；Lawrence 等人于 2017 年发表的论文[17]；Lawrence 等人 2017 年的工作[18]）。

针对该问题，有一种叫做确定性倾向匹配的解决方案，它由 Lawrence 和 Riezler 于 2018 年在[19]和[20]这两篇论文中提出，并且在语义解析场景下用真实的人类反馈进行了测试。这种方法的核心思想如下：给定日志数据，其中是从日志系统中抽样得来，同时奖励是由人类用户给出的。在确定性日志场景下，离线学习的一种可能的目标函数是最大化日志数据的期望奖励：

该函数使用了一个乘法控制变量进行重新加权，根据一些之前的迭代数据在 θ' 处使用 OSL（one-step-ate）算法进行估计（为了高效的梯度计算），其中

这种自归一化操作的作用是，防止低奖励数据的概率在学习中由于去掉了较高奖励输出的概率质量而得以提高。这种操作向估计器引入了一个偏置（随着 B 的增大而减小），然而，这使得在确定性日志系统中进行学习成为了可能，从而使强化学习智能体具有了「在此前被认为，理论上不可能在环境中学习」的优势。对于语义解析场景的分析可参阅 Carolin 的博文[21]。

根据人类的「老虎机反馈」学习奖励估计器

Dulac-Arnold 等人在 2019 年发表的「Challenges of Real-World Reinforcement Learning」重点解决的另一类问题是利用有限的样本、在高维动作空间中、使用非确定性的奖励函数进行学习。这篇论文简要描述了交互式机器翻译场景下的学习：首先，除了收到人类用户使用一个商用机器翻译系统的「老虎机反馈」（bandit feedback）之外，期望任何东西都是不现实的。也就是说，一个机器翻译系统的用户只会给一个确定产生的最佳系统输出提供一个奖励信号，而不能期望他们对同一个输入的多种翻译结果打分。商用机器翻译系统的提供者意识到了这一点，并且提供了非侵入式的用户反馈接口，允许对翻译结果进行后处理（负信号），或者在不作任何更改的情况下复制或共享翻译结果（正信号）。

此外，人们对完整翻译结果质量的判断需要涉及到一个指数级的输出空间，而翻译质量的概念并不是一个定义明确的函数：一般来说，每个输入的句子都有多种正确的译文，而人类可能根据不同的上下文和个人因素对这些译文做出不同的判断。

令人惊讶的是，如何使强化学习智能体能够更好地根据现实世界的人类反馈进行学习，却很少被人研究。Dulac-Arnold 等人于 2019 年发表的「Challenges of Real-World Reinforcement Learning」可能看起来很直截了当——他们使用了热启动智能体来降低样本复杂度，或者使用逆强化学习根据示范数据（demonstrations）恢复出奖励函数，但是它们需要额外的奖励信号（这恰恰是强化学习应该缓解的问题）。此外，当涉及到哪种类型的人类反馈最有利于训练强化学习智能体时，人们发现很多笼统的描述都指出成对比较在生成量表方面是具有优势的（相关论文[22]），但是这些说法都缺乏实验证据。

Kreutzer 等人于 2018 年发表的[23] 是一个例外。他们首次研究了这种人类反馈（成对的判断或 5 分制反馈）机制，可以让人类「老师」给出最可靠的反馈结果。他们还研究了这种类型的反馈可以学习出最好地近似人类奖励、能被最好地融入端到端的强化学习任务中的奖励估计器。5 分制反馈和成对判断的示例界面如下所示：

不同于普遍接受的看法，在 Kreutzer 等人 2018 年的工作中，他们发现 5 分制评分的评分者信度（Krippendorff’s α=0.51）要高于成对判断（α=0.39）。他们通过对每个评分者的基本判断进行标准化，消除个人偏见的可能性，从而解释这一点，并且过滤掉了评分者信度较低的评分者。成对判断主要的问题是差不多好或者差不多差的翻译结果之间的区别（较小），我们可以将这样的翻译结果过滤掉，从而提高评分者信度，最终得到上文所述的评分者信度。

此外，当我们使用从 800 份译文中收集到的判断训练奖励估计器时，他们通过估计出的奖励和对翻译结果的后处理（相较于人类参考译文）率之间的相关性来衡量可学习性。他们发现，使用 5 分制反馈训练的回归模型的可学习性要优于使用成对排序反馈训练的「Bradley-Terry」模型（最近 Christiano 等人于 2017 年发表的 [24] 中使用了这种技术）。

最后，最重要的一点是，当他们将奖励估计器融合到一个端到端的强化学习任务中时，他们发现，我们可以通过使用 800 个主要用户判断训练的奖励估计器，将神经机器翻译系统的性能提升 1 个 BLEU 点以上。

这不仅仅是一个让人充满希望的实验结果，指明了未来的真实世界强化学习研究可能的发展方向，而且也在一种方法中同时解决了 Dulac-Arnold 等人于 2019 年提出的三个挑战（有限的样本，高维动作空间，非确定性奖励函数）：奖励估计器可以在非常小的数据集上进行训练，然后集成为高维动作空间上的奖励函数。这个思路是为了解决一个简单的问题：首先根据人类反馈学习到一个奖励估计器，然后提供无限的反馈，从而泛化到策略无关强化学习中之前未见过的输出上。

未来的研究方向：自我调节的互动式学习

如前文所述，人类学生必须能够在信息量最大的学习信号最稀疏的情况下进行学习。这是因为教师的反馈是有成本的，因此必须「较为节约」地请求罕见的以黄金标准输出的反馈。此外，学生必须学会如何自动调节他们的学习过程，学会在何时寻求帮助，以及寻求何种帮助。这虽然不同于经典的、反馈成本可以忽略不计的强化学习游戏（我们可以永远就模拟游戏），但在现实世界中也是行不通的，特别是在探索行为成本非常高（非常危险）的情况下。

让强化学习算法学会自我调节是一个新的研究方向，它试图赋予人工智能体一种传统上对于人类非常困难的决策能力——权衡使用不同类型的反馈进行学习的成本和效果。这些反馈包括教师演示或纠错提供的全面监督、对学生预测的正面或负面奖励形式的弱监督，或者学生产生的自监督信号。

Kreutzer 和 Riezler 等人于 2019 年发表的「Self-Regulated Interactive Sequence-to-Sequence Learning」，展示了如何将一个自我调节（self-regulation）的学习任务转化为一个学着去学习的问题，他们通过使智能体意识到「成本-奖励」的权衡问题并对其进行管理，从而解决上述问题。

在交互式神经机器翻译任务的仿真实验中，他们发现自我调节算法是基于不确定性的主动学习算法的一个强大的替代方案（详见 Settles 和 Crave 等人于 2008 年发表的「An Analysis of Active Learning Strategies for Sequence Labeling Tasks」[26]），并且发现了一种用于通过混合不同类型的反馈（包括教师纠错、错误标记和自监督）实现最优质效平衡的 ϵ-贪婪策略。当然，他们的仿真场景抽象出了在真实世界的交互式机器学习中所期望的某些混杂变量。然而，所有这些都是对带有人类教师的真实世界强化学习进行研究的有趣的方向。

从人类反馈看强化学习的吸引力

我们试图表明，在现实世界强化学习任务中存在的一些挑战源于人类老师。在之前的工作中，人们往往只考虑将人类老师作为一种帮助：在只能使用人类用户的反馈让人工智能体更加个性化、更加适应环境的情况下，标准的在监督学习中记住大量标签的技巧，或者是在无限次迭代的过程中使用低成本的、准确的奖励自动训练强化学习系统，都不会起作用。

如果我们想要让强化学习可以使用「具有成本意识」、深奥的人类教师来反馈训练人工智能体，我们需要确保智能体不依赖大规模的探索，我们也必须学习那些优秀的人类反馈模型。看看人工智能体在相同的信息匮乏的情况下「如何学习、会学到什么」是非常有趣的，而人类学生不得不面对这些状况。希望这样的工作能够催生可以通过成果适应人类的需求，从而帮助人类的人工智能体诞生！

via https://www.cl.uni-heidelberg.de/statnlpgroup/blog/hrl/

参考资料：

[1] https://www.nature.com/articles/nature14236

[2] https://www.nature.com/articles/nature16961

[3] https://www.nature.com/articles/nature24270

[4] https://journals.sagepub.com/doi/full/10.3102/003465430298487

[5] https://dl.acm.org/citation.cfm?id=1597738

[6] https://arxiv.org/abs/1706.03741

[7] https://arxiv.org/abs/1811.07871

[8] https://arxiv.org/abs/1904.12901v1

[9] https://www.semanticscholar.org/paper/Eligibility-Traces-for-Off-Policy-Policy-Evaluation-Precup-Sutton/44fe9e7f22f8986d48e3753543792d28b0494db0

[10] https://arxiv.org/abs/1511.03722

[11] https://arxiv.org/abs/1604.00923

[12] https://arxiv.org/abs/1604.00923

[13] https://arxiv.org/abs/1003.0120

[14] https://papers.nips.cc/paper/4321-an-empirical-evaluation-of-thompson-sampling

[15] https://arxiv.org/abs/1704.09011v5

[16] https://papers.nips.cc/paper/5748-the-self-normalized-estimator-for-counterfactual-learning

[17] https://arxiv.org/abs/1711.08621

[18] https://arxiv.org/abs/1707.09118

[19] https://arxiv.org/abs/1811.12239

[20] https://arxiv.org/abs/1805.01252

[21] https://www.cl.uni-heidelberg.de/statnlpgroup/blog/parsing_when_gold_answers_unattainable/

[22] https://psycnet.apa.org/record/1928-00527-001

[23] https://arxiv.org/abs/1805.10627

[24] https://arxiv.org/abs/1706.03741

[25] https://arxiv.org/abs/1907.05190

[26] https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=2ahUKEwi3546ZrtDjAhWRr6QKHTJ7AgMQFjAAegQIBRAC&url=https%3A%2F%2Fwww.biostat.wisc.edu%2F~craven%2Fpapers%2Fsettles.emnlp08.pdf&usg=AOvVaw2hhRs69DCAsD2fv79JuL6b