干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

2019 年 3 月 1 日 AI科技评论

AI 科技评论按，强化学习（RL）为优化面向目标的行为提供了一个统一而灵活的框架，在解决诸如玩电子游戏、连续控制和机器人学习等具有挑战性的任务方面取得了显著的成功。在这些应用领域中，RL 算法的成功通常取决于高质量和高密度反馈的可用性。然而，将 RL 算法的适用范围扩大到稀疏和反馈不明确的环境是一个持续的挑战。

近日，谷歌 AI 发布以一篇博文讨论了这个问题，雷锋网 AI 科技评论编译整理如下。

研究此类问题中 RL 算法性能的一种常用方法是通过语言理解任务，在该任务中，代理接收自然语言输入，并且生成复杂的响应以实现输入中指定的目标，同时它只接收二进制形式的成功或者失败反馈。

例如一个「盲」代理，通过遵循一系列自然语言命令（例如，「right，up，up，right」）来获得迷宫中目标的位置。给定输入文本，代理（绿圈）需要解释命令，并根据这些解释采取措施来生成操作序列（a）。如果达到目标（红星），代理将获得 1 次奖励，否则没有奖励。由于代理无法访问任何可视信息，因此代理完成此任务并归纳出新指令的唯一方法是正确理解指令。

可以看到，按照轨迹 a1、a2 和 a3 可以达到目标。

在这些任务中，RL 代理需要从稀疏（只有一些轨迹会产生反馈）和未指定（没有区分有意义的成功和偶然的成功）反馈中学习泛化。重要的是，由于未指定反馈，代理可能会收到虚假的正反馈。这可能导致奖励黑客行为，使得部署实际系统时出现意外和有害行为。

在「从稀疏和不确定的反馈中学习泛化」时，我们通过开发元奖励学习（MeRL）来解决反馈不确定的问题，该方法通过优化辅助奖励函数向代理提供更精细的反馈。MERL 使用一种新的探索策略与成功轨迹的记忆缓冲区相结合，并从稀疏反馈中学习。我们方法的有效性在语义分析上得到了证明，语义分析的目标是学习从自然语言到逻辑形式的映射（例如，将问题映射到 SQL 程序）。本文研究了弱监督问题的设置，其目的是在没有任何形式的程序监督的情况下，自动从问答对中发现逻辑程序。例如，给定问题「哪个国家获得的银牌最多？」以及与之相关的维基百科表格，代理需要生成一个类似 SQL 的程序，从而得到正确的答案（例如，「尼日利亚」）。

该方法在 WikiTableQuestions 和 WikiSQL 达到了最先进成果的基准，相比于之前的方法，其效果分别提高了 1.2% 和 2.4%。不同于以前的学习方法，MeRL 自动学习辅助奖励函数而不需要任何专家演示，这使其应用更加广泛。下图是我们方法的概述：

本文方法概述。我们采用（1）涵盖探索的模式，在内存缓冲区中收集一组不同的成功轨迹；（2）采用元学习或贝叶斯优化，以学习辅助奖励，为策略优化提供更精确的反馈。

元奖励学习（MeRL）

MeRL 在处理不明确反馈方面的关键是，意外成功的虚假轨迹和程序对代理的泛化性能有害。例如，代理可能只能处理上面迷宫问题的特定实例。然而，如果它在训练中学习了虚假的实例，那么当它遇到没有见过的指令时，很可能会失败。为了改善这个问题，MeRL 优化了一个更精细的辅助奖励函数，它可以根据轨迹的特征区分是否为意外成功。

MeRL 示意图：通过从辅助奖励模型中获得的奖励信号对 RL 代理进行训练，而辅助奖励则通过代理的泛化误差进行训练。

从稀疏反馈中学习

要从稀疏反馈中学习，有效的探索对于找到一系列成功的轨迹至关重要。本文利用 Kullback–Leibler (KL) 散度的两个方向来解决这一挑战。在下面的例子中，我们使用 kl 散度来最小化固定双峰（紫色阴影）和学习高斯（绿色阴影）分布之间的差异，这可以分别表示代理的最优策略和我们的学习策略的分布。KL 目标的一个方向学习一个分布，该分布试图涵盖两种模式，而其他目标学习的分布寻求一种特定模式（即，它更喜欢一种模式而不是另一种模式）。我们的方法利用了 KL 集中于多个峰值模式的倾向来收集不同的成功轨迹集，并通过模式寻找 KL 在轨迹之间的隐含偏好来学习一个稳健的策略。