有钱任性！OpenAI提出人肉模型训练，文本摘要全面超越人类表现！

2020 年 9 月 20 日 AI科技评论

三个多月前，OpenAI的GPT-3在NLP界掀起轩然大波。就在上周，视金钱如粪土的OpenAI团队又在文本摘要方面推出了最新力作，全方位超越人类表现。其亮点在于：以人类偏好替代自动化评测方法（如ROUGE、BLUE）为训练目标，用人类反馈作为奖励进行强化学习，性能表现十分惊艳。

对于较为复杂的NLP任务，如何进行评测、如何构造精准的损失函数已困扰了NLP researchers多年。以文本摘要为例，若采用自动化指标，模型的生成结果将逐渐逼近数据集内人工手写的摘要。但这种评价方式其实并不符合我们真正的训练目标。我们希望生成的并非“与数据集相近的摘要”，而是一篇“好的摘要”——它应该精简、准确、概括性强、语言连贯流畅。用BLUE和ROUGE显然评测不了这些维度。

此外，过度模仿数据集内容还存在很多更深层的隐患。大量数据集，比如本工作采用的TL;DR数据集，都是直接从网络上爬取下来的。其内容是由成千上万、形形色色的互联网用户上传。其质量良莠不齐是一方面，更严重的是其中不乏一些危险暴力、真实性存疑的言论。这些互联网的暗面是我们不希望AI学到的。

用人类反馈指导AI的学习过程，不仅仅是用更精准的评测方式提高性能、刷新SOTA，也是在AI safety方面的一点推进。

论文题目：
《Learning to Summarize with Human Feedback》

论文链接:
https://arxiv.org/pdf/2009.01325.pdf

开源代码:
https://github.com/openai/summarize-from-feedback

方法

整体流程可归纳为以下4步，后文将依次展开：

训练初始摘要模型Supervised Baseline
构建人类反馈数据集，不断人工比较两篇摘要优劣
用上述“人类反馈数据集”训练一个Reward Model，模仿人类偏好对摘要打分
用强化学习的方法继续训练Supervised Baseline，每一步的奖励由上述Reward Model给出，从而学习符合人类偏好的摘要生成策略

下图展示了2-4步的实现细节：

1、训练初始摘要模型

模型采用GPT-3风格的Transformer decoder。作者总共训了两个不同size的baseline。当然参数规模还没有真的GPT-3那么丧心病狂——也就一个13亿，一个67亿吧：）（Bert-large的4倍和20倍）。

训练方法，pretrain+fine-tune两步走。先在大量语料上进行预训练得到 Pretrained Model 。然后再用摘要数据集TL;DR中质量较高的部分，对模型进行fine-tune，得到 Supervised Baseline 。为保证baseline足够强大，可堪一战，作者用baseline跑了一下CNN/DM——一个baseline在预训练和fine-tune时都没见过的另一个摘要数据集。其性能表现可超越2019年5月时的SOTA。

2、构建人类反馈数据集

构建过程就是不断给标注者同一文章的2篇摘要，要求选出其较为偏好的的一篇。最终数据集总共包含6.48w次比较。

值得一提的是作者团队为保证标注质量做出的努力。大概翻译一下作者原话：

“在之前的工作中，我们发现标注者经常给我们觉得很一般的文章也打高分。所以这次，我们斥巨资保证标注质量。为提高与标注者的交流效率，我们拒绝采用第三方标注平台，直接雇佣80名标注者到身边......对标注者每小时的标注量不做要求（如果标得太快会在一开始就被辞掉）。我们也不按标注数目发工资，而是按工作时长，15刀/时。”

3、训练Reward Model

光靠人工标注的6.48w条比较数据，仍然还不足以调教一个规模庞大的摘要模型。于是，作者以人类标注数据为基础，训练了一个Reward Model，模仿人类喜好对摘要进行打分。

模型结构，就是第1步中Supervised Baseline上再叠一个线性层。训练的时候，给标注者已经比较过的摘要 ,摘要，让Reward Model分别打分rj,rk 。假设标注结果是比好，则损失函数为：

4、学习符合人类偏好的摘要生成策略

万事俱备后，作者用强化学习的方法继续训练Supervised Baseline，以符合人类偏好为目标调整生成策略。仔细读paper细节的话，会发现每一步的奖励R实并不只Reward Model的打分，而是由两部分构成的：

（向右滑动查看完整公式）

即Reward Model的给分。后面又减去了一项，是初始Supervised Model与当前模型的相对熵。也就是说，既希望新的模型能够在Reward Model这里得高分，又不允许它离初始模型偏离得太远。因为相应实验表明（如下图所示），当模型与初始状态相对熵变大的时候，Reward Model可能会对模型打高分（图中虚线），但实际人类喜好程度（图中实线）反而会不断降低。

这样的差异说明Reward Model对于人类偏好的模仿能力仍然十分有限。论文附录部分也列举了一些模型overfit后的结果，如下图所示。可以看到，当模型overfit后，似乎可以学习到某种固定的pattern骗取Reward Model的高分。

实验

论文实验部分持续弥漫金钱的味道。所有实验都采用人工评测的方式，以保证最大程度的准确性。

1、TL;DR实验结果： TL;DR是模型做fine-tune的数据集，作者在其测试集上进行评测，实验结果见下图。共比较了4种摘要生成结果：

数据集中人工写的reference summaries
用人类反馈强化学习过的最终模型
未经强化学习的Supervised Baseline
未在摘要任务上fine-tune过的预训练模型

左图是多维度的人工评测打分（coverage,coherence,accuracy）。右图中，纵轴是人类偏好比例，横轴为模型规模。结论：经人类反馈强化学习后，全方位超越人类表现。

2、迁移实验结果： 尽管模型从未学习过新闻领域的摘要生成，模型依然在新闻类数据集CNN/DM上取得了很好的表现。如下图所示，在模型规模相等的情况下，TL;DR上强化学习后的模型（Human feedback transfer）与直接在CNN/DM上fine-tune过的模型（Supervised CNN/DM）相比，评测结果相差无几。