三个多月前,OpenAI的GPT-3在NLP界掀起轩然大波。就在上周,视金钱如粪土的OpenAI团队又在文本摘要方面推出了最新力作,全方位超越人类表现。其亮点在于:以人类偏好替代自动化评测方法(如ROUGE、BLUE)为训练目标,用人类反馈作为奖励进行强化学习,性能表现十分惊艳。
对于较为复杂的NLP任务,如何进行评测、如何构造精准的损失函数已困扰了NLP researchers多年。以文本摘要为例,若采用自动化指标,模型的生成结果将逐渐逼近数据集内人工手写的摘要。但这种评价方式其实并不符合我们真正的训练目标。我们希望生成的并非“与数据集相近的摘要”,而是一篇“好的摘要”——它应该精简、准确、概括性强、语言连贯流畅。用BLUE和ROUGE显然评测不了这些维度。
此外,过度模仿数据集内容还存在很多更深层的隐患。大量数据集,比如本工作采用的TL;DR数据集,都是直接从网络上爬取下来的。其内容是由成千上万、形形色色的互联网用户上传。其质量良莠不齐是一方面,更严重的是其中不乏一些危险暴力、真实性存疑的言论。这些互联网的暗面是我们不希望AI学到的。
用人类反馈指导AI的学习过程,不仅仅是用更精准的评测方式提高性能、刷新SOTA,也是在AI safety方面的一点推进。
论文题目:
《Learning to Summarize with Human Feedback》
论文链接:
https://arxiv.org/pdf/2009.01325.pdf
开源代码:
https://github.com/openai/summarize-from-feedback
方法
下图展示了2-4步的实现细节:
1、 训练初始摘要模型
2、 构建人类反馈数据集
“在之前的工作中,我们发现标注者经常给我们觉得很一般的文章也打高分。所以这次,我们斥巨资保证标注质量。为提高与标注者的交流效率,我们拒绝采用第三方标注平台,直接雇佣80名标注者到身边......对标注者每小时的标注量不做要求(如果标得太快会在一开始就被辞掉)。我们也不按标注数目发工资,而是按工作时长,15刀/时。”
万事俱备后,作者用强化学习的方法继续训练Supervised Baseline,以符合人类偏好为目标调整生成策略。仔细读paper细节的话,会发现每一步的奖励R实并不只Reward Model的打分,而是由两部分构成的:
(向右滑动查看完整公式)
这样的差异说明Reward Model对于人类偏好的模仿能力仍然十分有限。论文附录部分也列举了一些模型overfit后的结果,如下图所示。可以看到,当模型overfit后,似乎可以学习到某种固定的pattern骗取Reward Model的高分。
实验
2、迁移实验结果: 尽管模型从未学习过新闻领域的摘要生成,模型依然在新闻类数据集CNN/DM上取得了很好的表现。如下图所示,在模型规模相等的情况下,TL;DR上强化学习后的模型(Human feedback transfer)与直接在CNN/DM上fine-tune过的模型(Supervised CNN/DM)相比,评测结果相差无几。
感想与小结
尽管提升效果显著,本工作还是存在很多局限性。一个是钱的问题。此外,直接用人类反馈指导模型学习的可操作性、可普适性仍然存疑。
我们也看到,在进行强化学习时的奖励并非直接由reward model给出,还需要加一个相对熵限制项。并且从实验中的分析结果来看,模型训练似乎非常容易过拟合。可以想见整个调参过程应该是非常复杂的。
其实,用人类的行为模式指导AI的思想已不是首次出现。例如OpenAI去年就有用人类偏好精调GPT-2的工作。又如发表于今年ACL上的一篇工作,比较了人类与RNN的attention模式差异。
在此之前,也有用人类偏好指导语义解析和翻译任务的工作。当然,高质量、大规模地标注人类反馈需要雄厚的财力。也是因为这个原因,其他工作多不能做到OpenAI的规模。
无论如何,人肉炼丹所得到的提升效果肉眼可见。相关工作也已在今年工作中陆续涌现。是否会成为NLP界的下一个热点,也尚未可知。