Pretrained language models often generate outputs that are not in line with human preferences, such as harmful text or factually incorrect summaries. Recent work approaches the above issues by learning from a simple form of human feedback: comparisons between pairs of model-generated outputs. However, comparison feedback only conveys limited information about human preferences. In this paper, we introduce Imitation learning from Language Feedback (ILF), a new approach that utilizes more informative language feedback. ILF consists of three steps that are applied iteratively: first, conditioning the language model on the input, an initial LM output, and feedback to generate refinements. Second, selecting the refinement incorporating the most feedback. Third, finetuning the language model to maximize the likelihood of the chosen refinement given the input. We show theoretically that ILF can be viewed as Bayesian Inference, similar to Reinforcement Learning from human feedback. We evaluate ILF's effectiveness on a carefully-controlled toy task and a realistic summarization task. Our experiments demonstrate that large language models accurately incorporate feedback and that finetuning with ILF scales well with the dataset size, even outperforming finetuning on human summaries. Learning from both language and comparison feedback outperforms learning from each alone, achieving human-level summarization performance.


翻译:预先训练的语言模型通常会生成不符合人类喜好的输出,例如有害文本或事实上不正确的摘要。最近的研究通过学习一种简单的人类反馈形式(即模型生成输出之间的比较)来解决上述问题。然而,比较反馈只传达有关人类喜好的有限信息。在本文中,我们介绍一种新方法,即在大规模语言模型中使用模仿学习的语言反馈(ILF),利用更为信息丰富的语言反馈。ILF包括三个迭代应用的步骤: 首先,在输入、初始化的语言模型输出和反馈的基础上,生成改进的输出。其次,选择包含最多反馈的改进。第三,在给定输入的情况下,对语言模型进行微调,以最大化选择的改进在给定输入条件下的可能性。我们理论上展示了ILF可以被视为类似于从人类反馈中进行强化学习的贝叶斯推断。我们在一个经过精心控制的玩具任务和一个逼真的摘要任务上评估了ILF的有效性。我们的实验表明大型语言模型能够准确地融合反馈,而使用ILF进行微调会随着数据集大小的增加而更好地扩展,甚至优于使用人类摘要的微调。从语言和比较反馈中学习要优于单独学习每个反馈类型,可以实现人类级别的摘要性能。

0
下载
关闭预览

相关内容

专知会员服务
18+阅读 · 2021年9月13日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
论文浅尝 | Language Models (Mostly) Know What They Know
开放知识图谱
0+阅读 · 2022年11月18日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员