文本生成领域的进步源于管道中的每一个阶段:问题定义、数据整理、学习、解码和评估。本论文重点关注学习。传统的训练目标与评估目标之间存在不匹配:常规的最大似然估计(MLE)尝试最小化数据集中每个样本的交叉熵损失,但下游评估通常基于输入输出对的兼容性得分(例如,人类对输出的判断)。我们的目标是通过直接优化生成文本的奖励来弥合这一差距

本论文包括以下部分:(1) 奖励可能难以获得。为了解决社交对话中的这一挑战,我们从部署数据中提取隐式信号,而无需额外的人类注释。为了生成机器人的回应,我们优化未来人类回合中预测的正面反应。我们的方法总体上改进了机器人回应,但某些代理信号可能导致生成更多具有不良属性的文本。(2) 模型在学习中可能进展缓慢或没有进展,其中一个想法是获得更密集和更高质量的奖励。在神经机器翻译中,我们从有着悠久历史的噪声通道解码中获得灵感,基于此我们定义了一个奖励函数。副产品是我们能够在确保翻译质量相似的情况下显著提高解码速度。(3) 另一个在学习中取得进展的方法是创新训练算法。我们将奖励设定为生成和参考的简单精确匹配,但在算法方面,我们探索了一个极端情况,即通过将文本生成框架化为离线强化学习问题来不偏离参考太远。我们提出了从演示中离线学习生成(GOLD):一种通过重要性加权从演示中学习的算法。我们展示了使用GOLD训练的模型在一系列任务中表现优于使用MLE和策略梯度训练的模型。(4) 我们展示了不需要依赖强化学习的情况,以推理任务(例如数学、科学、常识)作为测试平台。我们开发了一种称为迭代推理偏好优化(IRPO)的方法,通过优化获胜与失败的推理思维链,使用修改后的直接偏好优化作为标准。与一系列基准相比,IRPO显著提高了准确性。 最后,我们讨论了将大型语言模型作为奖励的未来方向。我们简要提及了在使用类似于IRPO的迭代直接偏好优化学习标准的自我奖励语言模型工作中初步展现的前景;随后讨论了相应的挑战和下一步措施。此外,提高评估能力的另一种方法可能依赖于人类与AI的协作方法,其最终目标是使最终表现远远超过单独的人类或单独的AI的表现。

成为VIP会员查看完整内容
15

相关内容

纽约大学(New York University),成立于 1831 年,是全美最大的私立大学之一,也是美国唯一一座坐落于纽约心脏地带的名校。所设课程压力不大,但要求甚高。而34名诺贝尔奖得主更是使纽约大学光芒四射,享誉世界。纽约大学较为偏重人文艺术及社会科学,研究生院享有很高的声誉。属下的帝势艺术学院是全美最佳的美术学院之一;斯特恩商学院由于得到地灵人杰之助,是蜚声世界的著名商学院,聚集着世界最顶尖的人才。

【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
【干货书】计算机科学离散数学,627页pdf
专知
59+阅读 · 2020年8月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
148+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
372+阅读 · 2023年3月31日
Arxiv
61+阅读 · 2023年3月26日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员