在语言模型的后训练阶段,无论是通过强化学习、偏好优化还是监督微调,都倾向于锐化输出概率分布,并减少生成响应的多样性。这对于创意生成任务尤为成问题,因为此类任务需要多样化的响应。在本研究中,我们提出了多样化偏好优化(DivPO),这是一种在线优化方法,旨在生成比标准流程更具多样性的响应,同时保持生成内容的质量。在DivPO中,通过首先考虑一组响应及其多样性度量,选择偏好对。所选例子通常是较为稀有且高质量的,而被拒绝的例子则是更常见但质量较低的。DivPO能够生成45.6%更具多样性的个性特征,并使故事多样性增加81%,同时保持与标准基线相似的获胜率。1 引言大型语言模型(LLMs)擅长在给定特定提示时生成高质量的“人类对齐”输出。然而,这种对齐不幸地导致了生成多样化输出的困难。例如,反复要求当前最先进的模型编写具有特定标题的故事,最终会生成具有非常相似人物、事件和风格的故事。除了如前所述的用户查询问题外,这还影响了生成高质量合成数据的能力——合成数据已成为通过AI反馈进行模型训练的关键组成部分,其中生成的数据被反馈到训练循环中(Yuan et al., 2024)。响应趋向于一个有限支持分布似乎源于模型对齐阶段,在此阶段,基础语言模型通过微调与人类输出和偏好对齐(Kirk et al., 2024;Bronnec et al., 2024)。模型权重被调优以优化奖励(通常是人类偏好的代理)。这导致模型将高奖励响应的概率设为高,而对其他响应的概率设为低。然而,可能存在其他奖励相同的响应,但由于训练损失,它们被忽视。理想情况下,我们希望奖励相同的响应具有相同的生成概率。此外,当两个响应之间的奖励差距很小时,我们也希望它们的生成概率接近。为了解决这个限制,我们提出了一种新的训练方法,称为多样化偏好优化(DivPO),旨在平衡给定提示的高质量响应分布。其关键直觉是,与偏好优化中通常对比最高和最低奖励的响应不同,我们选择满足奖励(质量)阈值的最具多样性的响应,并将其与低于奖励阈值的最不多样化响应进行对比。我们的方法旨在不仅实现高质量的生成输出,而且提高多样性。

成为VIP会员查看完整内容
2

相关内容

【ACL2024】多方面可控文本生成与解耦反事实增强
专知会员服务
18+阅读 · 2024年6月3日
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
【ICML2023】多任务分层对抗逆强化学习
专知会员服务
22+阅读 · 2023年5月25日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
23+阅读 · 2022年10月8日
【CVPR2022】提示分布学习
专知会员服务
31+阅读 · 2022年5月17日
专知会员服务
33+阅读 · 2021年7月27日
专知会员服务
12+阅读 · 2021年7月16日
专知会员服务
16+阅读 · 2021年7月7日
专知会员服务
15+阅读 · 2021年6月26日
专知会员服务
38+阅读 · 2021年3月29日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
19+阅读 · 2017年5月10日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
155+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【ACL2024】多方面可控文本生成与解耦反事实增强
专知会员服务
18+阅读 · 2024年6月3日
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
【ICML2023】多任务分层对抗逆强化学习
专知会员服务
22+阅读 · 2023年5月25日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
23+阅读 · 2022年10月8日
【CVPR2022】提示分布学习
专知会员服务
31+阅读 · 2022年5月17日
专知会员服务
33+阅读 · 2021年7月27日
专知会员服务
12+阅读 · 2021年7月16日
专知会员服务
16+阅读 · 2021年7月7日
专知会员服务
15+阅读 · 2021年6月26日
专知会员服务
38+阅读 · 2021年3月29日
相关资讯
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
19+阅读 · 2017年5月10日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员