尽管 直接偏好优化(Direct Preference Optimization, DPO) 在对齐大语言模型(LLMs)方面取得了良好效果,但 奖励劫持(reward hacking) 仍是一个关键挑战。当 LLM 过度降低被拒绝生成的概率以追求高奖励时,却未真正实现预期目标,从而导致生成结果 冗长、缺乏多样性,并引发 知识灾难性遗忘

我们将这一问题的根本原因归结为 参数空间中的神经元坍缩(neuron collapse)所导致的表征冗余。为此,我们提出了一种新颖的 权重旋转偏好优化(Weights-Rotated Preference Optimization, RoPO) 算法:其设计在 输出层 延续了 DPO 中的 KL 散度约束,以隐式限制 logits 的偏移;同时在 中间隐含层状态 上引入 多粒度正交矩阵微调 的显式约束。该机制有效防止策略模型过度偏离参考模型,从而保留预训练与监督微调阶段所获得的知识与表达能力。

在实验中,RoPO 在 AlpacaEval 2 上带来了最高 0.5 分 的提升,并在 MT-Bench 上以仅 0.015% 的可训练参数 超越最佳基线 1.9 至 4.0 分,充分验证了其在缓解 DPO 奖励劫持问题上的有效性。

成为VIP会员查看完整内容
12

相关内容

【ICML2025】关于语言模型对齐中奖励模型稳健性的研究
专知会员服务
14+阅读 · 2025年5月13日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
【NeurIPS2023】稀疏保留的差分隐私大型嵌入模型训练
专知会员服务
15+阅读 · 2023年11月18日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
497+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【ICML2025】关于语言模型对齐中奖励模型稳健性的研究
专知会员服务
14+阅读 · 2025年5月13日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
【NeurIPS2023】稀疏保留的差分隐私大型嵌入模型训练
专知会员服务
15+阅读 · 2023年11月18日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
497+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员