Offline Preference-based Reinforcement Learning (PbRL) learns rewards and policies aligned with human preferences without the need for extensive reward engineering and direct interaction with human annotators. However, ensuring safety remains a critical challenge across many domains and tasks. Previous works on safe RL from human feedback (RLHF) first learn reward and cost models from offline data, then use constrained RL to optimize a safe policy. While such an approach works in the contextual bandits settings (LLMs), in long horizon continuous control tasks, errors in rewards and costs accumulate, leading to impairment in performance when used with constrained RL methods. To address these challenges, (a) instead of indirectly learning policies (from rewards and costs), we introduce a framework that learns a policy directly based on pairwise preferences regarding the agent's behavior in terms of rewards, as well as binary labels indicating the safety of trajectory segments; (b) we propose \textsc{PreSa} (Preference and Safety Alignment), a method that combines preference learning module with safety alignment in a constrained optimization problem. This optimization problem is solved within a Lagrangian paradigm that directly learns reward-maximizing safe policy \textit{without explicitly learning reward and cost models}, avoiding the need for constrained RL; (c) we evaluate our approach on continuous control tasks with both synthetic and real human feedback. Empirically, our method successfully learns safe policies with high rewards, outperforming state-of-the-art baselines, and offline safe RL approaches with ground-truth reward and cost.


翻译:离线偏好强化学习(PbRL)无需大量奖励工程设计和与人工标注者的直接交互,即可学习与人类偏好一致的奖励函数和策略。然而,确保安全性在许多领域和任务中仍然是一个关键挑战。先前基于人类反馈的安全强化学习(RLHF)工作首先从离线数据中学习奖励和成本模型,然后使用约束强化学习来优化安全策略。尽管这种方法在上下文赌博机设置(如大语言模型)中有效,但在长时域连续控制任务中,奖励和成本估计的误差会不断累积,导致与约束强化学习方法结合使用时性能受损。为应对这些挑战:(a)我们引入了一种不间接从奖励和成本学习策略的框架,而是直接基于关于智能体奖励行为的成对偏好以及轨迹片段安全性的二元标签来学习策略;(b)我们提出 \textsc{PreSa}(偏好与安全对齐)方法,该方法将偏好学习模块与安全对齐结合在一个约束优化问题中。该优化问题在拉格朗日框架内求解,能够直接学习奖励最大化的安全策略,而无需显式学习奖励和成本模型,从而避免了约束强化学习的需要;(c)我们在包含合成与真实人类反馈的连续控制任务上评估了所提方法。实验表明,我们的方法成功学习了具有高奖励的安全策略,其性能优于最先进的基线方法以及使用真实奖励和成本的离线安全强化学习方法。

0
下载
关闭预览

相关内容

国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月28日
Arxiv
0+阅读 · 2025年12月26日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员