强化学习(Reinforcement Learning,RL)是一种通过与环境交互来学习最优序列决策的机器学习(Machine Learning,ML)技术。近年来,RL 在众多人工智能任务中取得了巨大成功,并被广泛认为是迈向通用人工智能(Artificial General Intelligence,AGI)的关键技术之一。在这一背景下,受约束强化学习(constrained RL)逐渐发展成为一个重要研究方向,旨在解决在多样化应用场景中、在约束条件下优化决策行为的挑战。本论文提出了一系列新的理论基础与实用算法,以推动受约束强化学习领域的发展。 论文首先研究了平均回报准则下的受约束马尔可夫决策过程(Constrained Markov Decision Processes,CMDPs),并提出了平均受约束策略优化(Average-Constrained Policy Optimization,ACPO)算法。ACPO 结合灵敏度理论(sensitivity theory)与信赖域优化(trust-region optimization)技术,不仅在复杂环境中相较于现有最先进方法展现出更优的经验性能,还提供了坚实的理论保证。随后,论文将受约束强化学习扩展至情节式(episodic)设置,提出了 e-COP 算法,这是首个专门针对有限时域 CMDP 的策略优化框架。e-COP 基于一种新的情节式策略差分引理(policy difference lemma),在保持算法简洁性与可扩展性的同时,具备稳健的理论保证。其在安全约束基准任务中的成功表现,凸显了其在更广泛应用中的潜力,例如基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)。 针对 AGI 背景下 RLHF 重要性的不断提升,亟需能够将人类偏好反馈有效融入 RL 算法的方法。鉴于人类反馈往往具有噪声性,论文提出了 warmPref-PS,一种后验采样(posterior sampling)算法,旨在在线性多臂老虎机环境中,将来自不同能力水平评审者的离线偏好数据整合进在线学习过程。该算法显著降低了遗憾(regret),并验证了通过建模评审者能力来实现自适应数据采集与模型微调在 RLHF 场景中的有效性。进一步地,论文深入探讨了基于偏好的强化学习(Preference-based RL,PbRL),该范式以二元轨迹比较而非显式奖励作为学习信号。通过利用离线数据集并建模评审者能力,论文提出了 PSPL 算法,该算法同时对奖励模型与转移动态进行后验采样。论文给出了 PSPL 的贝叶斯简单遗憾(simple regret)理论界,并通过实验结果验证了其在识别最优策略方面的正确性与鲁棒性。 最后,论文将上述优化方法与 RLHF 的理论成果落地到实际应用中,从受约束优化的视角研究大语言模型(Large Language Models,LLMs)的多目标对齐问题:在最大化主目标的同时,约束次级目标不低于可调阈值。由此提出了一种迭代算法 MOPO,该算法具有闭式更新形式,能够扩展至数十亿参数规模的 LLM,并且对超参数选择具有较强鲁棒性。 通过上述一系列贡献,本论文在多种范式下统一了受约束强化学习的研究框架,从策略优化到偏好对齐,不仅深化了对受约束决策问题的理论理解,也显著提升了其实践有效性。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
微信扫码咨询专知VIP会员