【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

面向排序与扩散模型的安全、高效与鲁棒强化学习

本论文研究如何设计强化学习（Reinforcement Learning, RL）方法，使其具备安全性（safety）、样本效率（sample efficiency）与鲁棒性（robustness）。在**上下文多臂赌博机（contextual-bandit RL）**的统一视角下，本研究聚焦于两个主要应用领域： 1. 排序与推荐系统（ranking and recommendation）， 1. 文本到图像扩散模型（text-to-image diffusion models）。

**第一部分：排序系统中的安全部署

论文首先提出了用于排序系统安全部署的理论与算法框架。研究推导出一种基于曝光度（exposure-based）的泛化界（generalisation bound），并据此构建了反事实风险最小化（counterfactual risk minimisation）目标函数。其解在反馈稀疏的情况下仍能保证性能不劣于日志策略（logging policy）。该安全性保证进一步扩展到双鲁棒估计器（doubly robust estimators），从而在对抗性用户行为或模型失配（misspecified user models）下仍能保持安全。此外，该方法为实践者提供了对可接受效用损失的显式可控性（explicit control over permissible utility loss）。

**第二部分：单动作赌博机中的方差约简统一

论文随后聚焦于单动作多臂赌博机（single-action bandits），在此框架下统一了多种离策略估计器（off-policy estimators）。作者提出了一种闭式最优基线（closed-form optimal baseline），并证明该基线可同时最小化评估方差与策略梯度方差，从而显著提升离策略学习的稳定性与可靠性。

**第三部分：生成式强化学习中的效率–效果权衡

最后，论文探讨了**生成式强化学习（generative RL）中效率与效果之间的权衡问题。通过对 PPO（Proximal Policy Optimization） 与 REINFORCE 的系统性分析，提出了 Leave-One-Out PPO（LOOP） 算法。 LOOP 在 PPO 的截断目标函数（clipped objective）中融合了多重扩散轨迹（multiple diffusion trajectories）**与 REINFORCE 风格基线（REINFORCE-style baseline），在保持与 PPO 相同的样本效率的同时，生成的结果在语义属性上与文本描述更加一致。 https://hdl.handle.net/11245.1/669b7ddf-8c57-44c1-917d-9160ae14c04e

成为VIP会员查看完整内容

相关内容

博士论文

关注 121

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

VIP会员