面向排序与扩散模型的安全、高效与鲁棒强化学习

本论文研究如何设计强化学习(Reinforcement Learning, RL)方法,使其具备安全性(safety)样本效率(sample efficiency)鲁棒性(robustness)。在**上下文多臂赌博机(contextual-bandit RL)**的统一视角下,本研究聚焦于两个主要应用领域: 1. 排序与推荐系统(ranking and recommendation), 1. 文本到图像扩散模型(text-to-image diffusion models)


**第一部分:排序系统中的安全部署

论文首先提出了用于排序系统安全部署的理论与算法框架。研究推导出一种基于曝光度(exposure-based)的泛化界(generalisation bound),并据此构建了反事实风险最小化(counterfactual risk minimisation)目标函数。其解在反馈稀疏的情况下仍能保证性能不劣于日志策略(logging policy)。 该安全性保证进一步扩展到双鲁棒估计器(doubly robust estimators),从而在对抗性用户行为或模型失配(misspecified user models)下仍能保持安全。此外,该方法为实践者提供了对可接受效用损失的显式可控性(explicit control over permissible utility loss)


**第二部分:单动作赌博机中的方差约简统一

论文随后聚焦于单动作多臂赌博机(single-action bandits),在此框架下统一了多种离策略估计器(off-policy estimators)。作者提出了一种闭式最优基线(closed-form optimal baseline),并证明该基线可同时最小化评估方差与策略梯度方差,从而显著提升离策略学习的稳定性与可靠性。


**第三部分:生成式强化学习中的效率–效果权衡

最后,论文探讨了**生成式强化学习(generative RL)中效率与效果之间的权衡问题。通过对 PPO(Proximal Policy Optimization)REINFORCE 的系统性分析,提出了 Leave-One-Out PPO(LOOP) 算法。 LOOP 在 PPO 的截断目标函数(clipped objective)中融合了多重扩散轨迹(multiple diffusion trajectories)**与 REINFORCE 风格基线(REINFORCE-style baseline),在保持与 PPO 相同的样本效率的同时,生成的结果在语义属性上与文本描述更加一致。 https://hdl.handle.net/11245.1/669b7ddf-8c57-44c1-917d-9160ae14c04e

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
微信扫码咨询专知VIP会员