本论文研究如何设计强化学习(Reinforcement Learning, RL)方法,使其具备安全性(safety)、样本效率(sample efficiency)与鲁棒性(robustness)。在**上下文多臂赌博机(contextual-bandit RL)**的统一视角下,本研究聚焦于两个主要应用领域: 1. 排序与推荐系统(ranking and recommendation), 1. 文本到图像扩散模型(text-to-image diffusion models)。
论文首先提出了用于排序系统安全部署的理论与算法框架。研究推导出一种基于曝光度(exposure-based)的泛化界(generalisation bound),并据此构建了反事实风险最小化(counterfactual risk minimisation)目标函数。其解在反馈稀疏的情况下仍能保证性能不劣于日志策略(logging policy)。 该安全性保证进一步扩展到双鲁棒估计器(doubly robust estimators),从而在对抗性用户行为或模型失配(misspecified user models)下仍能保持安全。此外,该方法为实践者提供了对可接受效用损失的显式可控性(explicit control over permissible utility loss)。
论文随后聚焦于单动作多臂赌博机(single-action bandits),在此框架下统一了多种离策略估计器(off-policy estimators)。作者提出了一种闭式最优基线(closed-form optimal baseline),并证明该基线可同时最小化评估方差与策略梯度方差,从而显著提升离策略学习的稳定性与可靠性。
最后,论文探讨了**生成式强化学习(generative RL)中效率与效果之间的权衡问题。通过对 PPO(Proximal Policy Optimization) 与 REINFORCE 的系统性分析,提出了 Leave-One-Out PPO(LOOP) 算法。 LOOP 在 PPO 的截断目标函数(clipped objective)中融合了多重扩散轨迹(multiple diffusion trajectories)**与 REINFORCE 风格基线(REINFORCE-style baseline),在保持与 PPO 相同的样本效率的同时,生成的结果在语义属性上与文本描述更加一致。 https://hdl.handle.net/11245.1/669b7ddf-8c57-44c1-917d-9160ae14c04e