**决策(Decision-making)旨在基于有限观测采取最优行动以实现特定目标,在战略博弈、金融投资计划和公共政策等诸多领域中发挥着至关重要的作用。然而,在复杂环境中进行决策仍然面临巨大挑战,其根源在于高维且不确定的环境观测与动作、分布外(out-of-distribution, OOD)场景,以及多样化的目标偏好。这些复杂性引发了关于可靠性(reliability)泛化能力(generalization ability)**的担忧:可靠性要求决策算法在每一步都表现良好并确保安全,而泛化能力则要求算法能够在多样化场景中保持有效。因此,本论文聚焦于发展具备可靠性与泛化性的决策算法。研究工作首先设计稳定的强化学习(Reinforcement Learning, RL)方法,以提升高维环境下的序列决策性能;随后从数据中心视角出发,基于生成模型探讨决策的安全边界;最后提出生成式决策方法,将生成模型与强化学习相结合,以突破决策边界并在多样化场景中实现有效性。

强化学习为序列决策任务提供了直接途径,但在高维随机序列推理任务中部署 RL 仍极具挑战性。分层无监督表征学习便是其中一个难点任务,它涉及学习一系列层次化的高维表征,其层间转移服从随机分布映射。这些表征的高维性与不确定性使得 RL 难以直接应用。为解决该问题,我们提出 DC-ETM,该方法首先设计了一种新的 RL 训练范式,引入源自原始训练目标的逐层奖励信号,并采用策略梯度方法进行训练。随后,我们进一步提出一种更高效且更具普适性的 RL 训练流程 RL-HVAE,强调信息传递,通过灵活的跳跃式生成路径(skip-generative path)技术最大限度地保留历史信息,从而改善决策性能。实验结果表明,这些方法显著提升了性能,如解决了序列表征推理过程中的坍塌问题,凸显了 RL 在高维复杂决策中的可靠性与优越性。

可靠性问题不仅源于任务复杂性,也来自于部署挑战,尤其是在训练与部署环境存在差异时。这种差异往往导致模型在未见过的情境下性能下降。因此,识别决策安全边界至关重要。我们从模型输入数据入手,识别训练数据分布的边界,并拒绝分布外的决策。生成模型可通过最大化训练数据的似然来帮助确定该边界,低似然数据被视为 OOD。然而,生成模型常常会意外地高估 OOD 数据的似然,这一现象已被广泛观察到。为此,我们提出了一种实用方法 I-HVAE,通过基于潜变量后验与先验分布一致性的自适应对数似然比来测量 OOD 程度。此外,我们进一步探究了生成模型似然高估问题的根源,识别出两个关键因素:i) 过于简化的先验分布设定;ii) 数据集熵。为缓解高估问题,我们提出 Resultant 方法,从理论上针对这两个因素提供了解决方案。通过识别决策的安全边界,这些方法从数据中心的角度增强了决策模型的可靠性。 同时,实现跨任务设定的泛化性也同样重要。受大规模生成模型(如 GPT 系列)成功经验的启发,我们探索了将这些模型与 RL 相结合以增强**生成式决策(generative decision-making)**的潜力。广告竞价(bidding)是一个理想的真实任务场景,用于验证泛化性,因为在开发生成式决策方法时,它往往面临偏好对齐困难与解释能力有限的问题。在此背景下,我们提出了生成式竞价方法 GAS,基于决策 Transformer 结合后训练搜索(post-training search)以解决偏好对齐问题。具体而言,该搜索基于 Q-learning 并采用 Q-voting 技术提升性能。为进一步增强方法的可解释性,我们又提出了基于扩散模型的生成式竞价方法 CBD。该方法能够生成未来轨迹并据此执行动作,扩散器通过一种新颖的补全范式进行训练,以解决竞价中的因果性问题,并结合轨迹级回报模型来提升决策性能。广泛的实验结果(包括真实部署结果)验证了上述两种方法的有效性。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员