【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划,201页pdf

2023 年 4 月 7 日 专知

许多目前自动化的顺序决策问题,例如制造业或推荐系统中的问题,都是在几乎没有不确定性或零灾难风险的环境中运行的。随着公司和研究人员试图在较少约束的环境中部署自主系统,赋予序列决策算法对不确定性和风险进行推理的能力变得越来越重要。在本文中,我们将讨论序列决策的规划和强化学习(RL)方法。在规划设置中,假设提供了一个环境模型,并在该模型中优化策略。强化学习依赖于广泛的随机探索,因此通常需要一个模拟器来进行训练。在现实世界的许多领域,不可能构建一个完全准确的模型或模拟器。因此,由于对环境的不完全了解,任何策略的执行都不可避免地具有不确定性。此外,在随机领域中,由于环境固有的随机性,任何给定运行的结果也是不确定的。这两种不确定性的来源通常分别被归类为认知的不确定性和偶然的不确定性。本文的首要目标是帮助开发算法,以减轻序列决策问题中的两种不确定性来源

本文为这一目标做出了一些贡献,重点是基于模型的算法。本文从考虑马尔可夫决策过程(MDP)完全已知的最简单情况开始,提出了一种优化风险规避目标的方法,同时将优化期望值作为次要目标对于本文的其余部分,我们不再假设MDP是完全指定的。考虑MDP上不确定性的几种不同表示,包括a)候选MDP的不确定性集合,b) MDP的先验分布,以及c)与MDP交互的固定数据集。在设置a)中,提出了一种新的方法来近似最小化最大遗憾目标,并在所有候选MDP中找到一个低次优的单一策略。在b)中,我们建议在贝叶斯自适应MDP中优化风险规避,以在单一框架下避免认知和偶然不确定性带来的风险。在c)中,离线强化学习设置,本文提出两种算法来克服由于只能访问固定数据集而产生的不确定性。第一种方法提出了一种可扩展的算法来解决离线强化学习的鲁棒MDP公式,第二种方法基于风险敏感优化。在最后一章中,我们考虑一种从演示中学习的交互式表述。在这个问题上,有必要对当前政策执行的不确定性进行推理,有选择地选择何时要求进行示威。实验证明,所提出的算法可以在许多不同的领域中产生风险敏感或鲁棒的行为。

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复或发消息“R201” 就可以获取《【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划,201页pdf》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料

登录查看更多
4

相关内容

【牛津大学博士论文】鲁棒神经网络:评估与构建
专知会员服务
32+阅读 · 2022年10月23日
基于模型的强化学习综述
专知会员服务
132+阅读 · 2022年7月13日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
34+阅读 · 2022年5月21日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2023年5月31日
Arxiv
0+阅读 · 2023年5月29日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员