许多目前自动化的顺序决策问题,例如制造业或推荐系统中的问题,都是在几乎没有不确定性或零灾难风险的环境中运行的。随着公司和研究人员试图在较少约束的环境中部署自主系统,赋予序列决策算法对不确定性和风险进行推理的能力变得越来越重要。在本文中,我们将讨论序列决策的规划和强化学习(RL)方法。在规划设置中,假设提供了一个环境模型,并在该模型中优化策略。强化学习依赖于广泛的随机探索,因此通常需要一个模拟器来进行训练。在现实世界的许多领域,不可能构建一个完全准确的模型或模拟器。因此,由于对环境的不完全了解,任何策略的执行都不可避免地具有不确定性。此外,在随机领域中,由于环境固有的随机性,任何给定运行的结果也是不确定的。这两种不确定性的来源通常分别被归类为认知的不确定性和偶然的不确定性。本文的首要目标是帮助开发算法,以减轻序列决策问题中的两种不确定性来源

本文为这一目标做出了一些贡献,重点是基于模型的算法。本文从考虑马尔可夫决策过程(MDP)完全已知的最简单情况开始,提出了一种优化风险规避目标的方法,同时将优化期望值作为次要目标。对于本文的其余部分,我们不再假设MDP是完全指定的。考虑MDP上不确定性的几种不同表示,包括a)候选MDP的不确定性集合,b) MDP的先验分布,以及c)与MDP交互的固定数据集。在设置a)中,提出了一种新的方法来近似最小化最大遗憾目标,并在所有候选MDP中找到一个低次优的单一策略。在b)中,我们建议在贝叶斯自适应MDP中优化风险规避,以在单一框架下避免认知和偶然不确定性带来的风险。在c)中,离线强化学习设置,本文提出两种算法来克服由于只能访问固定数据集而产生的不确定性。第一种方法提出了一种可扩展的算法来解决离线强化学习的鲁棒MDP公式,第二种方法基于风险敏感优化。在最后一章中,我们考虑一种从演示中学习的交互式表述。在这个问题上,有必要对当前政策执行的不确定性进行推理,有选择地选择何时要求进行示威。实验证明,所提出的算法可以在许多不同的领域中产生风险敏感或鲁棒的行为。

成为VIP会员查看完整内容
43

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【伯克利博士论文】可信赖机器学习,227页pdf
专知会员服务
87+阅读 · 2022年12月12日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
24+阅读 · 2021年6月15日
【硬核书】机器学习对抗鲁棒性,276页pdf
专知
8+阅读 · 2022年9月20日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
12+阅读 · 2023年1月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员